Inleiding
Dit document beschrijft de oorzaak van Watchdog Timeouts op Cisco-routers en legt uit hoe u deze problemen kunt oplossen.
Voorwaarden
Vereisten
Lezers van dit document dienen kennis te hebben van deze onderwerpen:
Gebruikte componenten
De informatie in dit document is gebaseerd op de volgende software- en hardware-versies:
Opmerking: Dit document is niet van toepassing op Cisco Catalyst-switches of MGX-platformen, maar alleen op Cisco-routers.
De informatie in dit document is gebaseerd op de apparaten in een specifieke laboratoriumomgeving. Alle apparaten die in dit document worden beschreven, hadden een opgeschoonde (standaard)configuratie. Als uw netwerk live is, moet u de potentiële impact van elke opdracht begrijpen.
Conventies
Raadpleeg Cisco Technical Tips Conventions (Conventies voor technische tips van Cisco) voor meer informatie over documentconventies.
Time-outs voor waakhond identificeren
Cisco-processors hebben timers die beschermen tegen bepaalde typen systeemophangingen. De CPU stelt periodiek een watchdog-timer in. De waakhondtimer bepaalt in principe de tijd van elk proces. Als de timer niet wordt gereset, treedt een val op. Als een proces langer duurt dan nodig is, wordt de waakhondtimer gebruikt om uit dit proces te ontsnappen.
Dit gebeurt alleen als er iets misgaat. Op basis van de situatie kan de router zichzelf resetten of herstellen van de storing en een foutmelding genereren in de consolelogs, die er als volgt uitziet:
*** Watch Dog Timeout ***
PC = 0x6022536C, SP = 0x00000000
of
%SYS-2-WATCHDOG: Process aborted on watchdog timeout, process = Exec
*** System received a Software forced crash ***
signal = 0x17, code = 0x24, context= 0x60ceca60
Als u de router niet uitschakelt of handmatig opnieuw laadt, ziet de uitvoer van de opdracht Versie weergeven er als volgt uit:
Router#show version
...
Router uptime is 1 hour, 47 minutes
System restarted by watchdog timer expired at 09:26:24 UTC Mon Mar 27 2000
System image file is "flash:c3640-is-mz.113-7-T.bin", booted via flash
...
Als u de uitvoer van een opdracht versie weergeven vanaf uw Cisco-apparaat, kunt u Cisco CLI Analyzer gebruiken om potentiële problemen en oplossingen weer te geven. Als u Cisco CLI Analyzer wilt gebruiken, moet u een geregistreerde klant zijn, ingelogd zijn en JavaScript hebben ingeschakeld.
Problemen oplossen
De hoofdoorzaak van de time-out van de waakhond kan hardware- of softwaregerelateerd zijn. Hier zijn de meest voorkomende symptomen waarmee u de bron van het probleem kunt identificeren:
-
Als een router die al maanden goed werkt, plotseling elke 20 minuten opnieuw wordt geladen, of als deze voortdurend opnieuw wordt opgestart en u er geen toegang meer toe hebt, is het probleem waarschijnlijk een hardwareprobleem. Dit is ook het geval als er onlangs een nieuwe module is geïnstalleerd en de router daarna crasht door een time-out van de waakhond.
-
Als de router crasht na een configuratiewijziging of een wijziging in de Cisco IOS-softwareversie, is dit waarschijnlijk een softwaregerelateerd probleem.
De eerste stap om dit soort problemen op te lossen, is om het type time-out voor waakhonden te identificeren dat u tegenkomt. Er zijn twee soorten Watchdog Timeouts:
Time-out voor softwarewaakhond
Deze time-out wordt veroorzaakt door een oneindige lus op interrupt-niveau, of door een hardwareprobleem. Hier zijn enkele aanwijzingen voor dit type time-out:
-
Consolelogs bevatten de volgende regels:
*** Watch Dog Time-out ***
PC = 0x6022536C, SP = 0x00000000
-
De uitvoer van de weergaveversie meldt de reden voor het opnieuw laden als een "waakhondtimer verlopen":
Router#show version
...
Router uptime is 1 hour, 47 minutes
System restarted by watchdog timer expired at 06:30:24 UTC Mon Jan 28 2000
System image file is "flash:c3640-is-mz.113-7-T.bin", booted via flash
-
Er wordt geen crashinfo-bestand gegenereerd. Zie Informatie ophalen uit het Crashinfo-bestand voor meer informatie.
Meestal wijzen deze berichten op een hardwareprobleem, hetzij met het hoofdprocessorbord of met een van de modules.
Nadat u een time-out voor een softwarewaakhond hebt vastgesteld, is de volgende stap het controleren van de samenvatting van de productveldmelding voor uw platform en alle componenten die in dat systeem zijn geïnstalleerd op bekende kritieke hardwareproblemen. Er is bijvoorbeeld één Field Notice voor de Cisco 3600 Series Router: Cisco 3600 T1/E1 PRI Module Watchdog Timeouts. Controleer de veldmeldingen voordat u verdere problemen oplost.
Als een nieuwe module onlangs is geïnstalleerd, moet u eerst proberen deze te verwijderen om te controleren of dit de reden is voor de time-out van de waakhond. Als de time-out van de waakhond aanhoudt, probeer dan alle verwijderbare onderdelen opnieuw te plaatsen.
Als de time-out van de waakhond op dit punt doorgaat, zijn er geen veldmeldingen voor uw hardware en als er onlangs geen nieuwe module is geïnstalleerd, gaat u verder en vervangt u het hoofdprocessorbord. Op high-end platforms is de processorkaart een aparte kaart (zoals de NPE-400 of RSP8). Op low-end platforms (Cisco 1700, 2500, 4000, 2600, 3600, enzovoort) kan het moederbord niet afzonderlijk worden verzonden. In dit geval moet u het chassis zelf vervangen.
Time-out voor Proceswaakhond
Deze time-out wordt veroorzaakt door een oneindige lus op procesniveau. Hier zijn enkele aanwijzingen voor deze time-out:
-
Consolelogs bevatten de volgende regels:
%SYS-2-WATCHDOG: Process aborted on watchdog timeout,
process = Exec
*** System received a Software forced crash ***
signal = 0x17, code = 0x24, context= 0x60ceca60
-
De show-versie meldt de crash als een "software-geforceerde crash":
Router#show version
...
Router uptime is 2 days, 21 hours, 30 minutes
System restarted by error - Software-forced crash,
PC 0x316EF90 at 20:22:37 edt
System image file is "flash:c2500-is-l.112-15a.bin",
booted via flash
-
Er wordt een crashinfo-bestand gegenereerd voor platforms die dit ondersteunen.
Dit probleem is waarschijnlijk een Cisco IOS-softwarebug.
Als u de uitvoer van een show stacks-opdracht vanaf uw Cisco-apparaat hebt, kunt u Cisco CLI Analyzer gebruiken om mogelijke problemen en oplossingen weer te geven. Als u Cisco CLI Analyzer wilt gebruiken, moet u een geregistreerde klant zijn, ingelogd zijn en JavaScript hebben ingeschakeld.
Het systeem zat echter vast in een lus voor de herlading. Daarom hoeft de stack trace niet noodzakelijk relevant te zijn. U kunt upgraden naar de nieuwste Cisco IOS-softwareversie in uw releasetrein om alle bekende Process Watchdog-problemen te elimineren. Als er na de upgrade nog steeds een crash optreedt, verzamelt u zoveel mogelijk informatie (zie Crashes van routers voor probleemoplossing) en neemt u contact op met uw vertegenwoordiger voor technische ondersteuning.
Foutberichten met betrekking tot Time-out voor waakhond
Er zijn andere console-foutmeldingen met betrekking tot watchdog-timers. Verwar deze berichten niet met een crash van de waakhondtimer. Controleer de betekenis van deze foutmeldingen met behulp van de foutberichtendecoder (alleen geregistreerde klanten). Deze tool geeft u een gedetailleerde uitleg van veel foutmeldingen en beveelt acties aan om deze op te lossen.
Overweeg deze boodschap:
%SYS-2-WATCHDOG: Process aborted on watchdog timeout,
process = [chars]
Dit bericht geeft aan dat het opgegeven proces te lang is uitgevoerd en dat de processor niet is opgegeven. Het systeem heeft het aangegeven proces uitgeschakeld. Op basis van uw configuratie kan dit leiden tot een systeemcrash. Als het bericht slechts één keer wordt weergegeven, hoeft u geen actie te ondernemen. Als het echter opnieuw optreedt, moet u het behandelen als een Process Watchdog Timeout, en de nodige actie ondernemen.
Informatie die u moet verzamelen als u een TAC-serviceaanvraag opent
| Als u na het volgen van de bovenstaande stappen voor probleemoplossing nog steeds hulp nodig hebt en een serviceverzoek wilt openen (alleen voor geregistreerde klanten) met de Cisco TAC, moet u de volgende informatie opnemen: |
- Problemen oplossen voordat de serviceaanvraag wordt geopend.
- Toon de uitvoer voor technische ondersteuning (indien mogelijk in de inschakelmodus).
- Loguitvoer of consoleopnamen weergeven, indien beschikbaar.
- Execute-on slot [slot #] Toon technologie voor de sleuf die de crash van de lijnkaart heeft meegemaakt.
- Het crashinfo bestand (als het beschikbaar is, en nog niet is opgenomen in de show technical-support output).
Voeg de verzamelde gegevens toe aan uw serviceaanvraag in niet-gezipte, platte tekstindeling (.txt). U kunt informatie aan uw serviceverzoek toevoegen door deze te uploaden met behulp van de tool TAC Service Request (alleen geregistreerde klanten). Als u de tool Serviceverzoek niet kunt openen, kunt u de informatie in een e-mailbijlage naar attach@cisco.com sturen met uw serviceaanvraagnummer in de onderwerpregel van uw bericht. Opmerking: Gelieve de router niet handmatig opnieuw te laden of uit te schakelen voordat u de bovenstaande informatie verzamelt, tenzij dit nodig is om een crash van de lijnkaart op de Cisco 12000 Series Internet Router op te lossen, omdat dit kan leiden tot het verlies van belangrijke informatie die nodig is om de hoofdoorzaak van het probleem te bepalen. |
Gerelateerde informatie