Introduzione
Questo documento descrive la causa dei timeout di watchdog sui router Cisco e spiega come risolverli.
Prerequisiti
Requisiti
Questo documento è utile per conoscere i seguenti argomenti:
Componenti usati
Le informazioni fornite in questo documento si basano sulle seguenti versioni software e hardware:
Nota: questo documento non si applica agli switch Cisco Catalyst o alle piattaforme MGX, ma solo ai router Cisco.
Le informazioni discusse in questo documento fanno riferimento a dispositivi usati in uno specifico ambiente di emulazione. Su tutti i dispositivi menzionati nel documento la configurazione è stata ripristinata ai valori predefiniti. Se la rete è operativa, valutare attentamente eventuali conseguenze derivanti dall'uso dei comandi.
Convenzioni
Per ulteriori informazioni sulle convenzioni usate, consultare il documento Cisco sulle convenzioni nei suggerimenti tecnici.
Identifica timeout watchdog
I processori Cisco dispongono di timer che proteggono da determinati tipi di blocchi del sistema. La CPU reimposta periodicamente un timer di watchdog. Il timer di watchdog controlla fondamentalmente l'ora di ogni processo. Se il timer non viene reimpostato, si verifica una trap. Se un processo è più lungo di quanto deve essere, il timer di watchdog viene utilizzato per uscire da questo processo.
Questo accade solo se qualcosa va storto. In base alla situazione, il router può resettarsi o riprendersi dall'errore e generare un messaggio di errore nei log della console, come segue:
*** Watch Dog Timeout ***
PC = 0x6022536C, SP = 0x00000000
o
%SYS-2-WATCHDOG: Process aborted on watchdog timeout, process = Exec
*** System received a Software forced crash ***
signal = 0x17, code = 0x24, context= 0x60ceca60
Se non si spegne o non si ricarica manualmente il router, l'output del comando show version sarà simile al seguente:
Router#show version
...
Router uptime is 1 hour, 47 minutes
System restarted by watchdog timer expired at 09:26:24 UTC Mon Mar 27 2000
System image file is "flash:c3640-is-mz.113-7-T.bin", booted via flash
...
se il dispositivo Cisco restituisce i risultati di un comando show version, è possibile usare Cisco CLI Analyzer per visualizzare i potenziali errori e correggerli. Per utilizzare Cisco CLI Analyzer, è necessario essere un cliente registrato, aver eseguito l'accesso e avere JavaScript abilitato.
Risoluzione dei problemi
La causa principale del timeout del watchdog può essere legata all'hardware o al software. Di seguito sono riportati i sintomi comuni attraverso i quali è possibile identificare la causa del problema:
-
Se un router che è stato correttamente operativo per mesi inizia improvvisamente a ricaricarsi ogni 20 minuti, o se si riavvia continuamente e non è più possibile accedervi, il problema è molto probabilmente relativo all'hardware. Ciò si verifica anche se di recente è stato installato un nuovo modulo e il router si blocca in seguito a un timeout di watchdog.
-
Se il router inizia a bloccarsi dopo una modifica alla configurazione o alla versione del software Cisco IOS, si tratta probabilmente di un problema relativo al software.
Il primo passaggio per risolvere questo tipo di problema consiste nell'identificare il tipo di timeout di watchdog riscontrato. Esistono due tipi di timeout di watchdog:
Timeout watchdog software
Questo timeout è causato da un loop infinito a livello di interrupt o da un problema hardware. Di seguito sono riportate alcune indicazioni di questo tipo di timeout:
-
I log della console contengono le righe seguenti:
*** Timeout Watch Dog ***
PC = 0x6022536C, SP = 0x00000000
-
L'output show version riporta il motivo del ricaricamento come un "timer watchdog scaduto":
Router#show version
...
Router uptime is 1 hour, 47 minutes
System restarted by watchdog timer expired at 06:30:24 UTC Mon Jan 28 2000
System image file is "flash:c3640-is-mz.113-7-T.bin", booted via flash
-
Nessun file crashinfo generato. Per ulteriori informazioni, vedere Recupero di informazioni dal file Crashinfo.
Nella maggior parte dei casi, questi messaggi indicano un problema hardware, sia con la scheda del processore principale che con uno dei moduli.
Dopo aver identificato il timeout di un watchdog software, il passo successivo consiste nel controllare il Riepilogo delle notifiche sul campo dei prodotti per la piattaforma in uso e tutti i componenti installati nel sistema per individuare i problemi hardware critici noti. Ad esempio, è disponibile un avviso sul campo per i router Cisco serie 3600: Cisco 3600 T1/E1 PRI Module Watchdog Timeout. Accertarsi di controllare gli avvisi sui prodotti prima di procedere con la risoluzione dei problemi.
Se un nuovo modulo è stato installato di recente, è necessario prima provare a rimuoverlo per verificare se è la causa del timeout del watchdog. Se il timeout del watchdog persiste, provare a ricollocare tutti i componenti rimovibili.
Se il timeout del watchdog continua a questo punto, non sono presenti avvisi sul campo per l'hardware e se non è stato recentemente installato alcun modulo, procedere e sostituire la scheda del processore principale. Nelle piattaforme high-end, la scheda del processore è una scheda separata (come NPE-400 o RSP8). Sulle piattaforme di fascia bassa (Cisco 1700, 2500, 4000, 2600, 3600 e così via), la scheda madre non può essere spedita separatamente. In tal caso, è necessario sostituire lo chassis.
Timeout watchdog processi
Questo timeout è causato da un loop infinito a livello di processo. Di seguito sono riportate alcune indicazioni di questo timeout:
-
I log della console contengono le righe seguenti:
%SYS-2-WATCHDOG: Process aborted on watchdog timeout,
process = Exec
*** System received a Software forced crash ***
signal = 0x17, code = 0x24, context= 0x60ceca60
-
L'output del comando show version riporta l'arresto anomalo come un "arresto forzato dal software":
Router#show version
...
Router uptime is 2 days, 21 hours, 30 minutes
System restarted by error - Software-forced crash,
PC 0x316EF90 at 20:22:37 edt
System image file is "flash:c2500-is-l.112-15a.bin",
booted via flash
-
Un file crashinfo viene generato per le piattaforme che lo supportano.
Questo problema è probabilmente un bug del software Cisco IOS.
se il dispositivo Cisco restituisce i risultati di un comando show stack, è possibile usare Cisco CLI Analyzer per visualizzare i potenziali errori e correggerli. Per utilizzare Cisco CLI Analyzer, è necessario essere un cliente registrato, aver eseguito l'accesso e avere JavaScript abilitato.
Tuttavia, il sistema era bloccato in un loop prima del ricaricamento. Pertanto, l'analisi dello stack non deve essere necessariamente rilevante. È possibile effettuare l'aggiornamento all'ultima versione del software Cisco IOS nella release train per eliminare tutti i problemi noti di Process Watchdog. Se dopo l'aggiornamento si verifica ancora un guasto, raccogliere quante più informazioni possibili (vedere Risoluzione dei problemi di blocco del router) e contattare il supporto tecnico.
Messaggi di errore correlati al timeout del watchdog
Ci sono altri messaggi di errore della console relativi ai timer di watchdog. Non confondere questi messaggi con un arresto anomalo del timer di watchdog. Accertarsi di controllare il significato di questi messaggi di errore con l'aiuto del decodificatore dei messaggi di errore (solo utenti registrati). Questo strumento fornisce una spiegazione dettagliata di molti messaggi di errore e consiglia azioni per risolverli.
Considerare questo messaggio:
%SYS-2-WATCHDOG: Process aborted on watchdog timeout,
process = [chars]
Questo messaggio indica che il processo specificato è stato eseguito per troppo tempo e che il processore non è stato abbandonato. Il sistema ha arrestato il processo indicato. In base alla configurazione, ciò può causare un arresto anomalo del sistema. Se il messaggio viene visualizzato una sola volta, non è necessario eseguire alcuna azione. Tuttavia, se si verifica di nuovo, è necessario trattarlo come un Timeout di Process Watchdog e adottare le misure necessarie.
Informazioni da raccogliere se si apre una richiesta di servizio TAC
| Se dopo aver eseguito le procedure di risoluzione dei problemi descritte sopra è ancora necessaria assistenza e si desidera aprire una richiesta di assistenza (solo utenti registrati) con Cisco TAC, includere le seguenti informazioni: |
- La risoluzione dei problemi è stata eseguita prima dell'apertura della richiesta di assistenza.
- mostra uscita supporto tecnico (in modalità abilitazione, se possibile).
- mostra l'output del log o le acquisizioni della console, se disponibili.
- esegui-on slot [slot #] show tech per lo slot che ha sperimentato il crash della scheda di linea.
- Il file crashinfo (se disponibile, e non è già stato incluso nell'output show technical-support).
Allegare i dati raccolti alla richiesta di assistenza in formato testo normale non compresso (txt). È possibile allegare informazioni alla richiesta di assistenza caricandola utilizzando lo strumento TAC Service Request (solo utenti registrati). Se non è possibile accedere allo strumento Richiesta di assistenza, è possibile inviare le informazioni in un allegato e-mail a attach@cisco.com con il numero della richiesta di assistenza in oggetto. Nota: non ricaricare o spegnere e riaccendere manualmente il router prima di raccogliere le informazioni sopra menzionate, a meno che non sia necessario per risolvere un problema di scheda di linea sul router Cisco Internet serie 12000, in quanto ciò potrebbe causare la perdita di informazioni importanti necessarie per determinare la causa principale del problema. |
Informazioni correlate