Introduction
Ce document décrit la cause des dépassements du délai de surveillance sur les routeurs Cisco et explique comment les dépanner.
Conditions préalables
Exigences
Les lecteurs de ce document doivent connaître les sujets suivants :
Composants utilisés
Les informations contenues dans ce document sont basées sur les versions de matériel et de logiciel suivantes :
Remarque : ce document ne s'applique pas aux commutateurs Cisco Catalyst ou aux plates-formes MGX, mais uniquement aux routeurs Cisco.
The information in this document was created from the devices in a specific lab environment. All of the devices used in this document started with a cleared (default) configuration. If your network is live, make sure that you understand the potential impact of any command.
Conventions
Pour plus d'informations sur les conventions des documents, référez-vous à Conventions des conseils techniques Cisco.
Identifier les délais de surveillance
Les processeurs Cisco disposent de minuteurs qui protègent contre certains types de blocage du système. Le processeur réinitialise périodiquement un minuteur de chien de garde. Le temporisateur de contrôle de séquence contrôle essentiellement l'heure de chaque processus. Si le minuteur n'est pas réinitialisé, un déroutement se produit. Si un processus est plus long qu'il ne doit l'être, le temporisateur de surveillance est utilisé pour s'échapper de ce processus.
Cela ne se produit que si quelque chose tourne mal. En fonction de la situation, le routeur peut se réinitialiser lui-même ou se rétablir après la panne et générer un message d'erreur dans les journaux de la console, qui ressemble à ceci :
*** Watch Dog Timeout ***
PC = 0x6022536C, SP = 0x00000000
ou
%SYS-2-WATCHDOG: Process aborted on watchdog timeout, process = Exec
*** System received a Software forced crash ***
signal = 0x17, code = 0x24, context= 0x60ceca60
Si vous ne redémarrez pas le routeur ou ne le redémarrez pas manuellement, le résultat de la commande show version ressemble à ceci :
Router#show version
...
Router uptime is 1 hour, 47 minutes
System restarted by watchdog timer expired at 09:26:24 UTC Mon Mar 27 2000
System image file is "flash:c3640-is-mz.113-7-T.bin", booted via flash
...
Si vous disposez de la sortie d'une commande show version de votre périphérique Cisco, vous pouvez utiliser Cisco CLI Analyzer pour afficher les problèmes potentiels et les correctifs. Pour utiliser Cisco CLI Analyzer, vous devez être un client inscrit, être connecté et avoir activé JavaScript.
Dépannage
La cause principale du délai d'attente du chien de garde peut être liée au matériel ou au logiciel. Voici les symptômes courants par lesquels vous pouvez identifier la source du problème :
-
Si un routeur qui fonctionne correctement depuis des mois commence soudainement à se recharger toutes les 20 minutes, ou s'il redémarre continuellement et que vous ne pouvez plus y accéder, le problème est probablement lié au matériel. C'est également le cas si un nouveau module a été installé récemment et que le routeur tombe en panne par dépassement du délai d'attente du chien de garde.
-
Si le routeur commence à tomber en panne après une modification de la configuration ou de la version du logiciel Cisco IOS, il s’agit probablement d’un problème logiciel.
La première étape du dépannage de ce type de problème consiste à identifier le type de délai d'attente de surveillance que vous rencontrez. Il existe deux types de délais de surveillance :
Délai de surveillance logicielle
Ce délai d'attente est provoqué par une boucle infinie au niveau d'interruption ou par un problème matériel. Voici quelques indications de ce type de délai d'attente :
-
Les journaux de console contiennent les lignes suivantes :
*** Regarder la temporisation des chiens ***
PC = 0x6022536C, SP = 0x00000000
-
Le résultat de la commande show version signale la raison du rechargement comme étant « le délai de surveillance a expiré » :
Router#show version
...
Router uptime is 1 hour, 47 minutes
System restarted by watchdog timer expired at 06:30:24 UTC Mon Jan 28 2000
System image file is "flash:c3640-is-mz.113-7-T.bin", booted via flash
-
Aucun fichier crashinfo n'est généré. Consultez Récupération d'informations à partir du fichier Crashinfo pour plus de détails.
La plupart du temps, ces messages indiquent un problème matériel, soit avec la carte processeur principale, soit avec l'un des modules.
Une fois que vous avez identifié un délai d'attente de surveillance logicielle, l'étape suivante consiste à vérifier le résumé de notification de champ de produit pour votre plate-forme et tous les composants installés dans ce système pour les problèmes matériels critiques connus. Par exemple, il existe un avis de champ pour le routeur de la gamme Cisco 3600 : Délais de surveillance du module Cisco 3600 T1/E1 PRI. Assurez-vous de consulter les notices de champ avant de poursuivre le dépannage.
Si un nouveau module a été installé récemment, vous devez d'abord essayer de le supprimer pour vérifier s'il est la raison du délai d'attente du chien de garde. Si le délai d'attente du chien de garde persiste, essayez de réinstaller tous les composants amovibles.
Si le délai d'attente du chien de garde se poursuit à ce stade, il n'y a pas d'avis de champ pour votre matériel, et si aucun nouveau module n'a été installé récemment, allez-y et remplacez la carte processeur principale. Sur les plates-formes haut de gamme, la carte processeur est une carte séparée (telle que le NPE-400 ou le RSP8). Sur les plates-formes bas de gamme (Cisco 1700, 2500, 4000, 2600, 3600, etc.), la carte mère ne peut pas être livrée séparément. Dans ce cas, vous devez remplacer le châssis.
Délai de surveillance du processus
Ce délai est provoqué par une boucle infinie au niveau du processus. Voici quelques indications de ce délai d'attente :
-
Les journaux de console contiennent les lignes suivantes :
%SYS-2-WATCHDOG: Process aborted on watchdog timeout,
process = Exec
*** System received a Software forced crash ***
signal = 0x17, code = 0x24, context= 0x60ceca60
-
Le résultat de la commande show version rapporte le plantage comme un « plantage forcé par le logiciel » :
Router#show version
...
Router uptime is 2 days, 21 hours, 30 minutes
System restarted by error - Software-forced crash,
PC 0x316EF90 at 20:22:37 edt
System image file is "flash:c2500-is-l.112-15a.bin",
booted via flash
-
Un fichier crashinfo est généré pour les plates-formes qui le prennent en charge.
Ce problème est très probablement un bogue du logiciel Cisco IOS.
Si vous disposez de la sortie d'une commande show stacks de votre périphérique Cisco, vous pouvez utiliser Cisco CLI Analyzer pour afficher les problèmes potentiels et les correctifs. Pour utiliser Cisco CLI Analyzer, vous devez être un client inscrit, être connecté et avoir activé JavaScript.
Cependant, le système était bloqué dans une boucle avant le rechargement. Par conséquent, la trace de la pile n'a pas besoin d'être pertinente. Vous pouvez effectuer une mise à niveau vers la dernière version de la plate-forme logicielle Cisco IOS dans votre catégorie de version pour éliminer tous les problèmes connus de Process Watchdog. Si une panne se produit toujours après la mise à niveau, collectez autant d'informations que possible (voir Dépannage des pannes de routeur) et contactez votre représentant du support technique.
Messages d'erreur liés au délai de surveillance
Il existe d'autres messages d'erreur de console liés aux compteurs de surveillance. Ne confondez pas ces messages avec un arrêt du minuteur de chien de garde. Assurez-vous de vérifier la signification de ces messages d'erreur à l'aide du Décodeur de message d'erreur (clients enregistrés seulement) . Cet outil fournit une explication détaillée de nombreux messages d'erreur et recommande des actions pour les résoudre.
Considérez ce message :
%SYS-2-WATCHDOG: Process aborted on watchdog timeout,
process = [chars]
Ce message indique que le processus spécifié s'est exécuté pendant trop longtemps et que le processeur n'a pas été abandonné. Le système a arrêté le processus indiqué. Selon votre configuration, cela peut entraîner une panne du système. Si le message ne s'affiche qu'une seule fois, vous n'avez aucune action à entreprendre. Cependant, si elle se reproduit, vous devez la traiter comme un délai d'attente de surveillance du processus, et prendre l'action nécessaire.
Informations à collecter si vous ouvrez une demande de service TAC
| Si vous avez toujours besoin d'aide après avoir suivi les étapes de dépannage ci-dessus et que vous souhaitez ouvrir une demande de service (pour les clients enregistrés uniquement) auprès du TAC Cisco, veillez à inclure les informations suivantes : |
- Dépannage effectué avant l'ouverture de la demande de service.
- show technical-support output (en mode enable si possible).
- show log output ou console captures, le cas échéant.
- execute-on slot [slot # ] show tech pour le slot qui a subi la panne de la carte de ligne.
- Le fichier crashinfo (s'il est disponible, et n'a pas déjà été inclus dans le résultat de la commande show technical-support).
Veuillez joindre les données collectées à votre demande de service au format texte brut (.txt) non compressé. Vous pouvez joindre des informations à votre demande de service en les téléchargeant à l'aide de l'outil de demande de service TAC (clients enregistrés uniquement) . Si vous ne pouvez pas accéder à l'outil de demande de service, vous pouvez envoyer les informations dans une pièce jointe à un e-mail à attach@cisco.com avec votre numéro de demande de service dans la ligne d'objet de votre message. Remarque : veuillez ne pas recharger ou mettre hors tension puis sous tension manuellement le routeur avant de collecter les informations ci-dessus, sauf si cela est nécessaire pour dépanner une panne de carte de ligne sur le routeur Internet de la gamme Cisco 12000, car cela peut entraîner la perte d'informations importantes nécessaires pour déterminer la cause première du problème. |
Informations connexes