Logiciels Cisco IOS et NX-OS : Logiciel Cisco IOS versions 12.2 Mainline

Résolution des problèmes de défaillance Watchdog Timeout

16 janvier 2016 - Traduction automatique
Autres versions: PDFpdf | Anglais (31 décembre 2015) | Commentaires


Contenu


Introduction

Ce document décrit la cause des dépassements du délai de surveillance sur les routeurs Cisco et explique comment les dépanner.

Conditions préalables

Conditions requises

Les lecteurs de ce document devraient avoir connaissance des sujets suivants :

Composants utilisés

Les informations contenues dans ce document sont basées sur les versions de matériel et de logiciel suivantes :

  • Tous les routeurs Cisco

  • Toutes les versions de logiciel de Cisco IOSÝ

Remarque: Ce document n'applique pas aux commutateurs Cisco Catalyst ou aux Plateformes MGX, mais seulement aux Routeurs de Cisco.

Les informations contenues dans ce document ont été créées à partir des périphériques d'un environnement de laboratoire spécifique. Tous les périphériques utilisés dans ce document ont démarré avec une configuration effacée (par défaut). Si votre réseau est opérationnel, assurez-vous que vous comprenez l'effet potentiel de toute commande.

Conventions

Pour plus d'informations sur les conventions de documents, reportez-vous à Conventions relatives aux conseils techniques Cisco.

Identifiez les dépassements du délai de surveillance

Les processeurs de Cisco ont des temporisateurs qui assurent une protection contre certains types de figeages système. La CPU réinitialise périodiquement un temporisateur de chien de garde. Le temporisateur du chien de garde contrôle la durée de chaque processus. Si le temporisateur n'est pas réinitialisé, le programme est interrompu. Si un processus est plus long qu'il doit être, le temporisateur de surveillance est utilisé pour s'échapper de ce processus.

Ceci se produit seulement si quelque chose va mal. Basé sur la situation, le routeur peut se remettre à l'état initial, ou récupérez de la panne et générez un message d'erreur dans les logs de console, qui ressemble à ceci :

*** Watch Dog Timeout ***

PC = 0x6022536C, SP = 0x00000000

ou

%SYS-2-WATCHDOG: Process aborted on watchdog timeout, process = Exec 

*** System received a Software forced crash *** 

signal = 0x17, code = 0x24, context= 0x60ceca60

Si vous ne faites pas arrêt et redémarrage ou recharger manuellement le routeur, la sortie de la commande de show version ressemble à ceci :

Router#show version
...
Router uptime is 1 hour, 47 minutes 
System restarted by watchdog timer expired at 09:26:24 UTC Mon Mar 27 2000 
System image file is "flash:c3640-is-mz.113-7-T.bin", booted via flash
...

Si vous avez la sortie d'une commande de show version de votre périphérique de Cisco, vous pouvez utiliser pour afficher des éventuels problèmes et des difficultés. Pour l'utiliser, vous devez être un client enregistré , être connecté, et avoir Javascript activé.

Dépannez

La cause principale du dépassement du délai de surveillance peut être matériel ou liée au logiciel. Voici les symptômes communs par lesquels vous pouvez identifier la source de problème :

  • Si un routeur qui a été correctement opérationnel pendant des mois démarre soudainement pour recharger toutes les 20 minutes, ou s'il redémarre continuellement et vous peut plus ne l'accéder à, le problème est le plus susceptible un problème d'origine matérielle. C'est également le cas si un nouveau module a été installé récemment, et le routeur tombe en panne par dépassement du délai de surveillance après.

  • Si les débuts de routeur à tomber en panne après qu'un changement de configuration ou une modification de la version de logiciel de Cisco IOS, il soit probablement une question liée au logiciel.

La première étape pour dépanner ce type de question est d'identifier le type de dépassement du délai de surveillance que vous rencontrez. Il y a deux types de dépassements du délai de surveillance :

Dépassement du délai de surveillance de logiciel

Ce délai d'attente est provoqué par par une boucle infinie au niveau de priorité d'interruption, ou par un problème matériel. Voici quelques indications de ce type de délai d'attente :

  • Les messages de console contiennent ces lignes :

    *** de dépassement du délai de surveillance de ***

    PC = 0x6022536C, fournisseur de services = 0x00000000

  • Les états imprimés de show version la raison de recharge comme un « temporisateur de surveillance a expiré » :

    Router#show version
    ...
    Router uptime is 1 hour, 47 minutes
    System restarted by watchdog timer expired at 06:30:24 UTC Mon Jan 28 2000 
    System image file is "flash:c3640-is-mz.113-7-T.bin", booted via flash
  • Aucun fichier crashinfo n'est généré. Voyez récupérer les informations à partir du fichier crashinfo pour des détails.

Le plus souvent, ces messages indiquent un problème de matériel, avec le panneau de processeur principal ou avec un des modules.

Après que vous identifiiez un dépassement du délai de surveillance de logiciel, l'étape suivante est de vérifier le résumé de note de terrain en produit pour votre plate-forme et tous les composants installés dans ce système pour les problèmes de matériel essentiels connus. Par exemple, il y a une note de terrain pour le routeur de gamme Cisco 3600 : Dépassements du délai de surveillance de module PRI du Cisco 3600 T1/E1. Assurez-vous que vous vérifiez les notes de terrain avant que vous dépanniez plus loin.

Si un nouveau module a été récemment installé, vous devez d'abord essayer de le retirer pour vérifier si c'est la raison pour le dépassement du délai de surveillance. Si le dépassement du délai de surveillance persiste, essayez de réinsérer tous les composants amovibles.

Si le dépassement du délai de surveillance continue en ce moment, il n'y a aucune note de terrain pour votre matériel, et si aucun nouveau module n'a été récemment installé, avance et remplace le panneau de processeur principal. Sur des plates-formes haut de gamme, le panneau de processeur est une carte distincte (telle que le NPE-400 ou le RSP8). Sur des plates-formes bas de gamme (Cisco 1700, 2500, 4000, 2600, 3600, et ainsi de suite), la carte mère ne peut pas être expédiée séparément. Dans ce cas, vous devez remplacer le châssis lui-même.

Dépassement du délai de surveillance de processus

Ce délai d'attente est provoqué par par une boucle infinie au niveau de processus. Voici quelques indications de ce délai d'attente :

  • Les messages de console contiennent ces lignes :

    %SYS-2-WATCHDOG: Process aborted on watchdog timeout,
    	 process = Exec 
    
    *** System received a Software forced crash ***
    	 
    signal = 0x17, code = 0x24, context= 0x60ceca60
  • Les états imprimés de show version le crash comme « incident logiciel » :

    Router#show version
    ...
    Router uptime is 2 days, 21 hours, 30 minutes 
    System restarted by error - Software-forced crash,
    PC 0x316EF90 at 20:22:37 edt 
    System image file is "flash:c2500-is-l.112-15a.bin",
    booted via flash
  • Un fichier crashinfo est généré pour les Plateformes qui le prennent en charge.

Ce problème est le plus susceptible une bogue de logiciel Cisco IOS.

Si vous avez la sortie d'un show stacks commandez de votre périphérique de Cisco, vous pouvez utiliser pour afficher des éventuels problèmes et des difficultés. Pour l'utiliser, vous devez être un client enregistré , être connecté, et avoir Javascript activé.

Cependant, le système a été coincé dans une boucle avant la recharge. Par conséquent, le suivi de pile n'a pas besoin nécessairement d'être approprié. Vous pouvez améliorer dernière au Cisco IOS la version de logiciel dans votre série de versions d'éliminer toutes les questions de processus connues de surveillance. Si un crash se produit toujours après que la mise à jour, collectent autant informations comme possible (voir les crash de routeur de dépannage), et entrez en contact avec votre représentant de Soutien technique.

Messages d'erreur liés au dépassement du délai de surveillance

Il y a d'autres messages d'erreur de console liés aux temporisateurs de surveillance. Ne confondez pas ces messages avec un crash de temporisateur de surveillance. Soyez sûr de vérifier la signification de ces messages d'erreur à l'aide du décodeur de messages d'erreur (clients enregistrés seulement). Cet outil te donne une explication détaillée de beaucoup de messages d'erreur, et recommande des actions de les résoudre.

Considérez ce message :

%SYS-2-WATCHDOG: Process aborted on watchdog timeout, 
process = [chars]

Ce message indique que le processus spécifié a fonctionné trop longtemps, et le processeur n'a pas été abandonné. Le système a arrêté le processus indiqué. Basé sur votre configuration, ceci peut mener à un blocage système. Si le message se produit seulement une fois, vous n'avez pas besoin de ne prendre aucune mesure. Cependant, s'il se produit de nouveau, vous devez le traiter comme dépassement du délai de surveillance de processus, et prenez la mesure nécessaire.

Informations à collecter si vous ouvrez une demande de service TAC

Si vous avez besoin d'assistance après avoir suivi les étapes de dépannage ci-dessus et voulez toujours ouvrir une demande de service (clients enregistrés seulement) avec Cisco TAC, soyez sûr d'inclure les informations suivantes :
  • Dépannage exécuté avant d'ouvrir la demande de service.
  • affichez la sortie de Soutien technique (dans le mode enable si possible).
  • Sortie de la commande show log ou captures de console si disponibles.
  • tech d'exposition d'emplacement d'execute-on [emplacement #] pour l'emplacement qui a éprouvé le crash de linecard.
  • Le fichier crashinfo (s'il est disponible, et n'a pas été déjà inclus dans le Soutien technique d'exposition sorti).
Veuillez joindre les données rassemblées à votre demande de service en format non compressé et texte clair (.txt). Vous pouvez joindre des informations à votre demande de service en les téléchargeant à l'aide de l'outil TAC Service Request (clients enregistrés uniquement). Si vous ne pouvez pas accéder à l'outil de demande de service, vous pouvez envoyer les informations dans une pièce jointe à un courriel à attach@cisco.com avec votre nombre de demande de service dans le champ objet de votre message.

Remarque: S'il vous plaît ne rechargez pas manuellement ou arrêt et redémarrage le routeur avant de collecter les informations ci-dessus à moins que requis pour dépanner un crash de linecard sur le Routeur Internet de la série Cisco 12000, en tant que ceci peut causer les informations importantes d'être perdu qui sont nécessaires pour déterminer l'origine du problème.

Conversations connexes de la communauté de soutien de Cisco

Le site Cisco Support Community est un forum où vous pouvez poser des questions, répondre à des questions, faire part de suggestions et collaborer avec vos pairs.


Informations connexes


Document ID: 7956