Routeurs : Routeurs de la gamme Cisco 12000

Dépannage en cas d'expiration du délai d'attente des tests Ping de matrice et de défaillances sur routeur Internet de la gamme Cisco 12000

16 décembre 2015 - Traduction automatique
Autres versions: PDFpdf | Anglais (22 avril 2015) | Commentaires


Contenu


Introduction

Ce document explique comment dépanner des tests pings de matrice et des pannes sur le Routeur Internet de la série Cisco 12000. De telles pannes sont indiquées par les messages d'erreur suivants :

%GRP-3-FABRIC_UNI: Unicast send timed out (3)

et

%GRP-3-COREDUMP: Core dump incident on slot 3, error: Fabric ping failure (seq:29192)

Avant de commencer

Conventions

Pour plus d'informations sur les conventions des documents, référez-vous aux Conventions utilisées pour les conseils techniques de Cisco.

Conditions préalables

Aucune condition préalable spécifique n'est requise pour ce document.

Composants utilisés

Les informations dans ce document sont basées sur la version de matériel ci-dessous.

  • Routeur Internet de la série Cisco 12000

Les informations présentées dans ce document ont été créées à partir de périphériques dans un environnement de laboratoire spécifique. Tous les périphériques utilisés dans ce document ont démarré avec une configuration effacée (par défaut). Si vous travaillez dans un réseau opérationnel, assurez-vous de bien comprendre l'impact potentiel de toute commande avant de l'utiliser.

Fond

Les GRP et les linecards (LCS) dans le Routeur Internet de la série Cisco 12000 se connectent par une matrice de commutateur à barres croisées, qui fournit un chemin physique à grande vitesse pour la plupart de transmission d'inter-carte. Parmi les messages passés entre le GRP et les linecards au-dessus de la matrice de commutateur sont les paquets réels inclus étant conduits et reçus, expédiant les informations, les statistiques de trafic, et la plupart de Gestion et d'information de contrôle. Ainsi, il est important que le GRP s'assure que ce chemin fonctionne correctement.

Les pings de matrice sont l'une de quatre applications qui fonctionnent entre le GRP et la matrice de commutateur. La transmission d'Inter-processeur (IPC), les paquets du réseau, et les téléchargements de code sont les autres. Des pings de matrice sont mis en application pour fournir une partie d'un mécanisme d'algorithme et de keep-alive de détection de panne mis en application utilisant des mémoires tampons sur le bus de maintenance (MBUS) et des pings par les interfaces de matrice de linecard.

Les gestionnaires d'interface de matrice de segmentation et de réassemblage de cellules de Cisco (CSAR) sur le GRP manipulent les messages qui doivent être envoyé et reçu entre la matrice de commutateur et le GRP. Ceci inclut des pings de matrice. Des pings de matrice sont générés par le logiciel et sont envoyés du GRP primaire à chaque linecard toutes les six secondes. Chaque fois qu'un linecard reçoit une requête ping du GRP, le LC renvoie une réponse au GRP. Si le GRP ne reçoit aucune réponse à cinq pings de matrice consécutifs (temps total de 30 secondes), il déclare les morts de linecard et les remet à l'état initial par le bus de maintenance (MBUS).

Le plus souvent, le linecard est simplement trop occupé pour répondre aux demandes pings de matrice du GRP. La force de ces défaillances de ping de matrice sont provoqué par également par une matrice défectueuse ou une bogue en logiciel de Cisco IOSÝ. Toutes les causes possibles des défaillances de ping de matrice sont détaillées dans la section dépannage ci-dessous.

Les tests pings de matrice se produisent quand le processeur de route Gigabit (GRP) le détecte qu'une requête ping est coincée dans le tofab queue (vers la matrice de commutateur) du circuit intégré spécifique (ASIC) de la segmentation et du réassemblage de cellules de Cisco (CSAR). Cet ASIC est responsable de découper les paquets en tranches dans des cellules de Cisco avant de les envoyer par la matrice de commutateur au linecard de sortie (LC).

Les défaillances de ping de matrice se produisent quand un linecard ou le GRP secondaire ne répond pas à une demande ping de matrice du GRP primaire au-dessus de la matrice de commutateur. De telles pannes sont un symptôme du problème qui devrait être étudié.

Symptômes

Comme expliqué dans la section de fond, le GRP envoie à un ping de matrice aux linecards toutes les six secondes, et les linecards doivent répondre. Quand le GRP ne reçoit pas une réponse à cinq pings de matrice consécutifs, il remet à l'état initial le linecard en envoyant un message de demande au-dessus du bus de maintenance (MBUS), et signale un incident logiciel, comme vu dans la sortie de la commande d'emplacement de show context {#}.

Les des logs de console ou du show log command, vous pouvez recevoir les messages d'erreur suivants avant le message de défaillance de ping de matrice :

%GRP-3-FABRIC_UNI: Unicast send timed out (3) 
%GRP-3-FABRIC_UNI: Unicast send timed out (3) 
%GRP-3-FABRIC_UNI: Unicast send timed out (3)

là où le numéro (3) représente l'emplacement de carte de ligne vers lequel le GRP primaire essayé pour envoyer un ping de matrice.

Ce message indique qu'un paquet est coincé dans le tofab queue du CSAR ASIC sur le GRP primaire. Si quelque chose est coincé dans l'un ou l'autre des deux mémoires tampons CSAR pendant plus de 100 millisecondes (msecs), la mémoire tampon est vidée et un message de délai d'attente est généré.

Si le GRP envoie son message de demande ping de matrice, mais le linecard ne répond pas, ou les réponses de linecard mais la matrice de commutateur est défectueuse ainsi elle perd le message, vous ne verrez pas ce message avant le message de défaillance de ping de matrice. Par conséquent, si vous recevez le message d'erreur "%GRP-3-FABRIC_UNI", ceci signifie que quelque chose ne pourrait pas être transmise à un emplacement au-dessus de la matrice pour 100 ou 200 msecs. Il pourrait être que, en raison du %GRP-3-FABRIC_UNI, vous ne pouvez pas envoyer les keeps-alive au LC et vous finissez par avec une défaillance de ping de matrice après, dans ce cas, 30 secondes. Cependant, vous pouvez obtenir des défaillances de ping de matrice sans "%GRP-3-FABRIC_UNI" et vice versa.

Le GRP primaire peut déterminer qu'un linecard ou un GRP secondaire a dégradé à un point qu'un vidage de mémoire diagnostique est approprié. À ce moment, le GRP envoie un message au-dessus du MBUS au linecard et demande à la CPU de linecard pour tomber en panne, ainsi un vidage de mémoire peut être obtenu.

%LCINFO-3-CRASH: Line card in slot 3 crashed
%GRP-3-COREDUMP: Core dump incident on slot 3, error: Fabric ping failure (seq:29192)

Le linecard crée le vidage de mémoire s'il est configuré avec l'exception crashinfo et les commandes associées (voyez configurer un vidage de mémoire sur un linecard GSR pour les informations de GSR-particularité sur configurer des vidages de mémoire). La chaîne de qualification dans la sortie de la commande d'emplacement de show context {#} indique la raison de recharge. Dans le cas d'une défaillance de ping de matrice, la raison est toujours « incident logiciel ».

CRASH INFO: Slot 1, Index 1, Crash at 00:42:45 KST Mon Mar 12 2001
VERSION: 
GS Software (GLC1-LC-M), Version 12.0(18)ST, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) 
TAC Support: http://www.cisco.com/tac 
Compiled Thu 09-Aug-01 22:06 by nmasa 
Card Type: 2 Ports OC3 Channelized to DS1/E1 , S/N CAT00400500 
System exception: sig=23, code=0x24, 

! --- SIG=23 indicates a software-forced crash.
 
context=0x41303B04 
System restarted by a Software forced crash 
STACK TRACE: 
-Traceback= 400C3970 400C1F90 40815D5C 407D3144 400C7488

Après que le linecard tombe en panne, il envoie un premier message pour informer le GRP primaire. Le GRP attend alors le linecard pour envoyer d'autres informations sur le crash par le MBUS. Le GRP devrait recevoir des informations complètes dans quelques millisecondes après réception du premier message du linecard. Dans l'événement peu probable que les messages ultérieurs de l'information de crash ne sont pas reçus par le GRP dans un délai raisonnable (10 secondes), le GRP imprime un message d'erreur et indique le reste du logiciel GRP que le linecard est tombé en panne.

Dépannage

Pendant l'exécution normale de routeur, le GRP primaire cingle continuellement les linecards, et les linecards répondent. Toutes les pannes de ping sont un symptôme d'un autre problème qui devrait être étudié. Ces problèmes incluent :

Remarque: Si la panne peut être reproduite, ne configurez aucune réinitialisation automatique de service sur le GRP. Cette commande désactive une recharge du linecard à la prochaine défaillance de ping de matrice, et te permet pour se relier au linecard utilisant la commande de #> de <slot d'attache de capturer des commandes show appropriées.

Problème avec le linecard

  • La raison le plus susceptible pourrait être une bogue de logiciel Cisco IOS en laquelle un processus désactive des interruptions assez longues pour manquer cinq pings de matrice consécutifs. Essayez améliorer dernière au Cisco IOS la version logicielle dans votre série d'éviter les questions résolues. Pour l'assistance de mise à jour, voyez Cisco télécharger le secteur de logiciel.

  • Le linecard peut exercer la contre-pression trop longtemps, ainsi le programmateur ne permet aucun trafic à recevoir de la matrice de commutateur. Ce symptôme suggère un problème avec la congestion d'interface. Utilisez les commandes suivantes de confirmer ces symptômes :

    • commande de file d'attente de frfab de show controller sur le linecard. Recherchez une file d'attente libre non IPC avec peu ou pas de mémoires tampons disponibles.

    • commande csar de file d'attente de shows controllers sur le GRP. Recherchez les valeurs différentes de zéro pour « longueur maximum » et pour « longueur maximum » pour égaler la valeur de « longueur », suivant les indications de la sortie suivante témoin :

      router#show controllers csar queue
           1190 Free Q
      
      Slot Length Max Length
        0     0      7
        1     0      2
        2    70     70 
      
      ! -- CSAR queue for slot 2 is building and reaching max length.
      
        3     0      2
        4     0      3
        5     0      0
         ...
      

      Le CSAR aligne jusqu'à 50 paquets à un linecard de destination. Après 50 paquets, seulement des paquets de ping de matrice sont alignés. Si la limite de file d'attente grimpe alors jusqu'à 70, le CSAR cesse d'aligner tous les paquets -- y compris des pings de matrice -- au linecard. Les les deux les GRP et tous les linecards ont des mémoires tampons de segmentation 64k CSAR dans lesquelles pour enregistrer des messages. Si ces mémoires tampons sont occupées, le routeur emploie une file d'attente d'attente de logiciel pour enregistrer les messages. Il place également un temporisateur pour s'assurer que les messages de ping de matrice ne restent pas sur cette file d'attente trop longtemps.

  • Utilisation du CPU élevé sur le linecard - Généralement - vu pendant le recalcul d'une grande table de Technologie Cisco Express Forwarding (CEF) après une modification massive de table de routage ou après une remise d'instabilité de lien et de session de Protocole BGP (Border Gateway Protocol). La CPU peut également être élevée en commutant le trafic en logiciel. Ceci se produit principalement sur des linecards de l'engine 0 où la plupart des caractéristiques sont mises en application en logiciel. Si c'est le cas, vous pouvez vérifier la configuration du linecard et retirer les caractéristiques qui pourraient affecter la CPU sur l'engine 0 LC. L'utilisation du CPU élevé peut également être due à une bogue. Déterminez l'utilisation du processeur avec la commande CPU de show proc de #> de <slot d'emplacement d'execute-on ou la commande de tech d'exposition de #> de <slot d'emplacement d'execute-on si la commande précédente n'est pas prise en charge dans la version de logiciel de Cisco IOS qui exécute sur le routeur. Consider améliorant dernière au Cisco IOS la version logicielle dans votre série de fonctionner autour des problèmes connus.

  • Le linecard s'exécute hors des mémoires tampons de la transmission d'interprocessus (IPC), qui sont utilisées aux messages de contrôle des changes entre les linecards et le GRP. Voyez les étapes de dépannage dans dépannage des messages d'erreur liés à la CEF. Si votre dépannage indique un problème avec l'IPC, assurez-vous que votre Routeur Internet de la série Cisco 12000 exécute un minimum de Logiciel Cisco IOS version 12.0(18)S. Cette release a introduit une plus grande taille par défaut de 5000 pour que le cache IPC améliore sa stabilité et évolutivité.

  • Problème matériel sur le linecard. Il est important de noter que moins de 10% de défaillances de ping de matrice résultent d'un problème matériel. Avant de contacter Cisco TAC pour demander le matériel de rechange, essayez s'il vous plaît les étapes suivantes :

    1. Recherchez les messages de délai d'attente IPC imprimés avant la défaillance de ping de matrice. Voyez également la section IPC ci-dessous.

    2. Réinsérez la carte de ligne.

    3. Arrêt et redémarrage le routeur.

    4. Si vous n'avez pas accès physique au routeur, exécutez la commande de recharge de #> de <slot de hw-module slot d'exécuter un rechargement manuel du linecard.

Problème avec la matrice de commutation

Le coeur du Routeur Internet de la série Cisco 12000 est les circuits de matrice de commutateur, qui fournissent des interconnexions synchronisées de vitesse de gigabit pour les linecards et le GRP. Les circuits de matrice de commutateur contiennent deux types de cartes :

  • Cartes d'horloge et de programmateur (CSCs)

  • Cartes de matrice de commutation (SFCs)

Si une de ces cartes manque, les messages pings peuvent plus ne traverser la matrice. Dans ce cas, vous devriez également voir d'autres messages indiquant la matrice défectueuse, telle que ce qui suit :

%FABRIC-3-CRC: Switch card 18

Utilisez l'ordre FIA de shows controllers de déterminer si vous avez un mauvais CSC ou SFC. Utilisez l'execute-on tout l'ordre FIA de shows controllers de saisir la sortie de tous les linecards. Comparez la sortie du GRP à la sortie des linecards pour déterminer si une carte défectueuse de matrice de commutation doit être remplacée.

La sortie suivante témoin indique un problème avec sfc0 dans l'emplacement 18. Premier essai pour réinsérer cette carte et puis pour demander un remplacement si le compteur d'erreurs crc16 continue à incrémenter.

  Router#show controllers fia 
      Fabric configuration: Full bandwidth redundant 
      Master Scheduler: Slot 17
      From Fabric FIA Errors 
      ----------------------- 
      redund FIFO parity 0   redund overflow 0     cell drops 1 
      crc32 lkup parity  0   cell parity     0     crc32      0 
      Switch cards present    0x001F  Slots  16 17 18 19 20
      Switch cards monitered  0x001F  Slots  16 17 18 19 20 
      Slot:     16         17         18         19         20 
      Name:    csc0       csc1       sfc0       sfc1       sfc2 
             --------   --------   --------   --------   -------- 
      Los    0          0          0          0          0 
      state  Off        Off        Off        Off        Off 
      crc16  0          0          4334       0          0 

! --- Check the CRCs under SFC0 (slot 18)

      To Fabric FIA Errors 
      ----------------------- 
      sca not pres 0          req error     0          uni FIFO overflow 0 
      grant parity 0          multi req     0          uni FIFO undrflow 0 
      cntrl parity 0          uni req       0          crc32 lkup parity 0 
      multi FIFO   0          empty DST req 0          handshake error   0 
      cell parity  0

Problème avec le GRP

Dans quelques états des défaillances de ping de matrice, le routeur a signalé des messages d'erreur de contrôle de redondance cyclique (CRC) avant la panne. Vérifiez les crc sur les cartes de matrice de commutation à l'aide de l'ordre FIA de shows controllers sur le GRP et l'execute-on toute la FIA de shows controllers sur les linecards. Les erreurs de CRC sur le GRP seulement (et pas sur tout linecard) indiquent un GRP défectueux. Premier essai pour réinsérer le GRP et puis pour demander un remplacement si les erreurs de CRC continuent à incrémenter.

Problèmes connus avec l'IPC

Des problèmes avec l'exécution de logiciel de la transmission d'interprocessus (IPC) entre le GRP et les linecards ont été résolus dans diverses versions de la version du logiciel Cisco IOS 12.0S. Dans ce cas, vous devriez voir quelques messages d'erreur IPC IPC dans le log, avec des messages de test ping de matrice. Essayez exécuter la dernière version logicielle de Cisco IOS pour fonctionner autour des problèmes connus avec l'IPC. Voyez également Cisco télécharger le secteur de logiciel pour l'assistance avec sélectionner une release.

Problèmes connus avec le Technologie Cisco Express Forwarding (CEF)

Voir dépannage des messages d'erreur liés à la CEF si la sortie du show log command affiche un message lié au Forwarding Information Base de CEF (FIB) semblable à celui ci-dessous :

%FIB-3-FIBDISABLE: Fatal error, slot 2: IPC failure

Utile mettez au point et des commandes show

Utilisez le suivant mettent au point et des commandes show de dépanner le test ping de matrice/messages d'échec sur le Routeur Internet de la série Cisco 12000 :

  • mettez au point les événements de matrice - Imprime toutes les erreurs détectées par le GRP. Ceci mettent au point génère très peu de messages et seulement dans une condition d'erreurs.

  • mettez au point le ping de matrice - Imprime toutes les erreurs détectées dans le processus de ping de matrice par le GRP. Ceci mettent au point génère très peu de messages et seulement dans une condition d'erreurs.

Capturez les commandes suivantes pour chaque linecard de remise. Remplacez X par le nombre d'emplacement approprié.

  • l'emplacement X d'execute-on mettent au point des événements de matrice - Imprime des erreurs détectées par le linecard dans ses réponses pings. Cette commande produit très peu de messages et seulement dans une condition d'erreurs.

  • l'emplacement X d'exécutif mettent au point le ping de matrice - Imprime un message quand le linecard reçoit un ping de matrice. Ceci mettent au point génère une ligne de a sorti chaque seconde pour chaque linecard sur lequel elle est activée.

Après que le linecard tombe en panne, capturez les commandes suivantes de la console GRP :

  • show context tout le détail

  • show fabric

  • la FIA de shows controllers

  • file d'attente csar de shows controllers

  • execute-on toute la FIA de shows controllers

  • affichez le tech

  • show log

Capturez également les commandes suivantes au sujet de l'état de linecard :

  • CPU de show proc de #> de <slot d'emplacement d'execute-on

  • tofab queue de show controller de #> de <slot d'emplacement d'execute-on

  • stat de tofab de show controller de #> de <slot d'emplacement d'execute-on

  • file d'attente de frfab de show controller de #> de <slot d'emplacement d'execute-on

  • stat de frfab de show controller de #> de <slot d'emplacement d'execute-on

  • stat de show ipc de #> de <slot d'emplacement d'execute-on

  • file d'attente de show ipc de #> de <slot d'emplacement d'execute-on

  • pile d'exposition de #> de <slot d'emplacement d'execute-on

  • tech d'exposition de #> de <slot d'emplacement d'execute-on

Si vous rencontrez toujours des problèmes après avoir suivi toutes les étapes de dépannage, recueillez toute l'information requise ci-dessus et appelez votre représentant de Cisco TAC pour dépanner plus loin.

Voici la sortie de quelques commandes show utiles :

router#show controllers csar 
From Fabric Error Stats 
------------------------ 
0 out of order, 0 unexpected first 
0 unexpected last, 0 unknown rx type, 0 corrupted pak, 0 parity 
0 first/last, 0 sequence, 0 cell avail, 0 reassembly,

To Fabric Stats 
------------------------ 
Slot  Tx Pkts      TX Th Pkts      Rx Pkts      Rx Th Pkts   To Fab timeout 
0     580278       490214          281061       1336470      0 
1     18854        66592           18390        945419       0 
2     6            50824           0            896290       0 
3     0            0               0            0            0 
4     0            51909           0            895430       0 
5     0            0               0            0            0 
6     0            35113           0            880247       0 
7     0            52690           0            52690        0 
8     0            0               0            0            0 
9     0            0               0            0            0 
10    0            0               0            0            0 
11    0            0               0            0            0 
12    0            0               0            0            0 
13    0            0               0            0            0 
14    0            0               0            0            0 
15    0            0               0            0            0 
0 too big, 1 Buf0 free, 1 Buf1 free 
0 Copy fail

Fabric access Error Stats 
-------------------------- 
0 parity errors,  0 bad access size, 0 invalid address 
0 queue full parity, 0 flushed buffer

router#show controllers fia 
Fabric configuration: Full bandwidth, nonredundant fabric 
Master Scheduler: Slot 16

From Fabric FIA Errors 
----------------------- 
redund fifo parity 0          redund overflow 0          cell drops 0 
crc32 lkup parity  0          cell parity     0          crc32      0 
Switch cards present    0x001D    Slots  16 18 19 20 
Switch cards monitored  0x001D    Slots  16 18 19 20 
Slot:     16         17         18         19         20 
Name:    csc0       csc1       sfc0       sfc1       sfc2 
       --------   --------   --------   --------   -------- 
los    0          0          0          0          0 
state  Off        Off        Off        Off        Off 
crc16  0          254        0          0          0  

! --- Check the CRC error here. In this case CSC1 in slot 17.


To Fabric FIA Errors 
----------------------- 
sca not pres 0          req error     0          uni FIFO overflow 0 
grant parity 0          multi req     0          uni FIFO undrflow 0 
cntrl parity 0          uni req       0          crc32 lkup parity 0 
multi FIFO   0          empty dst req 0          handshake error   0 
cell parity  0

Vous pouvez trouver plus de détails sur l'ordre FIA de shows controllers à la façon lire la sortie de l'ordre FIA de show controller.

router#show fabric 
Dest    ToFab       FrFab     Bad Seq     Unexpected 
Slot    Pkts        Pkts                  Pkts 
---------------------------------------------------- 
Slot0   26327       26327     0           0 
Slot1   26325       26325     0           0 
Slot2   26321       26321     0           0 
Slot4   26315       26315     0           0 
Slot6   26311       26311     0           0 
Slot7   26334       26334     0           0

multicast timeout 0 
failed pak        0 

Current fabric timeout is 6000

fabric send fails 58

Les informations à collecter si vous ouvrez une valise TAC

Si vous avez besoin d'assistance après avoir suivi les étapes de dépannage ci-dessus et voulez toujours créer une demande de service avec Cisco TAC, reliez s'il vous plaît les informations suivantes dans votre point de droit pour dépanner des problèmes de ping de matrice sur le Routeur Internet de la série Cisco 12000 :
  • le dépannage a exécuté avant d'ouvrir le cas
  • affichez le Soutien technique sorti (dans le mode enable si possible)
  • sortie show log ou captures de console si disponibles
  • Soutien technique d'exposition d'emplacement d'execute-on [emplacement #] pour l'emplacement qui a éprouvé le crash de linecard
Veuillez attacher les données rassemblées à votre cas en format texte décompressé (.txt). Vous pouvez relier les informations dans votre cas en le téléchargeant utilisant l'outil de requête de cas (clients enregistrés seulement). Si vous ne pouvez pas accéder à l'outil de requête de cas, vous pouvez relier les informations pertinentes dans votre cas en l'envoyant à attach@cisco.com avec votre numéro de dossier dans le champ objet de votre message.

Remarque: S'il vous plaît ne rechargez pas manuellement ou arrêt et redémarrage le routeur avant de collecter les informations ci-dessus, si possible, comme ceci peut causer les informations importantes d'être perdu qui sont nécessaires pour déterminer l'origine du problème.

Conversations connexes de la communauté de soutien de Cisco

Le site Cisco Support Community est un forum où vous pouvez poser des questions, répondre à des questions, faire part de suggestions et collaborer avec vos pairs.


Informations connexes


Document ID: 12421