Routeurs : Routeurs de la gamme Cisco 7200

Arborescence des erreurs de parité du Cisco 7200

17 décembre 2015 - Traduction automatique
Autres versions: PDFpdf | Anglais (22 août 2015) | Commentaires


Contenu


Introduction

Ce document explique les étapes pour dépanner et isoler la pièce ou la composante défectueuse du Cisco 7200 lorsque divers messages d'erreur de parité sont repérés. Nous vous recommandons de lire le document Dépannage des pannes de routeur et des erreurs de parité de la mémoire du processeur (PMPE) avant de lire ce document.

Remarque: Les informations dans ce document sont basées sur le Routeurs de la gamme Cisco 7200.

Conditions préalables

Conditions requises

Aucune condition préalable spécifique n'est requise pour ce document.

Composants utilisés

Ce document n'est pas limité à des versions de matériel et de logiciel spécifiques.

Les informations présentées dans ce document ont été créées à partir de périphériques dans un environnement de laboratoire spécifique. Tous les périphériques utilisés dans ce document ont démarré avec une configuration effacée (par défaut). Si vous travaillez dans un réseau opérationnel, assurez-vous de bien comprendre l'impact potentiel de toute commande avant de l'utiliser.

Conventions

Pour plus d'informations sur les conventions de documents, reportez-vous à Conventions relatives aux conseils techniques Cisco.

Analyse d'arborescence des erreurs de parité du moteur de traitement réseau (NPE)

Ce diagramme décrit les étapes pour déterminer quelle partie ou composant d'un Cisco 7200 manque quand vous identifiez un grand choix de messages d'erreur de parité.

/image/gif/paws/12763/c7200_faulttree1.gif

Remarque: Saisissez et enregistrez la sortie de show tech-support et consolez les logs, et collectez tous les fichiers crashinfo pendant les événements d'erreur de parité.

Détection et messages d'erreur de parité NPE

Cette section contient des schémas de bloc du NPE et où ces systèmes détectent des erreurs de parité. Vous pouvez trouver une description de chaque type de message d'erreur ci-dessous.

Erreurs de parité dans le NPE-300

c7200_faulttree2.gif

Le NPE-300 utilise la parité vérifiant dans la mémoire partagée (SDRAM), le bus PCI, et l'interface externe de la CPU pour protéger le système contre le défaut de fonctionnement par des erreurs de bit. Vérifier de parité est capable de détecter une erreur à bit unique à l'aide d'une méthode simple ; ajouter un bit de contrôle par huit bits de données. S'il détecte une erreur de bit en passant les données entre les composants matériels, le système jettent les données erronées. Erreurs à bit unique à tout emplacement dans la cause ci-dessus de diagramme le routeur à remettre à l'état initial.

Détection NPE-400 Parity/ECC

c7200_faulttree3.gif

Le NPE-400 utilise la correction d'erreurs et la détection d'erreur de bits multiples à bit unique ECC (correction de code d'erreur) pour la mémoire partagée (SDRAM). Pour augmenter la Disponibilité du système dans le NPE-400, l'ECC corrige des erreurs à bit unique dans le SDRAM, pour permettre au système pour fonctionner normalement sans remettre à l'état initial et sans temps d'arrêt. Pour plus d'informations sur la façon dont l'ECC améliore la Disponibilité du système, référez-vous à l'augmentation de la disponibilité du réseau de page.

Une erreur de bits multiples dans le SDRAM fait remettre à l'état initial le routeur avec une exception d'erreur de cache ou une erreur sur le bus. Le reste de la mémoire et les bus dans le système utilisent la détection à bit unique de parité. Erreurs à bit unique à 1 et à 3 dans la cause ci-dessus de diagramme le routeur à remettre à l'état initial.

Erreurs de parité dans le routeur C7200

Plusieurs de la parité vérifiant des périphériques sur le routeur C7200/NPE en peuvent des données de rapport avec la mauvaise parité pour lu ou écrire l'exécution. Voici une description des divers messages d'erreur signalés sur un système C7200/NPE :

Erreur de la mémoire vive dynamique GT64010/GT64120

Cette erreur est signalée quand un contrôleur système GT64120 détecte une erreur de parité en lisant le SDRAM :

%ERR-1GT64120 (PCI0):Fatal error, Memory parity error (external)
GT=0xB4000000, cause=0x0100E283, mask=0x0ED01F00, real_cause=0x00000200
Bus_err_high=0x00000000, bus_err_low=0x00000000,
addr_decode_err=0x1C000000

Remplacez le SDRAM après une deuxième panne. Si la panne persiste, remplacez le NPE.

Remarque:  Pour NPEs plus ancien (NPE-100/150/200) qui utilisent les contrôleurs GT64010, l'erreur ressemble à ceci :

%ERR-1-GT64010: Fatal error, Memory parity error (external) 
cause=0x0300E283, mask=0x0CD01F00, real_cause=0x00000200 
bus_err_high=0x00000000, bus_err_low=0x00000000, addr_decode_err=0x00000000

Le contrôleur GT64010 utilise la mémoire vive dynamique (mémoire vive dynamique) et pas le SDRAM. Dans ce cas, remplacez la mémoire vive dynamique après une deuxième panne. Si la panne persiste, remplacez le NPE.

Maître d'erreur de parité du système GT64010/GT64120 lu

Une erreur de parité dans le maître lu est une erreur de parité déclenchée en accédant à une passerelle de l'interconnexion de composants périphériques (PCI). Voici un exemple d'erreur de parité sorti :

%ERR-1-GT64120 (PCI0):Fatal error, Parity error on master read
GT=B4000000, cause=0x0110E083, mask=0x0ED01F00, real_cause=0x00100000
Bus_err_high=0x00000000, bus_err_low=0x00000000,
addr_decode_err=0x00000470

%ERR-1-SERR: PCI bus system/parity error
%ERR-1-FATAL: Fatal error interrupt, No reloading
Err_stat=0x81, err_enable=0xFF, mgmt_event=0x40

Remplacez le composant approprié après une deuxième panne. Le vidage mémoire de passerelle de système indique quel composant à remplacer.

System bridge dump:

Bridge 1, for PA bay 1, 3 and 5. Handle=1
DEC21150 bridge chip, config=0x0

(0x1C):sec status, io base =0x83A09141
                Detected Parity Error on secondary bus
                Data Parity Detected on secondary bus
(0x20):mem base & limit =0x4AF04880

Ces tables t'indiquent quel composant a un problème éventuel de la sortie de message d'erreur.

NPE-100/150/200 :

Numéro de pont Pour ce que la passerelle est Erreur de parité sur le bus primaire Erreur de parité sur le bus secondaire
Passerelle 0 En aval MB0 à MB1 0 Remplacez le NPE Remplacez NPE ; si toujours le présent, remplacent le châssis
Passerelle 1 En amont MB1 à MB0 Remplacez NPE ; si toujours le présent, remplacent le châssis Remplacez le NPE
Passerelle 2 En aval MB0 au MB2 Remplacez le NPE Remplacez NPE ; si toujours le présent, remplacent le châssis
Passerelle 3 En amont MB2 à MB0 Remplacez NPE ; si toujours le présent, remplacent le châssis Remplacez le NPE

NPE-175/225/300/400/NSE-1 :

Numéro de pont Pour ce que la passerelle est Erreur de parité sur le bus primaire Erreur de parité sur le bus secondaire
Passerelle 0 Pour la baie 0 PA (carte E/S, PCMCIA, interfaces Remplacez le NPE Remplacez NPE ; si toujours le présent, remplacent la carte E/S. Si toujours le présent, remplacent le châssis
Passerelle 1 Pour la baie PA 1, 3, et 5 Remplacez le NPE Remplacez le NPE ; si toujours le présent, remplacent le châssis
Passerelle 2 Pour la baie PA 2, 4, et 6 Remplacez le NPE Remplacez NPE ; si toujours le présent, remplacent le châssis

Tout le C7200s :

Numéro de pont Pour ce que la passerelle est Erreur de parité sur le bus primaire Erreur de parité sur le bus secondaire
Passerelle 4 Adaptateur 1 de port Remplacez NPE ; si toujours le présent, remplacent le châssis Remplacez la PA 1 ; si toujours le présent, remplacent le châssis
Passerelle 5 Adaptateur 2 de port Remplacez NPE ; si toujours le présent, remplacent le châssis Remplacez la PA 2 ; si toujours le présent, remplacent le châssis
Passerelle 6 Adaptateur 3 de port Remplacez NPE ; si toujours le présent, remplacent le châssis Remplacez la PA 3 ; si toujours le présent, remplacent le châssis
Passerelle 7 Adaptateur 4 de port Remplacez NPE ; si toujours le présent, remplacent le châssis Remplacez la PA 4 ; si toujours le présent, remplacent le châssis
Passerelle 8 Adaptateur 5 de port Remplacez NPE ; si toujours le présent, remplacent le châssis Remplacez la PA 5 ; si toujours le présent, remplacent le châssis
Passerelle 9 Adaptateur 6 de port Remplacez NPE ; si toujours le présent, remplacent le châssis Remplacez la PA 6 ; si toujours le présent, remplacent le châssis

Erreur de parité CPU

Comme avec tous les ordinateur et périphériques réseau, le NPE est susceptible de l'occurrence rare des erreurs de parité dans la mémoire du processeur. Les erreurs de parité peuvent faire remettre à l'état initial le système et peuvent être un événement simple passager contrarié (SEU ou erreur logicielle) ou peuvent se produire de plusieurs périodes (souvent désignées sous le nom des erreurs majeures) dues au matériel endommagé. Pour plus d'informations sur SEUs, référez-vous à l'augmentation de la disponibilité du réseau de page. Une erreur de parité CPU est signalée si la CPU détecte une erreur de parité en accédant aux caches du processeur l'un des (L1, L2, ou si adapté, L3).

Voici quatre exemples de ce type d'erreur :

Exemple 1 :

Error: SysAD, data cache, fields: data, 1st dword
Physical addr(21:3) 0x195BE88,
Virtual address is imprecise.
    Imprecise Data Parity Error
    Imprecise Data Parity Error

Le NPE a un processeur R7K avec le cache non groupant. Le cache non groupant signifie quand il exécute une instruction de charger des données dans un registre et ces données ne sont pas dans le cache L1, la CPU charge les données d'un cache plus d'ordre réduit ou des données SDRAM. La CPU ne bloque pas l'exécution des instructions complémentaires à moins qu'il y ait une autre perte de cache ou une autre instruction dépend des données étant chargées. Ceci peut considérablement accélérer le processeur et améliorer l'interprétation, mais peut également mener aux erreurs de parité étant imprécises. Une erreur de parité imprécise est quand la CPU indique les informations sans blocage, et détermine plus tard il y avait une erreur de parité dans la ligne associée de cache. Le processeur R7K ne peut pas nous dire que spécifiquement quelle instruction était exécutée quand la ligne de cache était chargée, et c'est la raison que nous l'appelons une erreur de parité imprécise.

Même si les systèmes utilisent la correction de code d'erreur (ECC), il est encore possible de voir une erreur de parité occasionnelle quand plus qu'une erreur simple s'est produit dans les 64 bits de données dus à une erreur majeure dans le cache.

Une erreur de parité se produit quand une valeur de bit de signal est changée de sa valeur initiale (0 ou 1) à la valeur opposée. Cette erreur peut se produire en raison d'un doux ou d'une erreur de parité matérielle.

Les erreurs de parité logicielle se produisent en raison d'une influence externe sur la mémoire du périphérique, qui change la valeur de bit au niveau actuel. Ce type de problème est passager et ne se reproduit pas. Les erreurs de parité matérielle se produisent quand la valeur de bit est changée par la mémoire elle-même en raison des dommages à la mémoire. Dans ce cas, le problème se pose chaque fois que la zone mémoire est utilisée, ainsi il signifie que le problème peut répéter de plusieurs périodes dans des jours d'un couple à une semaine.

Exemple 2 :

Error: SysAD, instr cache, fields: data, 1st dword
Physical addr(21:3) 0x000000,
virtual addr 0x6040BF60, vAddr(14:12) 0x3000
virtual address corresponds to main:text, cache word 0

          Low Data     High Data  Par  Low Data     High Data  Par
L1 Data:  0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01
          2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01
           Low Data     High Data  Par  Low Data     High Data  Par
DRAM Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01
           2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01

Exemple 3 :

Cache Err Reg = 0xE4588D10
Data reference, Secondary/Sys intf cache, Data field error
Error on 1st doubleword on System interface
No errors in addition to instr error
Data phy addr that caused last parity or bus error: 0x1E84040C

Exemple 4 (NPE-300 et NPE-400 seulement) :

%CERF-3-RECOVER: PC=0x604F136C, Origin=L3 Data ,PhysAddr=0x013CEFD0

ou

%SYS-2-CERF_ABORT: Reason=0xEE23, PC=0x604629C8, Origin=L3 Data, 
Phys Addr=0x0287A4E8

Les deux messages ci-dessus sont accompagnés d'un état de la fonction de récupération d'erreur de cache (« CERF) » comme suit :

CERFa[1 ] 05:25:36 MET Tue Jul 9 2002: result=0xEE23; instr_pos=-2; rpl_off=1
CERFb[1 ] PC =604629C8; ORGN=L3 Data; PRID=00002710; PHYA=0287A4E8
CERFc[1 ] SREG=3400E105; CAUS=00000400; DEA0=0287A4E8; ECC =00000000 
CERFd[1 ] CERR=E447A4EA; EPC =606361F8; DEA1=02517058; INFO=00000000
CERFe[1 ] CACHE=28FF78B4 62B36D98 02020684 00000E17 00000030 00000001 61F2934C 3EDA025D
CERFe[1 ] SDRAM=28FF78B4 62B36D98 02020684 00000E17 00000030 00000001 61F2934C 3EDA025D
CERFg[1 ] CXT =00000000; XCXT=00000000; BVAD=00000008; PFCL=00000000
CERFh[1 ] ISeq: 0045182B; 1060000E; 2C4203E9; 92430028; 38420001; 30630005
CERFi[1 ] o0 $3 ....; beq....; sltiu $2 ....; lbu $3, 0x0028($18); xori $2....; andi $3 ....;*
CERFj[1 ]           ;        ;              ;            6287A4E8;            ;             ;
CERFk[1 ] ResumptionCode= 0x92430028; 0x0000000F; 0x42000018
CERFl[1 ] Instr's checked=4; diags=0x00000158,0x00040000,3600,1,0
CERFm[1 ] BaseRegLost later/off: 0/0 times; StoredValueLost: 0 times
CERFn[1 ] INFO=00000000; CNFG=5061F4BB; ICTL=00000000

Initial Register Values
CERFs00[1 ] $0=00000000 AT=61A30000 v0=00000001 v1=00000002
CERFs04[1 ] a0=28FF8728 a1=00003A98 a2=00000000 a3=00000007 
CERFs08[1 ] t0=00000000 t1=3400E101 t2=606381E0 t3=FFFF00FF
CERFs12[1 ] t4=606381C8 t5=000005D4 t6=00000008 t7=61C50000
CERFs16[1 ] s0=6189C188 s1=00000000 s2=6287A4C0 s3=00003A98
CERFs20[1 ] s4=61BD57B0 s5=00000006 s6=00000000 s7=61BD6C60
CERFs24[1 ] t8=60634788 t9=00000000 k0=621A8374 k1=6063EA40
CERFs28[1 ] gp=61A33B20 sp=61E28678 s8=00000000 ra=60462CA4

1 Cache error exceptions already reported

Vous voyez les logs ci-dessus si CERF est activé sur un NPE-300 ou un NPE-400 et une erreur de parité se produit. Pour plus d'informations sur CERF, référez-vous à la section de solutions ci-dessous.

Solutions

La ligne de conduite suivante est recommandée quand vous rencontrez de telles erreurs :

  1. Surveillez le matériel affecté pour voir si le même problème se produit de nouveau. S'il ne fait pas, alors c'était un événement simple passager déranger (SEU) et vous n'avez pas besoin de ne prendre aucune mesure.

  2. Dans l'événement peu probable que le problème se reproduit, le contournement du cache L3/commande de débronchement est une option qui peut aider à réduire l'incidence de la question. Cette commande est seulement disponible sur les Plateformes suivantes :

    • 7200 avec le moteur de traitement NPE-300, NPE-400, ou NSE-1

    • 7400 avec l'enginer NSE-1 de processeur

    Puisque le NPE-300 ne prend en charge pas la mémoire ECC, cette caractéristique est particulièrement importante pour augmenter la Disponibilité du système et pour manipuler ces erreurs de parité sans interruption de service. Ceci résout beaucoup d'erreurs de parité logicielle. La mise en garde est qu'il y a un léger impact sur les performances au système quand le cache L3 est désactivé. La dégradation de représentation est n'importe où entre 1% et 10% selon la configuration de système. La syntaxe pour l'usage de cette commande dépend de la version de logiciel de Cisco IOS.

    • La commande de débronchement du cache L3 peut être trouvée dans des versions du logiciel Cisco IOS 12.3(5a) et plus tard. Il sera également disponible dans 12.1(22)E. Dans ces versions, le cache L3 est désactivé par défaut, ainsi aucune action n'est nécessaire pour tirer profit de cette caractéristique. Le cache L3 peut être réactivé avec la commande aucun débronchement du cache L3.

    • La commande de contournement du cache L3 peut être trouvée dans des versions du logiciel Cisco IOS 12.2(6)S, 12.2(6)B, 12.2(8)BC1b, 12.0(20)SP, 12.2(6)PB, 12.2(2)DD2, 12.0(20)ST3, 12.0(21)S, 12.1(11)EC, 12.2(7)T, 12.1(13), et 12.2(7) ou plus tard, et 12.1(11)E par 12.1(21)E. Cette commande est désactivée par défaut.

    Pour activer le contournement de cache L3, entrez dans le suivant du mode de configuration :

    Router(config)#cache L3 bypass
    

    Pour désactiver le contournement de cache L3, entrez dans le suivant du mode de configuration :

    Router(config)#no cache L3 bypass
    

    La nouvelle configuration de cache ne la prend pas effet jusqu'à ce que le routeur soit rechargé.

    Quand les amorçages d'un routeur, les informations système est affichés, y compris des informations sur le cache L3. C'est parce que le fichier startup-config n'a pas été encore traité par le système. Après que le fichier startup-config soit traité, le cache L3 est sauté si la commande de contournement du cache L3 est dans la configuration.

    Pour vérifier le cache L3 plaçant, vous pouvez émettre la commande de show version. Si le cache L3 est sauté, il n'y a aucune référence au cache L3 dans la sortie de show version.

  3. Une autre caractéristique qui aide la Disponibilité du système d'augmentation est la fonction de récupération d'erreur de cache (CERF). Quand cette caractéristique est activée (c'est le par défaut dans les dernières versions logicielles de Cisco IOS, mais à partir de février 2004, seulement pour NPE-300 et NPE-400), le logiciel de Cisco IOS essaye de résoudre l'erreur de parité et de garder le processeur de tomber en panne. Cette caractéristique résout environ 75% de certains types d'erreurs de parité logicielle. En appelant cette commande, le système voit la dégradation de représentation moins de 5%.

    CERF pour le NPE-300 peut être trouvé dans des versions du logiciel Cisco IOS 12.1(15), 12.1(12)EC, 12.0(22)S, 12.2(10)S, 12.2(10)T, 12.2(10), 12.2(2)XB4, 12.2(11)BC1b, et 12.1(5)XM8 ou plus tard.

    CERF pour le NPE-400 peut être trouvé dans 12.3(3)B, 12.2(14)S3, 12.1(20)E, 12.1(19)E1, 12.3(1a), 12.2(13)T5, 12.2(18)S, 12.3(2)T, 12.2(18), 12.3(3), et 12.3(1)B1 ou plus tard.

    CERF pour le NPE-300 exige la révision 4.1 de matériel ou plus élevé. Afin d'identifier la version de matériel de votre NPE-300, utilisez la commande de show c7200.

    Router>show c7200
    ...
    C7206VXR CPU EEPROM:
    Hardware revision 4.1 Board revision A0
    
    	  ...

    CERF pour le NPE-400 exige la révision 2.1 du processeur R7K ou plus élevé. Afin d'identifier la révision de processeur de votre NPE-400, utilisez la commande de show version.

    Router>show version
    ...
    cisco 7206VXR (NPE400) processor with 491520K/32768K bytes of memory.
    R7000 CPU at 350Mhz, Implementation 39, Rev 3.2, 256KB L2, 4096KB L3 
    Cache 6 slot VXR midplane, Version 2.1
    ...

    Remarque: Il est important de collecter tous les fichiers crashinfo appropriés afin de déterminer la cause principale de l'erreur comme expliqué pour récupérer les informations à partir du fichier crashinfo.

Si les suggestions ci-dessus ne résolvent pas le problème, alors remplacer le NPE peut aider en cas d'occurrences répétées des erreurs de parité puisque les erreurs de parité matérielle sont dues au matériel endommagé. Les remplacements de matériel sont identiques à l'original NPE. Remplacer le NPE ne garantit pas qu'autre erreur de parité ne se produira pas puisque les renversements simples d'événement (SEUs) sont inhérents dans n'importe quel équipement informatique avec la mémoire.

Conversations connexes de la communauté de soutien de Cisco

Le site Cisco Support Community est un forum où vous pouvez poser des questions, répondre à des questions, faire part de suggestions et collaborer avec vos pairs.


Informations connexes


Document ID: 12763