Routeurs : Routeurs de la gamme Cisco 12000

Arborescence des erreurs de parité du routeur Internet de la gamme Cisco 12000

18 octobre 2016 - Traduction automatique
Autres versions: PDFpdf | Anglais (22 avril 2015) | Commentaires


Contenu


Introduction

Ce document décrit les étapes du dépannage et du repérage d'une pièce ou d'une composante défectueuse du routeur Internet Cisco de série 12000 lors de l'affichage de divers messages d'erreur de parité.

Remarque: Ce document ne couvre pas la cause des erreurs de parité. Si vous êtes intéressé par une définition plus concise des erreurs de parité (également connues sous le nom de renversements simples d'événement - SEUs) et de leur cause possible, nous recommandons que vous lisiez les documents joints de l'augmentation de la disponibilité du réseau.

Avant de commencer

Conventions

Pour plus d'informations sur les conventions des documents, référez-vous aux Conventions utilisées pour les conseils techniques de Cisco.

Conditions préalables

Avant de commencer avec ce document, nous recommandons que vous lisiez les documents suivants :

Composants utilisés

Les informations dans ce document sont basées sur les versions de logiciel et de matériel ci-dessous.

Les informations présentées dans ce document ont été créées à partir de périphériques dans un environnement de laboratoire spécifique. Tous les périphériques utilisés dans ce document ont démarré avec une configuration effacée (par défaut). Si vous travaillez dans un réseau opérationnel, assurez-vous de bien comprendre l'impact potentiel de toute commande avant de l'utiliser.

Aperçu

La plupart des processeurs et des linecards d'artère de Routeur Internet de la série Cisco 12000 incluent la fonctionnalité de la correction de code d'erreur (ECC). Il y a, cependant, quelques linecards existants dans le domaine qui n'ont pas la capacité ECC. La fonctionnalité ECC couvre seulement la RAM ou la mémoire synchrone de la mémoire vive dynamique (SDRAM) sur les cartes. Le repos n'est pas protégé par ECC.

Voici une comparaison de la fonctionnalité ECC pour des linecards utilisés avec le Cisco 12000 :

  • Tous les Engine 2 et cartes postérieures ont la fonctionnalité ECC.

  • Les cartes de l'engine 1 ont changé à l'ECC après FCS.

  • Les cartes de l'engine 0 n'ont pas la fonctionnalité ECC.

  • Quelques cartes peuvent être mises à jour aux Produits semblables qui intègrent la fonctionnalité ECC.

Le tableau ci-dessous présente les Produits qui ont la fonctionnalité ECC :

Produits Non-ECC Produits ECC
GRP (=) GRP-B (=)
GE-SX/LH-SC (=) GE-GBIC-SC-B (=)
GE-GBIC-SC-A (=) GE-GBIC-SC-B (=)
8FE-FX-SC(=) 8FE-FX-SC-B(=)
8FE-TX-RF45(=) 8FE-TX-RJ45-B(=)
6DS3-SMB(=) 6DS3-SMB-B(=)
12DS3-SBM(=) 12DS3-SMB-B(=)
OC12/SRP-IR-SC(=) OC12/SRP-IR-SC-B(=)
OC12/SRP-MM-SC(=) OC12/SRP-mm-SC-B(=)
OC12/SRP-LR-SC(=) OC12/SRP-LR-SC-B(=)

Remarque: - B et ECC sont indépendants. - B signifie que le produit est une deuxième principale révision ordonnable du panneau. Dans certains cas, c'était la révision pour l'ECC.

Cisco offre un plan de migration technologique (TMP) qui te permet pour améliorer un panneau non-ECC à un nouveau panneau ECC. Un crédit sera appliqué à l'achat du nouveau panneau ECC en échange du panneau non-ECC.

Analyse d'arborescence des erreurs de parité du processeur de route Gigabit (GRP)

L'organigramme ci-dessous vous aide à déterminer quel composant du Routeur Internet de la série Cisco 12000 est responsable des messages d'erreur de la correction de parité/code d'erreur (ECC) sur le processeur de route Gigabit (GRP).

/image/gif/paws/29320/12000a_parity_error_fault_tree.gif

Remarque: Saisissez et enregistrez la sortie de show tech-support et consolez les logs, et collectez tous les fichiers crashinfo pendant les erreurs parity/ECC.

Analyse d'arborescence des erreurs de parité de linecard

L'organigramme ci-dessous vous aide à déterminer quel composant d'un linecard de Routeur Internet de la série Cisco 12000 est responsable des messages d'erreur de la correction de parité/code d'erreur (ECC) :

/image/gif/paws/29320/12000b_parity_error_fault_tree.gif

Remarque: Toutes les fois qu'un linecard éprouve une erreur parity/ECC, collectez autant informations comme possible (voir les crash de linecard de dépannage sur le Routeur Internet de la série Cisco 12000 pour des détails).

Le Routeur Internet de la série Cisco 12000 récupère des erreurs de parité dans d'autres mémoires de carte de ligne (SDRAM et SRAM) sans tomber en panne.

Erreurs Parity/ECC dans le processeur de route Gigabit de gamme Cisco 12000

Les données avec la mauvaise parité en peuvent être signalées par plusieurs des périphériques parité-vérifiants pour lus ou écrire l'exécution sur le Routeur Internet de la série Cisco 12000.

Les GRP-B et les PRP utilisent la correction d'erreurs et la détection d'erreur de bits multiples à bit unique ECC à la mémoire partagée (SDRAM). Une erreur à bit unique dans le SDRAM est corrigée automatiquement, et le système continue à fonctionner en tant que normale.

Erreurs à bit unique (SBEs)

PRP et GRP-B ont le contrôleur amélioré de mémoire vive dynamique (mémoire vive dynamique) qui prend en charge l'ECC. Par conséquent, ils peuvent corriger des erreurs et des erreurs de bits multiples à bit unique d'état. La correction d'une erreur à bit unique ressemble à ceci :

%Tiger-3-SBE: Single bit error detected and corrected at <address>

SBEs sont corrigés par le circuit de correction d'erreurs et n'affectent pas la fonctionnalité du GRP-B ou du PRP. Aucune action n'est exigée pour des erreurs à bit unique, à moins qu'ils se produisent fréquemment. Dans ce cas, il est recommandé de remplacer le panneau de processeur.

Erreurs de bits multiples (MBEs)

La détection d'une erreur de bits multiples est signalée par une exception d'erreur de bus ou une exception d'erreur de parité en cache CPU.

Erreurs de parité de mémoire de processeur (PMPE)

Un message d'erreur de parité de mémoire de processeur est signalé si la CPU détecte une erreur de parité en accédant au cache externe du processeur (L3 sur le GRP) par le bus de SysAD, ou l'un ou l'autre des mémoires de cache interne CPU (L1 ou L2). Le tableau 1 répertorie des exemples des messages qui seraient imprimés pour chaque type d'erreur de parité en cache :

Tableau 1 : Emplacement d'erreur de parité en cache

Emplacement d'erreur de parité
Cache de l'instruction L1 Erreur : Primaire, cache d'instr, champs : données
Cache de données L1 Erreur : Primaire, cache de données, champs : données
Cache de l'instruction L2 Erreur : SysAD, cache d'instr, champs : données
Cache de données L2 Erreur : SysAD, cache de données, champs : données
Cache de l'instruction L3 Erreur : SysAD, cache d'instr, champs : 1er dword
Cache de données L3 Erreur : SysAD, cache de données, champs : 1er dword

Exemple :

La première ligne du message d'erreur indique l'emplacement de l'erreur de parité, et peut être n'importe quel emplacement répertorié dans le tableau 1. Dans cet exemple, l'emplacement est cache de l'instruction L3.

Error: SysAD, instr cache, fields: data, 1st dword
Physical addr(21:3) 0x000000,
virtual addr 0x6040BF60, vAddr(14:12) 0x3000
virtual address corresponds to main:text, cache word 0  
           Low Data     High Data  Par  Low Data     High Data  Par
L1 Data:   0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01          
           2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01           
           Low Data     High Data  Par  Low Data     High Data  Par
DRAM Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01           
           2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01

La sortie du show version devrait être semblable à ceci :

...System was restarted by processor memory parity error at PC 0x602310D0, 
address 0x0 at 03:18:21 GMT Sun Oct 27 2002 ...

De la sortie de show context, vous pouvez voir que le système a été redémarré par une exception de parité en cache :

Router#show context slot 11
CRASH INFO: Slot 11, Index 1, Crash at 19:08:07 CST Thu Nov 14 2002

VERSION:
GS Software (GSR-P-M), Version 12.0(22)S1, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1)
TAC Support: http://www.cisco.com/tac
Compiled Mon 16-Sep-02 17:36 by nmasa
Card Type: Route Processor, S/N

LC uptime was 0 minutes.
System exception: sig=20, code=0xE42F3E4B, context=0x52CF3D44
System restarted by a Cache Parity Exception
STACK TRACE:
-Traceback= 5020453C 500E5E24 5010E6DC 5015F89C 501E9F6C 501E9F58
...

Remplacez le GRP ou le PRP après une deuxième panne.

Message d'erreur %GRP-3-PARITYERR

Le message suivant peut apparaître dans la sortie de console :

SEC 7: %GRP-3-PARITYERR: Parity error detected in the fabric buffers. Data (8)

Ce message signifie qu'une erreur de parité a été détectée par le matériel d'interface de matrice sur le GRP. Le nombre hexadécimal indique le vecteur d'interruption d'erreur. Ceci indique habituellement un problème matériel sur le GRP qui signale l'erreur (dans ce cas, emplacement 7). Le GRP défectueux devrait être remplacé sur la deuxième occurrence d'une question semblable.

%PRP-3-SBE_DATA : Mauvaises données [hexa] ECC [hexadécimal] REC CALC [hexadécimal] [hexa]

Affichages de ce message d'erreur quand le routeur reçoit des données avec une mauvaise parité.

Des données avec la mauvaise parité en sont signalées par plusieurs des périphériques parité-vérifiants pour lus ou écrivent l'exécution exécutée sur le Routeur Internet de la série Cisco 12000.

Le PRP emploie la correction d'erreurs et la détection d'erreur de bits multiples à bit unique ECC pour partager la mémoire (SDRAM). Une erreur à bit unique dans le SDRAM est corrigée automatiquement, et le système continue à fonctionner en tant que normale.

Les erreurs à bit unique (SBE) sont corrigées par le circuit de correction d'erreurs (ECC) et n'affectent pas la fonctionnalité du PRP. Aucune action n'est exigée pour des erreurs à bit unique à moins qu'ils se produisent fréquemment.

Si l'erreur se produit fréquemment, il est recommandé de remplacer le panneau de processeur.

Erreurs Parity/ECC dans les linecards de gamme Cisco 12000

Erreurs SDRAM ECC

  • Erreurs à bit unique du code correcteur d'erreurs SDRAM (ECC)

    Une erreur à bit unique est une à bit unique des données qui sont incorrectes dans un mot lu de la mémoire. Pour SBEs, l'erreur peut être corrigée sans interruption aux exécutions.

    Des erreurs à bit unique sont détectées et les données corrigées sont présentées. Par exemple, des erreurs à bit unique sont signalées comme suit sur l'engine 4/4+ :

    SLOT 6:Jul 19 07:37:34: %TX192-3-SDRAM_SBE: Error=0x2 - DIMM1 Syndrome=0x7600 
    Addr=0xBEA09 Data bit80-Traceback= 401C8C9C 401C9508 401CDE08 401CDE40 4007F674 
    4009ED0C 4009ECF8

    SBEs sont corrigés par le circuit de correction d'erreurs et n'affectent pas la fonctionnalité du linecard. Aucune action n'est exigée pour des erreurs à bit unique, à moins qu'ils se produisent fréquemment. Dans ce cas, il est recommandé de remplacer le linecard.

  • Erreurs du Multi-bit ECC SDRAM

    Une erreur de bits multiples est quand plus d'un bit est incorrect dans le même mot. Pour MBEs, l'erreur est détectée et les crash de linecard. L'occurrence de SBEs et de MBEs est très rare.

    Voici un exemple du message imprimé à la console en réponse à une erreur du multi-bit ECC dans le SDRAM :

    SLOT 5:Jul 25 16:58:51: %MCC192-3-SDRAM_SBE: Error=0x808 - DIMM0 
    Syndrome=0x31000000 Addr=0x81034 Data bit120
    -Traceback= 401C8C9C 401C9508 40450018 400BF7D4
    SLOT 5:Jul 25 16:58:51: %MCC192-3-SDRAM_MBE: Error=0x808 - DIMM0 
    Syndrome=0x18000000 Addr=0x80834
    -Traceback= 401C8D88 401C9508 40450018 400BF7D4

    MBEs ne peut pas être corrigé par ECC, et fait tomber en panne le linecard. Le linecard sera alors rechargé et apporté de nouveau dans le fonctionnement normal par le processeur d'artère.

    Des diagnostics sur site peuvent être utilisés pour vérifier la mémoire de carte de ligne pour MBEs. MBEs sont détectés par des diagnostics sur site comme erreurs de mémoire. Est ci-dessous un exemple d'un panneau qui a éprouvé une erreur de bits multiples sur le TX SDRAM qui a manqué des diagnostics sur site :

    FDIAG_STAT_IN_PROGRESS(5): test #12 TX SDRAM Marching Pattern
    FD 5> RIM:
    FD 5> TX Registers
    FD 5> INT_CAUSE_REG = 0x00000680
    FD 5> Unexpected L3FE Interrupt occured.
    FD 5> ERROR: TX BMA Asic Interrupt Occured
    FD 5> *** 0-INT: External Interrupt ***
    FDIAG_STAT_DONE_FAIL(5) test_num 12, error_code 1
    Field Diagnostic: ****TEST FAILURE**** slot 5: last test run 12,
    TX SDRAM Marching Pattern, error 1
    Field Diag eeprom values: run 5 fail mode 1 (TEST FAILURE) slot 5
    last test failed was 12, error code 1

    Si vous avez un QOC48 ou un linecard OC192, référez-vous à cette note de terrain : QOC48/OC192 SBEs/MBEs. Autrement, vous devriez remplacer le linecard après une deuxième panne.

Exceptions de parité en cache

Vérifiez la valeur du champ de sig= dans l'emplacement de show context [slot#] sorti :

Router#show context slot 4
       CRASH INFO: Slot 4, Index 1, Crash at 04:28:56 EDT Tue Apr 20 1999
       
VERSION:
GS Software (GLC1-LC-M), Version 11.2(15)GS1a, EARLY DEPLOYMENT RELEASE
  SOFTWARE (fc1)
Compiled Mon 28-Dec-98 14:53 by tamb
Card Type: 1 Port Packet Over SONET OC-12c/STM-4c, S/N CAB020500AL
System exception: SIG=20, code=0xA414EF5A, 
context=0x40337424
System restarted by a Cache Parity Exception

Quelques cartes ont basé sur l'engine d'expédition de l'engine 1 sont susceptibles des questions de corruption de cache interne en fonctionnant aux états très spécifiques de tension et de température.

La caractéristique de correction d'erreur de cache (CERF) est une caractéristique de logiciel les linecards Engine1 qui détecte et corrige des erreurs de parité en cache par des erreurs vidantes du cache externe CPU, et en régénérant la ligne de cache de la mémoire vive dynamique. Cette caractéristique fournit l'intelligence dans l'algorithme de Gestion de cache CPU qui permet à la CPU de récupérer d'une erreur de parité de mémoire cache, empêchant un crash de linecard sans encourir un impact sur les performances.

Remarque: CERF est allumé par défaut. L'activité de ce code de correction d'erreurs de logiciel (ECC) peut être surveillée par la commande de cerf de show controller. Pour arrêter la caractéristique, utilisez la commande de configuration globale aucun cerf de service.

Voir la note de terrain : Erreur de parité en cache sur la carte GSR 1GE pour information les informations complémentaires.

Pour déterminer sur quelle engine d'expédition le linecard est basé, voyez comment peux je déterminer quelle carte de moteur s'exécute dans la case ? du Routeur Internet de la série Cisco 12000 : Document de forums aux questions.

Si le linecard est basé sur l'engine 1, le contournement est d'améliorer le logiciel de Cisco IOS à une release qui contient la caractéristique de correction d'erreur de cache (CERF). Cette caractéristique était d'abord disponible dans le Logiciel Cisco IOS version 12.0(21)S3. S'il tombe en panne toujours par exception de parité en cache, alors le linecard doit être remplacé.

Si le linecard est basé sur un autre type de moteur, vous devriez remplacer le linecard sur la deuxième occurrence d'un crash semblable.

Messages d'erreur de linecard de l'engine 0-based

Vous pouvez voir le message suivant dans les logs de console :

SLOT 2:Oct 23 17:07:45.531 EST: %LC-3-L3FEERRS: L3FE DRAM error 12 
address 41E9B9A0
SLOT 2:Oct 23 17:07:45.531 EST: %LC-3-L3FEERR: L3FE error: rxbma 0 addr 0 
txbma 0 addr 0 dram 12 addr 41E9B9A0 io 0 addr 0
SLOT 2:Oct 23 17:07:45.531 EST: %GSR-3-INTPROC: Process Traceback= 40080BAC
	-Traceback= 40357084 40495D30 40496EE0 400CCF98

Ce message signale une mémoire vive dynamique CPU écrivent l'erreur de parité. L3FE signifie l'engine avant de la couche 3. Le linecard devrait être remplacé à la deuxième apparition d'un problème semblable.

Messages d'erreur de linecard de l'engine 1-based

Voici quelques messages d'erreur que vous pouvez rencontrer :

  • Dans les logs pour un linecard de gigabit de port unique :

    SLOT 5: %LCGE-3-INTR: TX GigaTranslator external interface parity error
    

    Pour de plus nouveaux panneaux, une difficulté a été de remplacer le TX GigaTranslator ASIC par un réseau prédiffusé champ-programmable (FPGA). À la deuxième apparition d'une question semblable, le panneau devrait être remplacé.

  • Dans la sortie de console :

    SLOT 6: %LC-3-ECC: Salsa ECC: About to handle ECC single bit error,
    ECC status = 2 DRAM error status = = 21
    SLOT 6: %LC-3-L3FEERR: L3FE error: rxbma 0 addr 0 txbma 0 addr 0 dram 21 
    addr 200020 io 0 addr 0
    SLOT 6: %LC-3-ECC: Salsa ECC: Addresses: Salsa returned =429BFDE8 correcting 
    on = 429BFDE8
    SLOT 6: %MEM_ECC-3-SBE: Single bit error detected and corrected at 0x429BFDE8
    SLOT 6: %MEM_ECC-3-SYNDROME_SBE: 8-bit Syndrome for the detected Single-bit error: 
    0x8A
    SLOT 4: %MEM_ECC-3-SBE_HARD: Single bit *hard* error detected at 0x6299FB60
    SLOT 1:Jun 10 05:29:47.690 EDT: %LC-3-ECC: Salsa ECC:  About to handle ECC single bit error,ECC status = 0 DRAM error status =12
    SLOT 6:Sep 26 15:18:01: %LC-3-SWECC: L2 event cleared: EPC = 0x40631CCC, CERR = 0xE40BB933, SysAD Addr = 1, total = 1
    SLOT 0:Dec  7 13:48:11.480: %LC-3-SWECC_DATA: L2 event cleared: EPC = 0x400A8040, CERR = 0xA01DCE58, l1v = 0x41E3C20441E3C1C5, dv =0x41E3C1C441E3C204, SysAD Addr = 0, total = 1
    

    Ces messages peuvent être coupés en pièces suivantes :

    • %LC-3-ECC : Salsa ECC - Il y a une erreur dans le L3FE ASIC du linecard.

    • %LC-3-L3FEERR - Il y a une erreur dans le repérage L3FE ASIC du linecard. les informations.

    • %MEM_ECC-3-SBE - Une erreur corrigible à bit unique a été détectée sur lu de la mémoire vive dynamique. La commande de show memory ecc peut être utilisée pour vider des erreurs à bit unique connectées jusqu'ici. C'est identique que le message d'erreur %MEM_ECC-3-SBE_LIMIT.

    • %MEM_ECC-3-SYNDROME_SBE - Le syndrome de 8 bits pour l'erreur à bit unique détectée. Cette valeur n'indique pas les positions précises des bits par erreur, mais peut être utilisée pour rapprocher leurs positions. C'est identique que le message d'erreur %MEM_ECC-3-SYNDROME_SBE_LIMIT.

      Fondamentalement, le linecard a signalé une erreur à bit unique et l'a corrigée automatiquement. Aucune action n'est exigée de votre partie, à moins que ceci se produise fréquemment. Dans ce cas, il est recommandé de remplacer le linecard.

    • %LC-3-SWECC_DATA - Indique qu'un événement de cache a été corrigé au LC dans l'EMPLACEMENT 0 par le code de correction d'erreurs de logiciel (SWECC).

  • Un autre message que vous pourriez rencontrer est :

    SLOT 4: %MEM_ECC-3-SBE_HARD: Single bit *hard* error detected at 
    0x6299FB60 

    Ce message signifie qu'une erreur non corrigible à bit unique [erreur majeure] a été détectée sur une CPU lue de la mémoire vive dynamique. La commande de show memory ecc vide les erreurs à bit unique connectées jusqu'ici et indique des emplacements durs détectés d'adresse d'erreur.

    Surveillez le système utilisant la commande de show memory ecc et remplacez la mémoire vive dynamique s'il y a trop d'occurrences de ces erreurs.

Messages d'erreur de linecard de l'engine 2-based

Vous pouvez voir l'erreur suivante dans la sortie de console :

SLOT 6: %LC-6-PSAECC: An TLU SDRAM ECC correctable error occurred 
address 19C49FD
SLOT 2:035610: Feb 26 13:09:13.628 UTC: %LC-6-PSAECC: An PLU SDRAM ECC correctable error occurred address 1956059

Ceci signifie que la commutation de paquets ASIC (PSA) SDRAM protégé par ECC a identifié une erreur d'un-bit corrigible. Aucune action n'est exigée de votre partie, à moins que ces messages se produisent fréquemment. Dans ce cas, il est recommandé de remplacer le linecard.

Messages d'erreur de linecard de l'engine 3-based

Vous pouvez voir ces erreurs dans la sortie de console :

SLOT 6:00:03:53: %PM622-3-SAR_SRAM_PARITY_ERR: (6/0): Parity error in Reassembly SAR SRAM address: 80000000.Resetting the port
SLOT 3:00:00:53: %PM622-3- SAR_MULTIBIT_ECC_ERR: (3/0): Multi-bit ECC Uncorrectable error in SAR SDRAM address: 80000000. Resseting the port.
SLOT 4:00:00:53: %PM622-3 SAR_SINGLE_BIT_ECC_ERR: (3/0): ECC corrected an error in SAR SDRAM address: 800000.
SLOT 0:Jun 25 20:45:53 KST: %EE48-6-ALPHAECC: RX ALPHA: An PLU SDRAM ECC correctable error occured address 1000C254
SLOT 0:Jun 25 20:45:53 KST: %EE48-6-ALPHAECC2: RX ALPHA: An PLU SDRAM ECC multibit error occured at address 1000E254
SLOT 5:Nov 17 09:46:30.171: %EE48-6-ALPHA_PARITY: TX ALPHA: Transient SRAM64 parity corrected error 3E Data  0 100000 Parity bits  0
SLOT 10:Feb 21 16:55:36: %EE48-3-ALPHA_SRAM64_ERR: TX ALPHA: ALPHA_PST_RANGE_ERR error 11003F Data  0 0 Parity bits  0
SLOT 4:Jan 15 06:30:00.942 UTC: %EE48-2-GULF_TX_SRAM_ERROR: ASIC GULF: TX SRAM uncorrectable error detected. Details=0x0000
SLOT 0:Mar 16 19:50:22.464 cst: %EE48-4-QM_ZBT_PARITY: ToFab Address 0xB95E Data 0x1
SLOT 5:May 17 06:17:35.507: %EE48-4-QM_NON_ZBT_PARITY: ToFab Error 0x10000028
SLOT 5:May 17 06:17:53.883: %EE48-4-QM_ZBT_PARITY_TRANSIENT: FrFab Address 0x0 Data 0x7E
SLOT 5:May 17 06:17:53.883: %EE48-4- GULF_RX_TB_PARITY_ERROR: ASIC GULF: RX telecom bus parity error on port 0
SLOT 1:Dec 13 00:27:42: %EE48-3-SRAM_PARITY: SRAM parity: Unable to find shadow 281B9EB4
SLOT 0:Aug  4 08:55:37: %EE48-3-QM_PARITY: FrFab Address 0x1859E Data 0x10
SLOT 0:Aug  4 08:55:37: %EE48-3-QM_ERROR: FrFab error register 0x80000.

Messages d'erreur de linecard de l'engine 4/4+-based

  • Vous pouvez rencontrer les messages suivants sur des linecards de l'engine 4/4+-based :

    SLOT 4: %RX192-3-HINTR: status = 0x4000000, mask = 0x3FFFFFFF - 
    Parity error on rx_pbc_mem.
    -Traceback= 401C37C0 403D8814 400BE1EC
    SLOT 4: %LC-3-ERR_INTR: Error interrupt occurred
    -Traceback= 400CE028 400C8DF0 40010A24
    

    ou

    SLOT 3: %RX192-3-HINTR: status = 0x4000000, mask = 0x3FFFFFFF - 
    Parity error on rx_pbc_mem.
    -Traceback= 406012E0 406972A0 400C555C
    %FIB-3-FIBDISABLE: Fatal error, slot 3: IPC failure
    

    ou

    SLOT 13:Dec  5 07:30:15.272 cst: %HERA-6-PAM_ACL_SBE: PKT CNT MEM Syndrome=0x8 Addr=0x523C
    SLOT 2:00:03:41: %MCC192-6-RED_PARAM1_SBE: Parameter 1 - Single Bit Error detected and corrected 
    Syndrome = 0x7, Address = 0x43, samebit No, diffbit No
    SLOT 2:00:03:41: %MCC192-6-RED_PARAM2_SBE: Parameter 1 - Single Bit Error detected and corrected
    Syndrome = 0x7, Address = 0x43, samebit No, diffbit No
    SLOT 5:Apr 26 11:56:08.160: %MCC192-3-SDRAM_MBE: Error=0x200 - DIMM1 Syndrome=0x3000 Addr=0x811C3
    SLOT 10:Mar  6 05:05:26.965: %RX192-3-ADJ_MEM_MBE: phy addr 0x7905E648, offset 0xBCC9, old ecc 0x0, new ecc 0x0, bit -1, value 0x0 - MBE on Adjacency Memory..
    SLOT 13:Dec  5 07:30:15.272 cst: %HERA-6-PAM_ACL_MBE: PKT CNT MEM Syndrome=0x8 Addr=0x523C
    SLOT 2:00:03:41: %MCC192-6-RED_PARAM1_MBE: Parameter 1 - Single Bit Error detected and corrected
    Syndrome = 0x7, Address = 0x43, samebit No, diffbit No
    SLOT 2:00:03:41: %MCC192-3-RED: Error=0x80000 - RED PARAM 1 ECC SBE Error.
    -Traceback= 405AF5E0 405B1CEC 406DFF7C 406E057C 400FC7E
    SLOT 2:00:03:41: %MCC192-6-RED_PARAM2_MBE: Parameter 1 - Single Bit Error detected and corrected
    Syndrome = 0x7, Address = 0x43, samebit No, diffbit No
    Sep  8 14:32:09 jst: %MEM_ECC-3-SYNDROME_SBE_LIMIT: 
    8-bit Syndrome for the detected Single-bit error: 0xD5
    

    Les symptômes pour cette question incluent :

    • Cisco Express Forwarding sur ce linecard obtient handicapé

    • Le séjour associé up/up de ports

    • Le linecard pourrait être automatiquement remis à l'état initial

    Si le linecard ne remet pas à l'état initial, le contournement est d'exécuter la commande de <slot> de recharge de microcode :

    Ce message n'indique pas toujours un problème de matériel avec le module RX192. Quelques bogues de logiciel Cisco IOS pourraient produire ce message d'erreur comme effet secondaire. Si ce message apparaît seulement une fois, continuez à surveiller le panneau. Le périphérique sera remis à l'état initial. Si le problème persiste, la carte sera automatiquement remise à l'état initial. Entrez en contact avec votre représentant de l'assistance technique Cisco pour l'assistance si ce message persiste.

  • Les événements SBE peuvent être vérifiés l'E4/E4+ avec l'ordre CCE des shows controllers mcc192 :

    LC-Slot4#show controllers mcc192 ecc 
    MCC192 SDRAM ECC Counters
            SBE = 0x0,              MBE = 0x0
    TX192 SDRAM ECC Counters
            SBE = 0x0,              MBE = 0x0

    Ceci rend compte de la mémoire RX et TX.

Messages d'erreur de linecard de l'engine 5/5+-based

Vous pouvez voir ces erreurs dans la sortie de console :

SLOT 1:Jun 26 20:45:53 KST: %EE192-6-WAHOOECC: RX WAHOO: An PLU SDRAM ECC correctable error occured address 20000254
SLOT 9:Sep 2 21:27:49.680 GMT+8: %MCC192-3-PKTMEM_SBE: Single bit error detected and corrected
SLOT 14:Jul 18 07:19:24.637:  RX_XBMA: 1-bit CPUIM_ECCERR1 error 0x2
SLOT 15:Jan  4 16:53:16.591:  TX_XBMA: (1) QSRAM qinfo SBE detected. info: 0x82605455
SLOT 12:Dec 12 22:34:15: %EE192-4-BM_ERRSSS: FrFab BM BADDR ECC ERR info single bit error(s) corrected, error 8250F63E count:  2
SLOT 1:Nov 22 13:40:02 JST: %EE192-3-QM_ERROR: RX_XBMA OQLLM error error register 0x1
-Traceback= 40AE71AC 406078C4 405F5EC0
SLOT 7:001113: Oct 24 10:50:28.520 BST: %EE192-3-WAHOOERRS: RX WAHOO: WAHOO_CSRAM_CNTRL_INT PIPE0 error 8
SLOT 6:Oct  4 16:48:00.487: %EE192-3-WAHOOERRSSS: RX WAHOO: WAHOO_FFCRAM_CNTRL_INT PIPE0 error 4  addr 3FBFAB8  agent 94
SLOT 7:001114: Oct 24 10:50:28.520 BST: %EE192-3-WAHOOERRSSSS: RX WAHOO: WAHOO_PPC_INT PIPE1 error pl_ctl 4000226 pl_aa_avl F9F7B pl_aa_end 7FF9 pl_aa_fatal 4800000
SLOT 6:Oct  4 16:48:00.487: %EE192-3-WAHOOERRS: RX WAHOO WAHOO_NFC_SRAM_MULTI_ECC_ERR multi-bit CSSRAM error 
SLOT 6:Oct  4 16:48:00.487: %EE192-3-WAHOOERRS: WAHOO_CTCAM_CNTRL_INT multi-bit CSRAM error
SLOT 6:Oct  4 16:48:00.487: %EE192-3-WAHOOERRS: WAHOO_FFCRAM_CNTRL_INT MBE
SLOT 6:Oct  4 16:48:00.487: %EE192-3-WAHOOERRS: FSRAM not OK WAHOO_FSRAM_CNTRL_INT ECC_1_BIT_EE | ECC_UNCORR_EE
SLOT 6:Oct  4 16:48:00.487: %EE192-3-WAHOOERRS: WAHOO_CTCAM_CNTRL_INT multi-bit CSRAM error
SLOT 1:00:01:14: WEEKLY_THROTTLE_SOCKEYE_SBE: SOCKEYE SBE: addr: 0xC2A007C0, synd: 0xC4
SLOT 1:00:01:14: WEEKLY_THROTTLE_CBSRAM_SBE_TX+i: CBSRAM SBE TX: 1-bit CBSRAM error.
SLOT 1:00:01:14: WEEKLY_THROTTLE_CBSRAM_SBE_RX+i: CBSRAM SBE RX: 1-bit CBSRAM error.
SLOT 1:00:01:14: WEEKLY_THROTTLE_CSSRAM_SBE_TX+i: CSSRAM SBE TX: 1-bit CSSRAM error.
SLOT 1:00:01:14: WEEKLY_THROTTLE_CSSRAM_SBE_RX+i: CSSRAM SBE RX: 1-bit CSSRAM error.
SLOT 1:00:01:14: WEEKLY_THROTTLE_CSRAM_SBE_TX+i: CSRAM SBE TX: 1-bit CSRAM error.
SLOT 1:00:01:14: WEEKLY_THROTTLE_CSRAM_SBE_RX+i: CSRAM SBE RX: 1-bit CSRAM error.
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FW_TCAM_PRTY_TX+throttle_i: TX FTCAM PRTY error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FW_TCAM_PRTY_RX+throttle_i: RX FTCAM PRTY error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_CL_TCAM_PRTY_TX+throttle_i: TX CLTCAM PRTY error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_CL_TCAM_PRTY_RX+throttle_i: RX CLTCAM PRTY error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_NF_TCAM_PRTY_TX+throttle_i: TX NFTCAM PRTY error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_NF_TCAM_PRTY_RX+throttle_i: RX NFTCAM PRTY error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_TCAM_PRTY_VMR: TCAM PRTY VMR error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_TCAM_PRTY_NO-VMR: TCAM PRTY NO-VMR error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FCRAM_SBE_TX: FCRAM SBE TX error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FCRAM_SBE_RX: FCRAM SBE TX error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FCRAM_PER_CHIP_SBE_TX: FCRAM CHIP SBE error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_ FCRAM_PER_CHIP_SBE_RX: FCRAM CHIP SBE error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FSRAM_SBE_TX: FSRAM SBE TX error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FSRAM_SBE_RX: FSRAM SBE RX error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_ FSRAM_MBE_TX: FSRAM MBE RX error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_ FSRAM_MBE_RX: FSRAM MBE RX error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_BM_ISERR_TX: ISERR TX error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_BM_ISERR_RX: ISERR RX error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_BM_FCRAM_SBE_TX: FCRAM SBE TX error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_BM_FCRAM_SBE_RX: FCRAM SBE RX error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_LINK_SBE_TX: QSRAM LINK SBE TX error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_LINK_SBE_RX: QSRAM LINK SBE RX error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_QEINFO_SBE_TX: QSRAM queue info sbe tx error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_QEINFO_SBE_TX: QSRAM queue info sbe rx error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_BADDR_SBE_TX: qsram bad addr sbe tx error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_ QM_QSRAM_BADDR_SBE_RX: qsram bad addr sbe rx error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_OQLLM_SBE_TX: oqllm sbe tx error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_OQLLM_SBE_RX: oqllm sbe rx error status = 0x3

Messages d'erreur de linecard de l'engine 6-based

Vous pouvez voir ces erreurs dans la sortie de console :

SLOT 0:Jan 14 08:53:44.581 GMT: %FIA-3-RAMECCERR: To Fabric ECC error was detected Single Bit Error RAM2 status = 0x8000  
Syndrome = 0x0 addr = 0x0
SLOT 6:Apr 29 09:36:12: %E6LC-4-ECC_THRESHOLD: HERMES VID SBE exceeded threshold, possible memory failure
SLOT 4:*Mar 13 23:38:19.295: %E6_RX192-3-MTRIE_SBE: Head1 Syndrome=0x94 Addr=0xFFF2B 
-Traceback= 40544830 40546A90 40688C94 400EDC18
SLOT 7:*Mar 4 1234:19.295: %E6_RX192-3-ADJ_SBE: Syndrome=0x59 Addr=0xFFF2B
-Traceback= 40000830 40036A90 40555D44 400ddd23
SLOT 14:Dec  9 20:02:29: %E6_RX192-6-PBC_SBE: Single bit error detected and corrected RLDRAM 
Syndrome=0x61 Addr=0xF855
Dec  9 20:02:33: %GRP-4-RSTSLOT: Resetting the card in the slot: 14,Event: linecard error report
SLOT 4:06:21:43: %E6_RX192-3-ACL_SBE: ACTION MEM Syndrome=0x7 Addr=0x0
-Traceback= 40549740 4054A7E0 4068D814 400EE018
SLOT 6:Mar 28 03:30:19: %RX192-3-HINTR: status = 0x1000000000000, mask = 0x7FFFFF0FA320F - L3X SBE error.
-Traceback= 405816DC 406A1010 406A1650 400F70E8
SLOT 6:Mar 28 03:30:19: %E6_RX192-6-VID_SBE: Single bit error detected and corrected VID memory Syndrome=0x19 Addr=0xE51B
SLOT 6:Nov 27 23:32:36: %HERA-3-PKTMEM_SBE: Single bit error detected and corrected Error=0x80 – 
Syndrome=0x5100000000000000 Addr=0x894620 Data bit116
SLOT 7:Oct 2 23:32:36: %HERA-6- MCD_SBE: Single bit error detected and corrected Error=0x50 – 
Syndrome=0x3100000000000000 Addr=0x331110 Data bit216
SLOT 1:Jun 22 03:32:36: %HERA-6- MRW_SBE: Single bit error detected and corrected Error=0x50 – 
Syndrome=0x3100000000000000 Addr=0x331110 Data bit216
SLOT 12:May 24 03:03:36: %HERA-6- UPF_SBE: Single bit error detected and corrected Error=0x60 – 
Syndrome=0x4100000000000000 Addr=0x451140 Data bit216
SLOT 13:Dec  5 07:30:15.272 cst: %HERA-6-PAM_ACL_SBE: PKT CNT MEM Syndrome=0x8 Addr=0x523C
SLOT 9:May  5 18:52:14: %HERA-6-QM_FBF_SBE: Free Block FIFO - Single Bit Error detected and corrected 
Syndrom = 0x10, Addr = 0x778, samebit Yes, diffbit No
SLOT 9:May  5 18:52:14: %HERA-3-QM: Error=0x40 - FBF RAM ECC SBE.
-Traceback= 405AD4CC 405AF5D0 405F2E80 406DCDB8 406DD434 400FC500
SLOT 3:Aug 16 00:45:14: %MCC192-6-RED_AQD_SBE: Average Queue Depth - Single Bit Error detected and corrected 
Syndrome = 0x7, Address = 0x89, samebit No, diffbit No
SLOT 2:Jan 23 06:29:56 KST: %MCC192-6-RED_STAT_SBE: Statistics - Single Bit Error detected and corrected 
Syndrome = 0x38, Address = 0xFF, samebit No, diffbit No
SLOT 4:*Mar 13 23:38:19.295: %E6_RX192-3-MTRIE_MBE: Single bit error detected and corrected Head1 
Syndrome=0x94 Addr=0xFFF2B
SLOT 7:*Mar 4 1234:19.295: %E6_RX192-3-ADJ_MBE: Syndrome=0x59 Addr=0xFFF2B
-Traceback= 40000830 40036A90 40555D44 400ddd23
00:00:18: %E6_RX192-3-PBC_MBE: ADJ OBANK LO Syndrome=0xE5 Addr=0x142
-Traceback= 405BF8B0 405C0F08 406E8D78 406E93B8 400FCCE0
SLOT 6:Mar 28 03:30:19: %E6_RX192-6-VID_MBE: Single bit error detected and corrected VID memory Syndrome=0x19 Addr=0xE51B
SLOT 0:Apr 18 06:44:53.751 GMT: %HERA-3-PKTMEM_MBE: Error=0x1010 - Syndrome=0x9900000000
SLOT 7:Oct 2 23:32:36: %HERA-6- MCD_MBE: Single bit error detected and corrected Error=0x50 – 
Syndrome=0x3100000000000000 Addr=0x331110 Data bit216
SLOT 1:Jun 22 03:32:36: %HERA-6- MRW_MBE: Single bit error detected and corrected Error=0x50 - Syndrome=0x3100000000000000 Addr=0x331110 Data bit216
SLOT 13:Dec  5 07:30:15.272 cst: %HERA-6-PAM_ACL_MBE: PKT CNT MEM Syndrome=0x8 Addr=0x523C
SLOT 9:May  5 18:52:14: %HERA-6-QM_FBF_MBE: Free Block FIFO - Single Bit Error detected and corrected 
Syndrome = 0x10, Addr = 0x778, samebit Yes, diffbit No
SLOT 3:Aug 16 00:45:14: %MCC192-6-RED_AQD_MBE: Average Queue Depth - Single Bit Error detected and corrected 
Syndrome = 0x7, Address = 0x89, samebit No, diffbit No
SLOT 2:Jan 23 06:29:56 KST: %MCC192-6-RED_STAT_MBE: Statistics - Single Bit Error detected and corrected 
Syndrome = 0x38, Address = 0xFF, samebit No, diffbit No

Messages d'erreur de STATION THERMALE

Vous pouvez voir ces erreurs dans la sortie de console :

SLOT 7:Jan 4 02:04:00.487: %SPA_CHOC_DSX-3-UNCOR_PARITY_ERR:  SPA4/0: CHOC SPA parity error(s) encountered
SLOT 7:Jan 4 02:04:00.487: %MCT1E1-3-UNCOR_PARITY_ERR:  SPA5/0: T1E1 SPA parity error(s) encountered
SLOT 3: 00:33:48: %MCT1E1-3-UNCOR_MEM_ERR: SPA3/0: 1 uncorrectable HDLC SRAM memory error(s) encountered.
SLOT 1:Oct  3 14:42:45.727: %SPA_PLIM-4-SBE_ECC: SPA-4XT3/E3[1/2] reports 2 SBE occurrence at 1 addresses
SLOT 1: Jul 22 05:26:29.613 UTC: %SPA_DATABUS-3-SPI4_SINGLE_DIP4_PARITY: SIP Sbslt 0 Ingress Sink - A single DIP4 parity error has occurred on the data bus.
SLOT 4: Dec  2 22:44:05: %SPA_DATABUS-3-SPI4_SINGLE_DIP2_PARITY: SIP Sbslt 0 Egress Source - A single DIP 2 parity error on the FIFO status bus has occurred.
SLOT 1:Oct  3 14:42:45.727: %SPA_PLIM-4-SBE_OVERFLOW: SPA-4XT3/E3[1/2] reports SBE table (2 elements) overflows
SLOT 1:Oct  3 14:42:45.727: % SPA_PLUGIN-3-SPI4_SETCB: SPA-4XT3/E3[1/2] : IPC SPI4 set callback failed(status 2).

Erreurs de parité dans la gamme Cisco 12000 commutant des cartes de matrice

Tous les messages d'erreur de parité liés aux cartes de changement de matrice sont couverts en détail dans le dépannage matériel pour le Routeur Internet de la série Cisco 12000. Ces messages incluent (liste non exhaustive) :

%FABRIC-3-PARITYERR: To Fabric parity error was detected. Grant parity error 
Data = 0x2.

SLOT 1:%FABRIC-3-PARITYERR: To Fabric parity error was detected. 

Grant parity error Data = 0x1

Informations connexes


Document ID: 29320