Routeurs : Routeurs de la gamme Cisco 10000

Arborescence des erreurs de parité 10000 ESR PRE1

18 octobre 2016 - Traduction automatique
Autres versions: PDFpdf | Anglais (22 avril 2015) | Commentaires


Contenu


Introduction

Ce document explique les étapes pour dépanner et isoler que la pièce ou le composant d'un routeur de services de périphérie de gamme Cisco 10000 (ESR) et de l'engine de routage de représentation (PRE1) manquent quand vous identifiez un grand choix de messages d'erreur de parité.

Conditions préalables

Conditions requises

Cisco vous recommande de prendre connaissance des rubriques suivantes :

Composants utilisés

Les informations dans ce document sont basées sur les versions de logiciel et de matériel ci-dessous.

  • Routeurs de services de périphérie de gamme Cisco 10000 (ESR) utilisant l'engine de routage de représentation (PRE1)

  • Toutes les versions de logiciel de ½ du ¿  de Cisco IOSïÂ

Remarque: Ce document n'applique pas aux Routeurs d'Internet de gamme Cisco 10720.

Les informations contenues dans ce document ont été créées à partir des périphériques d'un environnement de laboratoire spécifique. Tous les périphériques utilisés dans ce document ont démarré avec une configuration effacée (par défaut). Si votre réseau est opérationnel, assurez-vous que vous comprenez l'effet potentiel de toute commande.

Conventions

Pour plus d'informations sur les conventions utilisées dans ce document, reportez-vous à Conventions relatives aux conseils techniques Cisco.

Analyse d'arborescence des erreurs de parité de processeur de l'artère PRE1

La gamme Cisco 10000 ESR PRE1 se compose de deux cartes à circuits : le processeur d'artère (RP) et la carte du processeur d'expédition (point de gel). L'organigramme ci-dessous vous aide à déterminer quel composant d'une gamme Cisco 10000 ESR PRE1 est responsable des messages d'erreur de la correction de parité/code d'erreur (ECC) sur le processeur d'artère.

/image/gif/paws/25701/esr10000a.gif

Remarque: Saisissez et enregistrez la sortie de show tech-support et consolez les logs, et collectez tous les fichiers de crashinfo et de pxf_crashinfo pendant les erreurs parity/ECC.

Détection PRE1 Parity/ECC

Le diagramme suivant décrit la partie de l'architecture PRE1 RP qui peut éprouver des erreurs parity/ECC.

esr10000b.gif

Le PRE1 RP utilise la correction d'erreurs et la détection d'erreur de bits multiples à bit unique ECC (correction de code d'erreur) à la mémoire partagée (SDRAM). Une erreur à bit unique dans le SDRAM est corrigée automatiquement, et le système continue à fonctionner en tant que normale.

Une erreur de bits multiples dans le SDRAM est un événement mortel, qui fait produire une exception d'erreur de cache ou une erreur sur le bus. Le reste de la mémoire et les bus dans le système utilisent la détection à bit unique de parité. Les erreurs à bit unique à 1 et à 3 dans le diagramme ci-dessus sont mortelles et font remettre à l'état initial le routeur.

Erreurs Parity/ECC dans le processeur d'artère de la gamme Cisco 10000 ESR

Les données avec la mauvaise parité en peuvent être signalées par plusieurs des périphériques parité-vérifiants pour lus ou écrire l'exécution sur la gamme Cisco 10000 ESR utilisant le PRE1.

Ce qui suit est une description des divers messages d'erreur RP signalés sur une gamme Cisco 10000 ESR avec un PRE1 installé :

  • Erreur GT64120B SDRAM

    Le message d'erreur suivant est signalé quand un contrôleur système GT64120B détecte une erreur du multi-bit ECC en lisant le SDRAM :

    %ERR-1-GT64120 (PCI-0): Fatal error, Memory parity error (external)
     GT=0xB4000000, cause=0x0100E283, mask=0x0ED01F00, real_cause=0x00000200
     bus_err_high=0x00000000, bus_err_low=0x00000000, addr_decode_err=0x00000470
     %ERR-1-FATAL: Fatal error interrupt, reloading
     RP FPGA status 0x00000004
     EPC 0x6084116C Error EPC 0xBFC00C54 BadVA 0xD6E8B233
     Status 0x3400FF03
    

    Remplacez le SDRAM après une deuxième panne. Si la panne persiste, remplacez le PRE1.

  • Maître d'erreur de parité de système GT64120B lu

    Accéder à l'un ou l'autre du PCI jette un pont sur des déclencheurs qu'une erreur de parité dans le maître a lus. Ce qui suit est un exemple d'un message d'erreur de parité :

    %ERR-1-GT64120 (PCI0):Fatal error, Parity error on master read
    GT=B4000000, cause=0x0110E083, mask=0x0ED01F00, real_cause=0x00100000
    Bus_err_high=0x00000000, bus_err_low=0x00000000,
    addr_decode_err=0x00000470
     
    %ERR-1-SERR: PCI bus system/parity error
    %ERR-1-FATAL: Fatal error interrupt, No reloading
    Err_stat=0x81, err_enable=0xFF, mgmt_event=0x40
    

    Remplacez le PRE1 à la découverte de ces erreurs.

  • Erreur de parité CPU

    Un message d'erreur de parité CPU est signalé si la CPU détecte une erreur de parité en accédant au cache externe du processeur (L3 sur le PRE1) par son bus de SysAD, ou l'un ou l'autre des mémoires de cache interne CPU (L1 ou L2). Le tableau 1 affiche des exemples des messages qui seraient imprimés pour chaque type d'erreur de parité en cache :

    Tableau 1 : Emplacement d'erreur de parité CPU

    Emplacement d'erreur de parité
    Cache de l'instruction L1 Erreur : Primaire, cache d'instr, champs : données
    Cache de données L1 Erreur : Primaire, cache de données, champs : données
    Cache de l'instruction L2 Erreur : SysAD, cache d'instr, champs : données
    Cache de données L2 Erreur : SysAD, cache de données, champs : données
    Cache de l'instruction L3 Erreur : SysAD, cache d'instr, champs : 1er dword
    Cache de données L3 Erreur : SysAD, cache de données, champs : 1er dword

    Employez le tableau 1 pour identifier l'emplacement de l'erreur de parité signalée à la console de la gamme Cisco 10000 ESR.

Exemple 1 :

La première ligne du message d'erreur indique l'emplacement de l'erreur de parité, et peut être n'importe quel emplacement répertorié dans le tableau 1. Dans cet exemple, l'emplacement est le cache de données L3.

Error: SysAD, data cache, fields: data, 1st dword
Physical addr(21:3) 0x195BE88,
Virtual address is imprecise.
    Imprecise Data Parity Error
    Imprecise Data Parity Error

Remplacez le PRE1 après une deuxième panne.

Exemple 2 :

La première ligne du message d'erreur indique l'emplacement de l'erreur de parité, et peut être n'importe quel emplacement répertorié dans le tableau 1. Dans cet exemple, l'emplacement est cache de l'instruction L3.

Error: SysAD, instr cache, fields: data, 1st dword
Physical addr(21:3) 0x000000,
virtual addr 0x6040BF60, vAddr(14:12) 0x3000
virtual address corresponds to main:text, cache word 0
 
          Low Data     High Data  Par  Low Data     High Data  Par
L1 Data:  0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01
          2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01
           Low Data     High Data  Par  Low Data     High Data  Par
DRAM Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01
           2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01

Comme dans l'exemple 1, remplacez le PRE1 après une deuxième panne.

  • Crash dû à l'erreur de parité :

    Mar 14 10:32:01.029 UTC: %C10K_TOASTER-3-ERROR: TCAM0 has parity error
    Mar 14 10:32:01.033 UTC: %C10KEVENTMGR-1-MINOR_FAULT: PXF DMA ToasterFault
    Mar 14 10:32:01.033 UTC: %C10KEVENTMGR-1-MINOR_REOCCURRING: PXF DMAToaster Fault 

    Des erreurs de parité TCAM doivent être prévues ont basé sur les calculs connus MTBF. Le message d'erreur est simplement un problème matériel passager.

PRE1 analyse de l'arborescence de défaillances du paquet rapide ECC

La carte à circuits du processeur d'expédition (point de gel) est le bureau supérieur de l'assemblage PRE1. Le panneau point de gel contient trois circuits intégrés spécifiques à l'application (ASIC), une interface simple ASIC du fond de panier, et le traitement réseau ASIC de deux Parallel Express Forwarding (PXF). Chaque ASIC a accès aux systèmes mémoire externes.

Le diagramme suivant vous aide à déterminer quel composant d'un point de gel de la gamme Cisco 10000 ESR PRE1 est responsable des messages d'erreur ECC.

/image/gif/paws/25701/esr10000c.gif

Erreurs de l'interface ASIC SDRAM ECC du fond de panier

  • Erreurs à bit unique du code correcteur d'erreurs de l'interface ASIC SDRAM du fond de panier (ECC)

    L'interface ASIC du fond de panier a accès SDRAM ECC-protégé. Des erreurs à bit unique sont détectées et les données corrigées sont présentées. Des erreurs à bit unique sont signalées comme suit :

    %C10KEVENTMGR-1-MINOR_FAULT: PXF DMA Single Bit SDRAM Error
    %C10KEVENTMGR-1-SBE_DEBUG: Address: 0x01003C00, 
    Who: 0x02, Data With ECC: 0x6E453363 2843ADAC D4
    
    10769E 9773870C, Data w/o ECC: 0x6E453363 2843ADAC D410769E 9773870C

    Des erreurs à bit unique sont comptées et peuvent être affichées utilisant la commande de logiciel de Cisco IOS de compteurs du pxf accès direct à la mémoire de matériel d'exposition. L'action n'est pas habituellement exigée pour des erreurs à bit unique ; cependant, répété ou fréquentez les exemples des erreurs à bit unique sont cause pour le remplacement du PRE1.

  • Erreurs du Multi-bit ECC de l'interface ASIC SDRAM du fond de panier

    Une fois détectées, les erreurs de bits multiples de l'interface ASIC SDRAM du fond de panier entraînent le réseau PXF traitant le microcode pour recharger, et créent également un fichier de pxf_crashinfo dans le bootflash. Le réseau PXF traitant la recharge de microcode cause l'interface ASIC du fond de panier d'être réinitialisée, efficacement frottant l'erreur de bits multiples du SDRAM. Ce qui suit est un exemple du message imprimé à la console en réponse à une erreur du Multi-bit ECC dans l'interface ASIC SDRAM du fond de panier :

    %C10KEVENTMGR-1-MAJOR_FAULT: PXF DMA Multi-bit SDRAM Error, Restarting PXF
     Downloading Microcode: file=system:pxf/c10k-1-ucode.3.1.0,
     version=3.1.0, description=Release Software created Tue 11-Sep-01 19:25
    

    Remplacez le PRE1 après une deuxième panne.

Réseau PXF traitant des erreurs de la mémoire ECC de colonne ASIC

Le réseau PXF deux traitant des ASIC ont l'accès à la mémoire de colonne SDRAM protégée par ECC, ou la mémoire externe de colonne (XCM).

  • Réseau PXF traitant des erreurs à bit unique ASIC XCM ECC

    Des erreurs à bit unique sont détectées et les données corrigées sont présentées. Des erreurs à bit unique sont comptées, et le réseau PXF traitant le compte d'erreur à bit unique ASIC XCM peut être affiché utilisant la commande du pxf xcm de matériel d'exposition.

    Quand les bouclages à bit unique de compteur d'erreurs, des erreurs à bit unique sont signalés et le RP frotte l'adresse de la première erreur à bit unique qui a été détectée par le réseau PXF traitant l'ASIC. Ce qui suit est un exemple d'un message signalé quand une erreur à bit unique est signalée :

    %TOASTER-2-FAULT: T0 XCM1 SDRAM-A: ECC Single bit error counter has wrapped

    Le nombre de grille-pain (réseau PXF traitant l'ASIC) et l'interface SDRAM dans le message ci-dessus reflètent l'interface XCM où l'erreur à bit unique du compteur enveloppé a été détectée. L'action n'est pas habituellement exigée pour les bouclages à bit unique de compteur d'erreurs ; cependant, répété ou fréquentez les exemples de ces erreurs sont cause pour le remplacement du PRE1.

  • Réseau PXF traitant des erreurs du multi-bit ECC ASIC XCM

    XCM des erreurs du multi-bit ECC ne peuvent pas être corrigées. Dans les systèmes avec PRE1s redondant, XCM les erreurs de bits multiples entraînent un crash et PRÉ un Basculement. Dans les systèmes avec un PRE1 simple, la détection XCM des erreurs de bits multiples force un réseau PXF traitant la recharge de microcode ASIC. La recharge de microcode réinitialise tout le réseau PXF traitant des mémoires ASIC XCM, frottant efficacement la panne de multi-bit ECC de la mémoire. Les messages suivants apparaissent dans le log et le fichier pxf_crashinfo/crashinfo :

    %TOASTER-2-FAULT: T0 XCM1 SDRAM-A: Multi-bit ECC error
    %C10KEVENTMGR-1-MAJOR_FAULT: PXF DMA Toaster Fault, Restarting PXF
     Downloading Microcode: file=system:pxf/c10k-1-ucode.102.3.0.0, version=102.3.0.0,
    

    Quand ceci se produit, le message d'erreur spécifie le grille-pain (T0 ou t1), le XCM approprié le nombre (1 à 4), et l'interface SDRAM (A ou B) qui a rencontré l'erreur du multi-bit ECC.

    Remplacez le PRE1 après une deuxième panne.


Informations connexes


Document ID: 25701