Routeurs : Routeurs de la gamme Cisco 7200

Erreurs de parité de mémoire de processeur (PMPE)

16 janvier 2016 - Traduction automatique
Autres versions: PDFpdf | Anglais (31 décembre 2015) | Commentaires


Interactif : Ce document propose une analyse personnalisée de votre périphérique Cisco.


Contenu


Introduction

Ce document explique ce qui entraîne des erreurs de parité sur des routeurs Cisco, et comment effectuer le dépannage.

Conditions préalables

Conditions requises

Cisco recommande que vous ayez la connaissance de la façon dépanner des crash de routeur.

Référez-vous au pour en savoir plus de crash de routeur de dépannage.

Composants utilisés

Ce document n'est pas limité à des versions de matériel et de logiciel spécifiques.

Les informations contenues dans ce document ont été créées à partir des périphériques d'un environnement de laboratoire spécifique. Tous les périphériques utilisés dans ce document ont démarré avec une configuration effacée (par défaut). Si votre réseau est opérationnel, assurez-vous que vous comprenez l'effet potentiel de toute commande.

Conventions

Pour plus d'informations sur les conventions utilisées dans ce document, reportez-vous à Conventions relatives aux conseils techniques Cisco.

Identifiez une erreur de parité

Les erreurs de parité de la mémoire se produisent dans des Produits basés sur multicanaux de processeur de processeur d'interface (MIP) comme :

  • Routeurs de gamme Cisco 4500/4700

  • Routeurs de la gamme Cisco 7500 (RSP1, RSP2, RSP4, RSP8, VIP2-10, VIP2-15, VIP2-20, VIP2-40, VIP2-50)

  • Routeurs de la gamme Cisco 7000 (RSP 7000)

  • Routeurs de la gamme Cisco 7200 (NPE-100, NPE-150, NPE-175, NPE-200, NPE-225, NPE-300)

  • Routeur Internet de la gamme Cisco 12000

Voici quelques messages, qui tous sont liés à la détection de la mauvaise parité quelque part dans le système (la liste n'est pas exhaustive, mais contient les messages les plus communs) :

  • Dans la sortie de commande de show version :

    System restarted by processor memory parity error at PC 0x6014F7C0,
     address 0x0

    ou

    System restarted by shared memory parity error at PC 0x60130F40

    Si vous avez la sortie d'une commande de show version de votre périphérique de Cisco, vous pouvez utiliser pour afficher des éventuels problèmes et des difficultés. Afin d'utiliser , vous devez être un client enregistré, être ouvert une session, et faire activer le Javascript.

  • Dans les logs de console, ou dans les fichiers crashinfo :

    -  *** Cache Error Exception ***
       Cache Err Reg = 0xa401a65a
       data reference, primary cache, data field error , error on SysAD Bus
       PC = 0xbfc17950, Cause = 0x0, Status Reg = 0x3040d007
    
    
    -  Error: primary data cache, fields: data,
       virtual addr 0x6058A000, physical addr(21:3) 0x18A000, vAddr(14:12) 0x2000
       virtual address corresponds to main:data, cache word 0
                                      
                    Low Data   High Data  Par    Low Data   High Data  Par
       L1 Data  : 0:0xFEFFFEFE 0x65776179 0x13 1:0x20536572 0x76657220 0x89
                  2:0x646F6573 0x206E6F74 0x9C 3:0x20737570 0x706F7274 0xF8  
                                            
                    Low Data   High Data  Par    Low Data   High Data  Par
       Mem Data : 0:0xFEFFFEFE 0x65776179 0x13 1:0x20536572 0x76657220 0x89
                  2:0x646F6573 0x206E6F74 0x9C 3:0x20737570 0x706F7274 0xF8
    
    
    -  *** Shared Memory Parity Error ***
       shared memory control register= 0xffe3
       error(s) reported for: CPU on byte(s): 0/1
    
    -  %PAR-1-FATAL: Shared memory parity error
       shared memory status register= 0xFFEF
       error(s) reported for: CPU on byte(s): 0/1 2/3
    
    
    -  %RSP-3-ERROR: MD error 0000008000000200
       %RSP-3-ERROR: QA parity error (bytes 0:3) 02
       %RSP-3-ERROR: MEMD parity error condition
       %RSP-2-QAERROR: reused or zero link error, write at addr 0100 (QA) 
           log 22010000, data 00000000 00000000
       %RSP-3-RESTART: cbus complex
    
    
    -  %RSP-3-ERROR: CyBus error 01
       %RSP-3-ERROR: read data parity
       %RSP-3-ERROR: read parity error (bytes 0:7) 20
       %RSP-3-ERROR: physical address (bits 20:15) 000000
    
    -  %RSP-3-ERROR: MD error 00800080C000C000
       %RSP-3-ERROR: SRAM parity error (bytes 0:7) F0
       %RSP-3-RESTART: cbus complex

Doux contre des erreurs de parité matérielle

Il y a deux genres d'erreurs de parité :

  • Erreurs de parité logicielle

    Ces erreurs se produisent quand une force dans la puce (par exemple, celle ou un zéro) change. Une fois référencées par la CPU, de telles erreurs entraînent le système ou au crash (si l'erreur est dans une zone qui n'est pas réparable) ou ils récupèrent d'autres systèmes (par exemple, des reprises d'un complexe de CyBus si l'erreur était dans la mémoire de paquet (MEMD)). En cas d'erreur de parité logicielle, il n'y a aucun besoin de permuter le panneau ou les composants l'uns des. Voyez la section Informations connexes pour des informations supplémentaires sur des erreurs de parité logicielle.

  • Erreurs de parité matérielle

    Ces erreurs se produisent quand il y a une puce ou une défaillance de carte qui corrompent des données. Dans ce cas, vous devez réinsérer ou remplacer le composant affecté, qui comporte habituellement un échange de puces mémoire ou un échange de panneau. Il y a une erreur de parité matérielle quand les plusieurs erreurs de parité se produisent à la même adresse. Il y a des cas plus compliqués il est plus difficile de l'identifier que. Généralement si vous voyez plus d'une erreur de parité en zone mémoire particulière dans relativement une brève période, vous pouvez la considérer comme étant une erreur de parité matérielle.

Les études ont prouvé que les erreurs de parité logicielle sont 10 à 100 fois plus fréquentes que des erreurs de parité matérielle. Par conséquent, Cisco vous recommande fortement pour attendre une deuxième erreur de parité avant que vous remplaciez n'importe quoi. Ceci réduit considérablement l'incidence sur votre réseau.

Isolez le problème

Un routeur a la mémoire dans les endroits différents. Théoriquement, n'importe quel emplacement en mémoire peut être affecté par l'erreur de parité, mais la plupart des problèmes de mémoire se posent dans la mémoire vive dynamique (mémoire vive dynamique) ou la RAM partagée (SRAM). Est basé sur la plate-forme, comment vous pouvez découvrir quel emplacement en mémoire a été affecté, et, s'il s'avère être une erreur de parité matérielle, quelle partie vous doit remplacer :

Plateformes de Cisco 4500 et 4700

Sur les Plateformes de Cisco 4500 et 4700, le fichier crashinfo n'est pas disponible dans les versions plus tôt que des versions de logiciel 12.2(10) et 12.2(10)T de Cisco IOSÝ.

Une manière de découvrir où l'erreur s'est produite est de regarder la « raison de reprise » dans les logs de console, et dans la sortie de la commande de show version :

  • Erreur de parité dans la mémoire vive dynamique :

    Si vous ne rechargiez pas manuellement le routeur après que le crash, la sortie de show version ressemble à ceci :

    System restarted by processor memory parity error at PC 0x601799C4,
     address 0x0 
    System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash

    Si un fichier crashinfo est disponible, ou si des logs de console ont été capturés, vous pouvez également voir n'importe quoi de pareil :

    *** Cache Error Exception *** 
     Cache Err Reg = 0xa0255c61 
     data reference, primary cache, data field error , error on SysAD Bus 
     PC = 0xbfc0edc0, Cause = 0xb800, Status Reg = 0x34408007

    L'occurrence répétée des erreurs de parité dans la mémoire vive dynamique indique que la mémoire vive dynamique ou le châssis est défectueux. Si vous retiriez récemment le châssis, ou si vous exécutiez n'importe quels changements de configuration matérielle, réinsérez les circuits DRAM pour résoudre le problème. Autrement, remplacez la mémoire vive dynamique dans un premier temps. Ceci doit empêcher les erreurs de parité. Si le routeur tombe en panne toujours, remplacez le châssis.

  • Erreur de parité dans SRAM :

    Si vous ne rechargiez pas manuellement le routeur après que le crash, la sortie de commande de show version ressemble à ceci :

    System  restarted by shared memory parity error at PC 0x60130F40 
    System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash

    Si un fichier crashinfo est disponible, ou si des logs de console ont été capturés, vous pouvez également voir n'importe quoi de pareil :

    *** Shared Memory Parity Error *** 
    shared memory control register= 0xffe3 
    error(s) reported for: CPU on byte(s): 0/1

    ou

    %PAR-1-FATAL: Shared memory parity error 
    shared memory status register= 0xFFEF 
    error(s) reported for: CPU on byte(s): 0/1 2/3

    ou

    *** Shared Memory Parity Error *** 
    shared memory control register= 0xffdf 
    error(s) reported for: NIM1 on byte(s): 0/1  2/3

Remarque:

  • Si l'erreur est signalée pour la CPU, remplacez SRAM.

  • Si l'erreur est signalée pour NIM (x), remplacent le module réseau dans l'emplacement (x). SRAM alloué pour rainer (x) peut également être affecté. Dans ce cas, remplacez SRAM.

    Les erreurs de parité répétées dans SRAM indiquent des puces défectueuses de SRAM, ou un module réseau défectueux qui a écrit la mauvaise parité dans SRAM. Si vous retiriez le châssis récemment, ou si vous apportiez n'importe quels changements de configuration matérielle, réinsérez les modules réseau et les puces de SRAM pour résoudre le problème. Autrement, vérifiez où l'erreur est signalée dans les logs de console (voyez pour sortir l'exemple ci-dessus).

Conduisez/processeur de commutateur (RSP), moteur de traitement réseau (NPE), et des Plateformes de processeur d'artère (RP)

Comme avec la gamme Cisco 4000, le problème peut être dû à la DRAM défectueuse ou au SRAM pour ces Plateformes. Le problème peut également être en raison d'une carte processeur défectueuse (RP, RSP ou NPE). Le Cisco 7000 et les 7500 peuvent également signaler des erreurs de parité générées par un processeur d'interface défectueux ou mal posé (xIP existant ou VIP).

Vérifiez le fichier crashinfo et les logs de console pour un de ces messages d'erreur :

Erreur de parité dans la mémoire vive dynamique ou le SRAM (MEMD)

Pour le RP, le RSP et le NPE, vous voyez habituellement n'importe quoi de pareil :

Error: primary data cache, fields: data, (SysAD) 
virtual addr 0x6058A000, physical addr(21:3) 0x18A000, vAddr(14:12) 0x2000 
virtual address corresponds to main:data, cache word 0

ou simplement :

Error: primary data cache, fields: data, SysAD
phy21:3 0x201880, va14:12 0x1000, addr 63E01880

Ceci indique un problème sur le RSP lui-même. Si le problème se pose seulement une fois, c'est le plus probablement une question passagère.

Erreur de parité tirée de SRAM

Pour le RSP, le message peut ressembler à ceci :

%RSP-3-ERROR: MD error 0000008000000200 
%RSP-3-ERROR: QA parity error (bytes 0:3) 02 
%RSP-3-ERROR: MEMD parity error condition 
%RSP-2-QAERROR: reused or zero link error, write at addr 0100 (QA) 
    log 22010000, data 00000000 00000000 
%RSP-3-RESTART: cbus complex

ou

%RSP-3-ERROR: CyBus error 01 
%RSP-3-ERROR: read data parity 
%RSP-3-ERROR: read parity error (bytes 0:7) 20 
%RSP-3-ERROR: physical address (bits 20:15) 000000

S'il n'y a aucune indication d'un autre processeur d'interface qui écrit la mauvaise parité dans SRAM (par exemple, des messages d'erreur VIP2-1-MSG), la raison le plus susceptible pour l'erreur de parité est SRAM elle-même. Dans ce cas, remplacez le RSP.

Si d'autres messages d'erreur indiquent qu'un processeur d'interface écrit la mauvaise parité, ce peut être un défectueux ou une carte mal mise en place.

Versatile Interface Processor

Si vous recevez %VIP2-1-MSG : emplacement (x) les messages dans les logs ou dans le fichier crashinfo, se rapportent à des pannes de VIP de dépannage.

Actions recommandées

À la première occurrence d'une erreur de parité, il n'est pas possible de distinguer un doux ou une erreur de parité matérielle. Par expérience, la plupart des occurrences de parité sont des erreurs de parité logicielle, et vous pouvez habituellement les écarter. Si vous avez récemment changé du matériel ou avez déplacé la case, essayez de réinsérer la partie affectée (mémoire vive dynamique, SRAM, NPE, RP, RSP, ou VIP). Les plusieurs occurrences fréquentes de parité signifient le matériel défectueux. Remplacez la partie affectée (mémoire vive dynamique, RSP, VIP, ou carte mère) avec l'aide des instructions mentionnées dans ce document.

Informations à collecter si vous ouvrez une demande de service TAC

Si vous avez besoin toujours d'assistance après que vous suiviez les étapes de dépannage ci-dessus et vouliez ouvrir une demande de service avec Cisco TAC, soyez sûr d'inclure ces informations :
  • Dépannage exécuté avant que vous ayez ouvert la demande de service.
  • affichez la sortie de commande de Soutien technique (dans le mode enable si possible).
  • captures de sortie ou de console de show log command si disponible.
  • fichier crashinfo (s'il est présent, et pas déjà inclus dans la sortie de commande de Soutien technique d'exposition. Si les plusieurs fichiers crashinfo existent, incluez tous).
  • Nombre de recharges dues aux erreurs de parité de mémoire de processeur que vous avez vues et quand ils se sont produits.
Veuillez attacher les données rassemblées à votre cas en format texte décompressé (.txt). Afin de relier les informations à votre demande de service, téléchargez-la par l'outil de demande de service TAC (clients enregistrés seulement). Si vous ne pouvez pas accéder à l'outil de demande de service, relier les informations pertinentes à votre demande de service, et les envoyer à attach@cisco.com avec votre nombre de demande de service dans le champ objet de votre message.

Remarque: Ne rechargez pas manuellement ou arrêt et redémarrage le routeur avant que vous collectiez les informations ci-dessus à moins que requis pour dépanner une erreur de parité de mémoire de processeur, parce que ceci peut causer les informations importantes d'être perdue qui sont nécessaires pour déterminer l'origine du problème.

Conversations connexes de la communauté de soutien de Cisco

Le site Cisco Support Community est un forum où vous pouvez poser des questions, répondre à des questions, faire part de suggestions et collaborer avec vos pairs.


Informations connexes


Document ID: 6345