Ce document décrit comment résoudre les erreurs de fabric signalées dans la plate-forme Cisco Nexus 7000. Un dépannage des CRC (Cyclic Redundancy Checksum) de fabric implique la collecte de données, l'analyse des données et un processus d'élimination afin d'isoler le composant problématique. Ce document couvre les types les plus courants d'erreurs CRC de fabric.
Voici un diagramme de haut niveau d'un module de fabric Nexus 7018 avec cartes de ligne M1 :
L'image précédente donne une vue d'ensemble des composants impliqués lorsqu'un paquet traverse un module de fabric. Les étapes 1 (S1), 2 (S2) et 3 (S3) sont les trois étapes du fabric Nexus 7000, Octopus est le moteur de file d'attente, Santa Cruz (SC) est l'ASIC du fabric et les instances 1 et 2 sont les deux instances SC sur le XBAR. Ce document ne prend en compte qu'une seule valeur XBAR. N'oubliez pas que la plupart des commutateurs de la gamme Nexus 7000 ont trois ou plusieurs XBAR installés.
En supposant qu'un flux unidirectionnel du Module 1 (M1) au Module 2 (M2) est présent, l'Octopus-1 d'entrée sur M1 effectue des contrôles d'erreur sur les paquets qu'il reçoit du sud et l'Octopus-1 de sortie sur M2 du nord. Si le CRC est détecté dans S3, un problème peut également se produire dans S1 ou S2, car aucune vérification CRC n'est effectuée à ces étapes. Ainsi, les périphériques impliqués dans le chemin sont la pieuvre d'entrée, le châssis, la structure à barres croisées et la pieuvre de sortie.
Dans l'architecture M1/Fab1, les CRC sont détectés uniquement sur la carte de ligne de sortie (S3).
Voici un exemple de message d'erreur :
%OC_USD-SLOT1-2-RF_CRC: OC1 received packets with
CRC error from MOD 15 through XBAR slot 1/inst 1
Ceci est signalé par M1, qui indique qu'il a reçu des paquets avec le mauvais CRC du Module 15 (M15) via le logement XBAR 1/instance 1.
Cette section décrit quatre des types les plus courants d'erreurs CRC de fabric.
%OC_USD-SLOT1-2-RF_CRC: OC1 received packets withCela signifie que le module du logement 1 a détecté une erreur CRC de M15 à XBAR logement 1/instance 1. Le module d'origine des erreurs CRC est appelé module d'entrée (M15 dans ce cas) et le module qui a signalé le problème est le module de sortie (M1). XBAR 1 est la barre transversale dans laquelle le paquet a été reçu. Il y a deux instances par XBAR. Dans ce cas, M1 a détecté des erreurs CRC de l'instance 1 M15 à XBAR slot 1.
CRC error from MOD 15 through XBAR slot 1/inst 1
%OC_USD-SLOT4-2-RF_CRC: OC2 received packets withDans ce message, le module 4 (M4) a signalé l'erreur CRC de M1. Notez que les informations XBAR sont manquantes. Le système n'est pas en mesure de vérifier la valeur XBAR traversée par le paquet. Il y a de nombreuses raisons, mais les plus courantes sont : Les informations de l'en-tête de fabric du paquet peuvent être endommagées, de sorte que le module source ne peut pas être déterminé ; le XBAR traversé est supprimé du système depuis l'incrémentation de l'erreur. Ainsi, il n'a pas été signalé dans le message syslog horaire.
CRC error from MOD 1
%OC_USD-2-RF_CRC: OC1 received packets withDans ce cas, un périphérique a détecté un CRC du module 16 (M16) à XBAR 1. Il n'y a cependant pas de module récepteur. Lorsque le superviseur (SUP) détecte un CRC provenant du module de fabric, les informations relatives au logement ne sont pas consignées. Lorsque vous ne voyez pas d'informations sur les logements, le SUP a détecté le problème. Cela ne signifie pas que le SUP est mauvais. Tout comme lorsque le module signale le problème, plusieurs composants peuvent avoir causé le problème : M16, le châssis (moins probable), XBAR 1 ou le SUP.
CRC error from MOD 16 through XBAR slot 1/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC2 received packets withLe module source est glané à partir de l'Octopus d'entrée qui a fourni le mauvais paquet. Le pilote qui déclenche une interruption afin de consigner ce message d'erreur ne connaît pas toujours l'Octopus d'entrée d'où provient le mauvais paquet. Ceci est dû au fait que certains des bits utilisés pour représenter l'Octopus d'entrée ne sont pas utilisés. Si le système détermine que plusieurs modules ont ces bits inutilisés activés, le système doit supposer que l'un d'eux peut être la source, ce qui entraîne l'inclusion de tous ces modules dans le message d'erreur. Le système a constaté que le module 13 (M13) ne peut pas avoir ce conflit en raison de l'absence d'utilisation de ces bits ; ainsi, il n'est pas enregistré comme source potentielle.
CRC error from MOD 11 or 12 or 14 or 15 or 16 or 17 or 18
Les nouvelles cartes de ligne (M2) et le module de fabric 2 (FAB2) détectent les CRC dans S1, S2 ou S3. Lorsque vous examinez en détail et que vous trouvez des modèles dans les messages d'échec et de journal, cela permet d'isoler le composant défectueux.
Voici quelques questions à poser :
Les réponses à ces questions vous permettent d'aborder la procédure de dépannage sous un angle plus susceptible d'aboutir à une résolution plus rapide.
Cette section établit un cadre général utilisé pour résoudre ces problèmes.
Cette section fournit des exemples de dépannage de problèmes similaires.
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
Pendant quelques heures, les erreurs CRC sont visibles sur M1 et le module 3 (M3) provenant uniquement du module 7 (M7).
Il y a une XBAR mauvaise ou mal positionnée qui corrompt les paquets dirigés vers M7, ou M7 est mal ou mal positionné.
Si trois XBAR sont installés, cela vous donne une redondance N+1. Par conséquent, vous pouvez les arrêter un par un (jamais éteindre plus d'un à un à un) avec un impact minime afin de voir si le problème est résolu. Entrez ces commandes afin de terminer ce processus :
N7K(config)# poweroff xbar 1
<monitor>
N7K(config)# no poweroff xbar 1
N7K(config)# poweroff xbar 2
<monitor>
N7K(config)# no poweroff xbar 2
N7K(config)# poweroff xbar 3
N7K(config)# no poweroff xbar 3
Dans cette étude de cas particulière, le problème n'a pas été résolu lorsque les XBAR ont été arrêtés.
Comme deux modules signalent des erreurs CRC, il est peu probable que ces deux modules (M1 et M3) en soient la cause. L'étape suivante consiste à réinstaller M7 (module d'entrée), car il s'agit probablement du composant défectueux. Les cartes de ligne installées sur un support principal peuvent causer ce problème et il est recommandé de réinstaller le module avant de le remplacer.
Dans cette étude de cas, les erreurs CRC ont continué de s'incrémenter sur le module de matrice après une réinstallation de M7. Contactez le centre d'assistance technique Cisco (TAC) à ce stade (ou avant ce point) afin de remplacer M7, car une réinstallation ne résout pas le problème.
Dans cette étude de cas, le remplacement de M7 a arrêté les messages d'erreur CRC du fabric et résolu la perte de paquets.
%OC_USD-SLOT11-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT12-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT13-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT15-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT2-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT4-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT5-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT7-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT8-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
Plusieurs modules signalent des erreurs CRC du module 12 (M12) qui passent par XBAR 3.
XBAR 3 est défectueux ou mal installé, ou M12 est mal installé ou défectueux.
Dans ce cas, XBAR 3 est arrêté avec la procédure décrite précédemment (dans la première étude de cas) et surveillé pour détecter d'autres erreurs. Il s'est avéré que les erreurs ont cessé lorsque XBAR 3 a été arrêté. À ce stade, XBAR 3 est remis en place, et il faut veiller à ce qu'aucune broche ne soit pliée sur le fond de panier central et à ce que le module soit correctement inséré. Une fois XBAR 3 réactivé, le problème ne se reproduit jamais. Ce problème est attribué à un module XBAR mal installé.
%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
MOD 1 or 2 or 7 or 13 or 17 through XBAR
slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC2 received packets with CRC error from
MOD 1 or 2 or 3 or 7 or 15 or 17 through XBAR
slot 2/inst 1 and slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
MOD 1 or 2 or 5 or 7 or 16 or 17 through XBAR
slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1
Le module 6 (M6) signale les paquets avec des erreurs CRC reçues de plusieurs cartes de ligne et de plusieurs XBAR.
M6 est mal installé ou mal installé.
M6 est la cause la plus probable de ce problème, car il s'agit des modules communs à tous les messages d'erreur. Parmi tous les modules répertoriés dans les messages d'erreur, celui qui apparaît le plus systématiquement est M6. Par conséquent, essayez de réinstaller M6 afin de voir si le problème est résolu avant de le remplacer.
Dans ce cas, M6 est réinstallé, mais les erreurs persistent. Vous devez donc ouvrir un dossier TAC Cisco pour que M6 soit remplacé. Après le remplacement de M6, les erreurs ne sont pas signalées.
Voici une liste des commandes utilisées pour dépanner/déboguer :
Révision | Date de publication | Commentaires |
---|---|---|
1.0 |
11-Sep-2013 |
Première publication |