Introduction
Ce document décrit les principaux défauts logiciels qui peuvent entraîner l'injection de trames de données corrompues dans un fabric UCS (Unified Computing System), comme indiqué par les compteurs d'erreurs CRC (Cyclic Redundancy Check) ou FCS (Frame Check Sequence) de l'interface.
Note: Ce document ne décrit pas comment isoler le point d'injection CRC.
Informations générales
Dans un environnement UCS, les erreurs CRC peuvent avoir un impact important. L'isolement et l'atténuation de la cause de ces erreurs doivent être traités en priorité.
L'impact dépend du point auquel le problème se produit, qui peut s'étendre à plusieurs châssis et affecter la connectivité Ethernet et de stockage.
Bien que la défaillance des composants physiques (en particulier les câbles et les SFP (Small Form-Factor Pluggable)) soit la cause la plus fréquente, il existe des défauts logiciels connus qui peuvent également entraîner des erreurs CRC.
Ces défauts provoquent une faible intensité du signal entre différents composants, ce qui entraîne des trames endommagées.
Un concept clé auquel vous pouvez faire référence est Eye Height, qui est une mesure de l'intégrité du signal entre les composants de la couche physique. Si le niveau du signal descend en dessous d’un niveau particulier (différent d’un composant à l’autre), les trames envoyées ou reçues peuvent être endommagées.
Cisco vous recommande d'avoir examiné les problèmes de performances courants FlexPod, en particulier les pertes de trame et de paquets afin d'identifier la source des erreurs CRC non enregistrées dans le fabric UCS et/ou les commutateurs en amont.
Bien que le document soit destiné aux déploiements FlexPod, la section mentionnée s'applique aux environnements UCS autres que FlexPod.
Indications de défaut lié au CRC
Si votre environnement UCS comporte un câblage Twinax, il est plus probable qu'il soit affecté par un ou plusieurs de ces défauts, car la majorité des défauts concernent le câblage Twinax.
Les environnements ne disposant que d'un câblage optique peuvent encore rencontrer des problèmes, car des erreurs CRC peuvent être injectées entre l'adaptateur et le module d'E/S UCS (IOM). Cependant, ceci est limité à des serveurs spécifiques et n'affecte pas plusieurs serveurs ou châssis en cas de problème de liaison ascendante ou de port serveur.
Si la désactivation/activation d'un port dans UCS Manager semble arrêter les erreurs d'interface sans autre action, comme le remplacement de câbles ou la réinstallation, des vérifications supplémentaires doivent être effectuées pour vérifier si un défaut logiciel est la cause principale du problème.
Si des erreurs CRC ont été détectées après un redémarrage ou un basculement soudain du port, ces défauts peuvent être une cause possible.
Commandes Pour Vérifier La Hauteur Des Yeux
Une indication clé de défauts logiciels liés au CRC est une faible hauteur oculaire pour un ou plusieurs ports.
Les commandes courantes utilisées pour vérifier ceci sont les suivantes :
Commutateurs basés sur Nexus 5500 :
show hardware internal carmel eye
Interconnexions de fabric UCS 6200 :
connect nxos a
show hardware internal carmel eye
exit
connect nxos b
show hardware internal carmel eye
exit
Exemple de résultat montrant une bonne hauteur oculaire (200 mv) :
UCSB-5-A(nxos)# show hardware internal carmel eye
+-------+------------+-------------+------------+----------------------------+--+--+--+--+--+--+--+--+--+--+
| Port | Eye Height | Eye Width | Raw values | Time measured |St|20|21|22|23|24|25|26|2E|2F|
+-------+------------+-------------+------------+----------------------------+--+--+--+--+--+--+--+--+--+--+
Eth 1/1 | 200 mv | 796 mUI | 40/ 33 | 08/31/2016 16:48:52.345248 |a9|ee|82|00|00|6e|82|00|88|00|
fi0 | 200 mv | 843 mUI | 40/ 36 | 08/31/2016 16:48:52.350360 |00|00|00|00|00|00|00|00|00|00|
fi1 | 200 mv | 859 mUI | 40/ 37 | 08/31/2016 16:48:52.355470 |00|00|00|00|00|00|00|00|00|00|
Sur ces plates-formes, si la valeur est :
- En dessous de 50 mV, il a été détecté que des erreurs CRC étaient déclenchées
- 50 à 100 mV, il peut provoquer des erreurs CRC et il est conseillé d'atténuer ces erreurs
- > 100 mV, il ne doit pas provoquer d'erreurs CRC
Les commandes ci-dessus ne s'appliquent pas aux interconnexions de fabric 6332, 6454 ou 6324
Modules IOM UCS 2200 :
connect local-mgmt a or connect local-mgmt b
connect iom x
show platform software woodside sts (Note: The HI number/s for the servers that you need to check)
dbgexec woo
kr_geteye HIxx
Ctrl-C to exit dbgexec mode
Exemple de sortie indiquant une bonne hauteur oculaire (125 mV) :
woo> kr_geteye HI31
[serdes] reg: 64/40h = 42ch
check_kr_status: HI31: up (kr_retries=0)
sent SPICO interrupt(20, 0, 49)
Vertical eye result 0x14
sent SPICO interrupt(20, 0, 49)
Horizontal eye result 0x28
HI31: 125.0 mV, 0.6250 UI (NORM)
Modules IOM UCS 2300 :
connect local-mgmt a or connect local-mgmt b
connect iom x
show platform software tiburon sts (Note the HI number/s for the servers you need to check)
dbgexec tib
kr_geteye 0 HIxx
Ctrl-C to exit dbgexec mode
Exemple de résultat indiquant une bonne hauteur oculaire (156 mv) :
tib> kr_geteye 0 HI31
Start eye measurement HI31...
bottom: -73.5 (mV), top: 82.7 (mV), height: 156.2 (mV)
left: -0.34 (UI), right: 0.33 (UI), width: 0.69 (UI)
total time = 0.119456 sec
Sur ces plates-formes, si la valeur de hauteur est :
- En dessous de 90 mV, il a été détecté qu'il déclenche des erreurs CRC
- > 90 mV, il ne doit pas déclencher d'erreurs CRC
Défauts
Interconnexion de fabric
- CSCuo76425 Observation d'une erreur CRC sur un câble en cuivre
Ce défaut est visible sur les ports Fabric Interconnect, tels que les ports Uplink et Server.
Il est corrigé dans UCS Infrastructure 2.2(3a), reportez-vous à l'outil de recherche de bogues pour d'autres versions fixes.
- Un bogue quasi identique qui affecte plus tard le microprogramme UCS :
CSCuw36398 Observation des erreurs CRC sur un câble en cuivre
Ce défaut est visible sur les ports Fabric Interconnect, tels que les ports Uplink et Server
Il est fixé dans l'infrastructure UCS 2.2(7b). Reportez-vous à l'outil de recherche de bogues pour d'autres versions fixes.
IOM Et Adaptateur
- CSCuz78417 Sert la hauteur des yeux entre l'IOM et la carte VIC inférieure à 90 mV
Ce défaut est observé entre les interfaces HIF (IOM Host Interfaces) et les interfaces de fond de panier d'adaptateurs.
Il a été constaté depuis que cela peut être dû à des problèmes de fond de panier de châssis. Si vous observez ce problème, ouvrez une demande de service avec le TAC Cisco.
- CSCva47085 VIC1340+2304 Problème de formation de liaison native 40g de l'IOM entraînant une perte de connectivité
Ce défaut est observé entre le HIF de l'IOM et les adaptateurs, qui affecte les serveurs individuels.
En cours d'enquête.
Série C
- CSCux31002 VIC 1227 affiche les CRC lorsque vous utilisez un câble twinax actif.
Correction dans le microprogramme autonome de la série C 2.0(9c). Reportez-vous à l'outil de recherche de bogues pour d'autres versions fixes.
La condition de déclenchement de ce bogue est l'inverse de la croyance répandue selon laquelle Active Twinax est moins susceptible de provoquer des problèmes CRC en raison de sa transmission de puissance active.
Nexus 5500
- CSCuj86736 Besoin d'optimiser le réglage DFE dans les commutateurs de la gamme 55xxUP - Erreurs CRC RX
Bien qu'il ne s'agisse pas d'un bogue UCS, il est encore courant dans les configurations UCS en raison de la prévalence du Nexus 55xx en amont. Référez-vous à l'outil de recherche de bogues pour plus de détails sur les versions fixes.
Solutions/atténuation
Reportez-vous à la note de publication pour chaque bogue pour des détails spécifiques, mais si vous avez trouvé des preuves de faible hauteur oculaire, alors la fermeture/non fermeture du port est raisonnable.
Dans le cas d'un défaut de hauteur oculaire de l'IOM/de l'adaptateur, une réinitialisation du DCE dans l'interface peut être effectuée. Accédez à Serveur > Adaptateur > Interface DCE > Réinitialiser la connectivité selon les besoins.
Les résultats doivent ensuite être vérifiés pour voir si la hauteur des yeux a augmenté pour atteindre de bonnes valeurs et si les compteurs CRC n'ont plus augmenté.
Plusieurs volets (généralement jusqu'à 5) peuvent être nécessaires pour augmenter la hauteur des yeux de manière suffisante.
Si la hauteur de l'oeil ne se rétablit pas après plusieurs volets de liaison, il peut y avoir une défaillance matérielle du composant.
Lorsque vous faites basculer des ports, sachez que cela peut déclencher une détection superficielle par UCS Manager.
Une découverte superficielle dans des circonstances normales n'est pas un plan de données qui affecte, cependant, il existe des défauts connus qui affectent les lames B200-M4 (voir CSCut61527 pour le défaut le plus courant). Une découverte superficielle peut se transformer en découverte profonde, ce qui peut déclencher le redémarrage du système d'exploitation hôte.
Cisco vous recommande de consulter les Notes de version de votre version d'UCS Manager pour connaître d'autres défauts applicables.
Outre le battement manuel des ports comme étape de récupération réactive, la gestion des erreurs de port basée sur les stratégies UCS dans UCS Manager 2.2(4) et versions ultérieures peut être utilisée pour désactiver les ports NIF lorsque des erreurs CRC sont détectées. Bien que de telles actions puissent rapidement limiter l'impact des erreurs CRC, elles peuvent avoir le potentiel de perturbation du flux de trafic, par conséquent n'est pas activé par défaut et doit être pris en compte si vous l'activez.
UCS Manager génère des erreurs CRC et ces erreurs peuvent être surveillées via l'API XML ou le protocole SNMP (Simple Network Management Protocol).