Introduction
Ce document décrit comment dépanner la carte de matrice et de stockage (FSC) lorsque le déroutement SNMP « ThreshFabricEGQDiscards » est détecté.
Conditions préalables
Exigences
Cisco vous recommande de prendre connaissance des rubriques suivantes :
- StarOs
- Plate-forme ASR5500
Composants utilisés
Ce document n'est pas limité à des versions de matériel et de logiciel spécifiques.
The information in this document was created from the devices in a specific lab environment. All of the devices used in this document started with a cleared (default) configuration. Si votre réseau est en ligne, assurez-vous de bien comprendre l’incidence possible des commandes.
Problème
L'erreur « ThreshFabricEGQDiscards » est signalée lorsque le SEU (Single Event Upset) est présent sur le chipset de périphérie de fabric (FE) d'une carte FSC dans un châssis ASR5500. En raison de cette inversion de bit dans les tables FE, la puce FE commence à corrompre les paquets (cellules) dans le fabric, ce qui entraîne des abandons de la file d'attente de sortie, ce qui entraîne des défaillances de pulsation entre les cartes.
Vous pouvez voir un exemple de ce problème en utilisant la commande CLI (Command line interface) show snmp trap history verbose.
Sat Jan 02 03:59:30 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 9 device 2 threshold 50 measured value 2430 interval 30
Sat Jan 02 03:59:30 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 9 device 1 threshold 50 measured value 2096 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 4 threshold 50 measured value 481 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 4 device 2 threshold 50 measured value 3761 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 4 device 1 threshold 50 measured value 3660 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 2 threshold 50 measured value 173 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 1 threshold 50 measured value 133 interval 30
Sat Jan 02 03:59:42 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 8 device 2 threshold 50 measured value 2977 interval 30
Sat Jan 02 03:59:42 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 8 device 1 threshold 50 measured value 4310 interval 30
Sat Jan 02 03:59:44 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 3 device 1 threshold 50 measured value 4499 interval 30
Sat Jan 02 03:59:44 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 3 device 2 threshold 50 measured value 4091 interval 30
Sat Jan 02 03:59:45 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 10 device 1 threshold 50 measured value 2796 interval 30
Sat Jan 02 03:59:45 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 10 device 2 threshold 50 measured value 5418 interval 30
Sat Jan 02 03:59:47 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 1 device 2 threshold 50 measured value 4747 interval 30
Sat Jan 02 03:59:47 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 1 device 1 threshold 50 measured value 5243 interval 30
Sat Jan 02 03:59:49 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 7 device 2 threshold 50 measured value 4644 interval 30
Sat Jan 02 03:59:49 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 7 device 1 threshold 50 measured value 5017 interval 30
Cette ligne est visible sous plusieurs cartes et consoles processeur :
Remarque : la commande debug console card est la commande hidden/test. Cette commande est également collectée à chaque fois pour toutes les cartes sur ASR5500 lorsque la commande show support details est exécutée sur le noeud StarOs.
******** debug console card 1 cpu 0 tail 10000 only *******
Saturday January 02 05:45:38 EST 2016
[...]
2016-Jan-02+03:59:47.479 card 1-cpu0: afio [1/0/2701] [2862193.674] afio/afio_petrab_egress.c:121: #1: petrab=1=1/1, PetraB EGQ Egress drop threshold exceeded, drop count=5243, interval=30 secs, threshold=50
Dépannage
Vérifiez si les pertes de sortie s'incrémentent.
Remarque : Si des erreurs de fabric s'incrémentent et que vous exécutez le noeud StarOs sur la version 19.0 ou ultérieure, passez à la section Solution de cet article.
Remarque : Si les erreurs de fabric augmentent et que vous exécutez la version du noeud StarOs en dessous de la version 19.19.0, veuillez augmenter la demande de service vers le centre d'assistance technique.
Étape 1. Passez en mode test, voici la documentation pour l'activer sur le noeud StarOs.
cli test-commands [encrypted] password password
Étape 2 : vérification de l’état du fabric
show fabric health | grep -i -E "^Petra-B|EGQ"
Exemple de résultat lorsque le problème n'est pas présent :
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
Petra-B 2=1/2
Petra-B 3=2/1
Petra-B 4=2/2
Petra-B 5=3/1
Petra-B 6=3/2
[...]
Exemple de résultat indiquant une augmentation des paquets EGQ rejetés:
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
EGQ.RqpDiscardPacketCounter 1143278
EGQ.EhpDiscardPacketCounter 1143278
EGQ.PqpDiscardUnicastPacketCounter 1143278
Petra-B 2=1/2
EGQ.RqpDiscardPacketCounter 1068491
EGQ.EhpDiscardPacketCounter 1068491
EGQ.PqpDiscardUnicastPacketCounter 1068491
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
EGQ.RqpDiscardPacketCounter 1346022 <<<
EGQ.EhpDiscardPacketCounter 1346022 <<<
EGQ.PqpDiscardUnicastPacketCounter 1346022 <<<
Petra-B 2=1/2
EGQ.RqpDiscardPacketCounter 1271360 <<<
EGQ.EhpDiscardPacketCounter 1271360 <<<
EGQ.PqpDiscardUnicastPacketCounter 1271360 <<<
Solution
Mécanisme De Récupération Automatique
Type de changement de comportement :
Nouvelle commande CLI pour activer la procédure de récupération/réinitialisation automatique FSC lors de la détection de rebuts de sortie de fabric excessifs
Version introduite :
19.0
Ancien comportement :
Processus de récupération manuelle pour réinitialiser les FSC.
Nouveau comportement :
Nouvelles commandes de configuration CLI, consultez la documentation :
fabric fsc auto-recovery enable max-attempts <X> pour activer cette fonctionnalité.
max-attempts est le nombre de fois qu'il réinitialise chaque FSC. Par défaut, max-attempts est illimité.
fabric fsc auto-recovery disable pour désactiver cette fonctionnalité.
show afctrl fsc-auto-recovery affiche des détails sur la récupération automatique FSC, y compris les périphériques qui doivent encore être réinitialisés, le nombre de réinitialisations, le nombre maximal de tentatives, l'état du seuil d'abandon en sortie et l'historique de la récupération automatique FSC.
Mise en garde : Impact sur le client : Les périphériques FE FSC sont réinitialisés et tous les paquets en cours sont perdus.
Remarque : Toutes les valeurs, à l'exception de l'historique, sont répliquées lorsque la MIO bascule.