Introduction
Ce document décrit comment dépanner la carte de matrice et de carte mémoire (FSC) quand déroutement SNMP de « ThreshFabricEGQDiscards ».
Conditions préalables
Conditions requises
Cisco vous recommande de prendre connaissance des rubriques suivantes :
- StarOs
- Plate-forme ASR5500
Ce document n'est pas limité à des versions de matériel et de logiciel spécifiques.
Les informations contenues dans ce document ont été créées à partir des périphériques d'un environnement de laboratoire spécifique. Tous les périphériques utilisés dans ce document ont démarré avec une configuration effacée (par défaut). Si votre réseau est vivant, assurez-vous que vous comprenez l'impact potentiel de n'importe quelle commande.
Problème
L'erreur « ThreshFabricEGQDiscards » est notée quand le renversement simple d'événement (SEU) sur le jeu de puces de la périphérie de matrice (technicien) sur une carte FSC dans un châssis ASR5500. En raison de cette secousse de bit dans des tables technicien, les débuts de puce technicien pour corrompre des paquets (cellules) dans la matrice entraînant la file d'attente de sortie jette qui mène aux pannes de type Heartbeat entre les cartes.
Vous pouvez voir l'exemple de ce problème utilisant l'historique de show snmp trap de commande de l'interface de ligne de commande (CLI) bavard.
Sat Jan 02 03:59:30 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 9 device 2 threshold 50 measured value 2430 interval 30
Sat Jan 02 03:59:30 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 9 device 1 threshold 50 measured value 2096 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 4 threshold 50 measured value 481 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 4 device 2 threshold 50 measured value 3761 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 4 device 1 threshold 50 measured value 3660 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 2 threshold 50 measured value 173 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 1 threshold 50 measured value 133 interval 30
Sat Jan 02 03:59:42 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 8 device 2 threshold 50 measured value 2977 interval 30
Sat Jan 02 03:59:42 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 8 device 1 threshold 50 measured value 4310 interval 30
Sat Jan 02 03:59:44 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 3 device 1 threshold 50 measured value 4499 interval 30
Sat Jan 02 03:59:44 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 3 device 2 threshold 50 measured value 4091 interval 30
Sat Jan 02 03:59:45 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 10 device 1 threshold 50 measured value 2796 interval 30
Sat Jan 02 03:59:45 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 10 device 2 threshold 50 measured value 5418 interval 30
Sat Jan 02 03:59:47 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 1 device 2 threshold 50 measured value 4747 interval 30
Sat Jan 02 03:59:47 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 1 device 1 threshold 50 measured value 5243 interval 30
Sat Jan 02 03:59:49 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 7 device 2 threshold 50 measured value 4644 interval 30
Sat Jan 02 03:59:49 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 7 device 1 threshold 50 measured value 5017 interval 30
Cette ligne est vue sous des consoles CPU de cartes de multiple :
Remarque: la commande mettent au point la carte de console est masquée/commande de test. Cette commande est également collectée chaque fois pour toutes les cartes sur ASR5500 quand la commande de détails de support d'exposition est exécutée sur le noeud de StarOs.
******** debug console card 1 cpu 0 tail 10000 only *******
Saturday January 02 05:45:38 EST 2016
[...]
2016-Jan-02+03:59:47.479 card 1-cpu0: afio [1/0/2701] [2862193.674] afio/afio_petrab_egress.c:121: #1: petrab=1=1/1, PetraB EGQ Egress drop threshold exceeded, drop count=5243, interval=30 secs, threshold=50
Dépannez
Vérifiez si les baisses de sortie incrémentent.
Remarque: Si les erreurs de matrice incrémentent et vous exécutez le noeud de StarOs sur la version 19.0 ou plus élevé poursuivez alors à la partie Solution en cet article.
Remarque: Si les erreurs de matrice incrémentent et vous exécutez la version release.19.0 de soufflet de version de noeud de StarOs soulevez s'il vous plaît le service Reuqest vers le TAC.
Étape 1. Écrivez le mode test, voici documentation comment l'activer sur le noeud de StarOs.
cli test-commands [encrypted] password password
Étape 2. Santés de matrice de contrôle.
show fabric health | grep -i -E "^Petra-B|EGQ"
Exemple de sortie quand le problème n'est pas présent :
[local]#show fabric health | grep -i -E "^Petra-B|EGQ" Petra-B 1=1/1
Petra-B 2=1/2
Petra-B 3=2/1
Petra-B 4=2/2
Petra-B 5=3/1
Petra-B 6=3/2
[...]
Exemple de sortie où vous voyez increese en paquets d'écart EGQ :
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
EGQ.RqpDiscardPacketCounter 1143278
EGQ.EhpDiscardPacketCounter 1143278
EGQ.PqpDiscardUnicastPacketCounter 1143278
Petra-B 2=1/2
EGQ.RqpDiscardPacketCounter 1068491
EGQ.EhpDiscardPacketCounter 1068491
EGQ.PqpDiscardUnicastPacketCounter 1068491
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
EGQ.RqpDiscardPacketCounter 1346022 <<<
EGQ.EhpDiscardPacketCounter 1346022 <<<
EGQ.PqpDiscardUnicastPacketCounter 1346022 <<<
Petra-B 2=1/2
EGQ.RqpDiscardPacketCounter 1271360 <<<
EGQ.EhpDiscardPacketCounter 1271360 <<<
EGQ.PqpDiscardUnicastPacketCounter 1271360 <<<
Solution
Mécanisme automatique de reprise
Type de modification de comportement :
La nouvelle commande CLI d'activer la reprise automatique FSC/procédure remise à l'état initial en détectant le de sortie excessif de matrice jette
Release introduite :
19.0
Vieux comportement :
Processus de reprise manuel pour remettre à l'état initial des FSC.
Nouveau comportement :
Les nouvelles commandes de configuration CLI, vérifient s'il vous plaît la documentation :
<X> de maximum-tentatives d'enable d'automatique-reprise de la matrice FSC pour activer cette caractéristique.
les maximum-tentatives est le nombre de fois où il remet à l'état initial chaque des FSC. Par défaut, les maximum-tentatives est illimitée.
débronchement d'automatique-reprise de la matrice FSC pour désactiver cette configuration.
affichez les détails d'affichages de FSC-automatique-reprise d'afctrl au sujet de la reprise automatique FSC, y compris des périphériques à remettre à l'état initial encore, compte de remise, tentatives maximum, état de seuil de baisse de sortie, et historique automatique de reprise FSC.
Attention : Incidence sur le client : Des périphériques technicien FSC sont remis à l'état initial et tous les paquets en vol sont perdus.
Remarque: Toutes les valeurs excepté l'historique sont répliquées quand le MILLIONS DE bascule.