Einleitung
In diesem Dokument wird die Fehlerbehebung bei Fabric- und Speicherkarten (FSC)-Karten bei SNMP-Traps "ThreshFabricEGQDiscards" beschrieben.
Voraussetzungen
Anforderungen
Cisco empfiehlt, dass Sie über Kenntnisse in folgenden Bereichen verfügen:
Verwendete Komponenten
Dieses Dokument ist nicht auf bestimmte Software- und Hardware-Versionen beschränkt.
Die Informationen in diesem Dokument beziehen sich auf Geräte in einer speziell eingerichteten Testumgebung. Alle Geräte, die in diesem Dokument benutzt wurden, begannen mit einer gelöschten (Nichterfüllungs) Konfiguration. Wenn Ihr Netzwerk in Betrieb ist, stellen Sie sicher, dass Sie die möglichen Auswirkungen aller Befehle kennen.
Problem
Der Fehler "ThreshFabricEGQDiscards" tritt auf, wenn ein Single Event Upset (SEU) auf dem Fabric Edge (FE)-Chipsatz einer FSC-Karte in einem ASR5500-Chassis erkannt wird. Aufgrund dieses Bit-Flips in FE-Tabellen beginnt der FE-Chip, Pakete (Zellen) im Fabric zu beschädigen, was zu Ausgangs-Warteschlangenverwürfen führt, die zu Heartbeat-Fehlern zwischen den Karten führen.
Ein Beispiel für dieses Problem wird mit dem CLI-Befehl (Command Line Interface) show snmp trap history verbose angezeigt.
Sat Jan 02 03:59:30 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 9 device 2 threshold 50 measured value 2430 interval 30
Sat Jan 02 03:59:30 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 9 device 1 threshold 50 measured value 2096 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 4 threshold 50 measured value 481 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 4 device 2 threshold 50 measured value 3761 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 4 device 1 threshold 50 measured value 3660 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 2 threshold 50 measured value 173 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 1 threshold 50 measured value 133 interval 30
Sat Jan 02 03:59:42 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 8 device 2 threshold 50 measured value 2977 interval 30
Sat Jan 02 03:59:42 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 8 device 1 threshold 50 measured value 4310 interval 30
Sat Jan 02 03:59:44 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 3 device 1 threshold 50 measured value 4499 interval 30
Sat Jan 02 03:59:44 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 3 device 2 threshold 50 measured value 4091 interval 30
Sat Jan 02 03:59:45 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 10 device 1 threshold 50 measured value 2796 interval 30
Sat Jan 02 03:59:45 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 10 device 2 threshold 50 measured value 5418 interval 30
Sat Jan 02 03:59:47 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 1 device 2 threshold 50 measured value 4747 interval 30
Sat Jan 02 03:59:47 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 1 device 1 threshold 50 measured value 5243 interval 30
Sat Jan 02 03:59:49 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 7 device 2 threshold 50 measured value 4644 interval 30
Sat Jan 02 03:59:49 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 7 device 1 threshold 50 measured value 5017 interval 30
Diese Linie ist unter mehreren Karten CPU-Konsolen zu sehen:
Anmerkung: debug console card is hidden/test command. Dieser Befehl wird auch jedes Mal erfasst, wenn auf allen Karten des ASR5500 der Befehl show support details auf dem StarOs-Knoten ausgeführt wird.
******** debug console card 1 cpu 0 tail 10000 only *******
Saturday January 02 05:45:38 EST 2016
[...]
2016-Jan-02+03:59:47.479 card 1-cpu0: afio [1/0/2701] [2862193.674] afio/afio_petrab_egress.c:121: #1: petrab=1=1/1, PetraB EGQ Egress drop threshold exceeded, drop count=5243, interval=30 secs, threshold=50
Fehlerbehebung
Überprüfen Sie, ob der Ausgangsimpuls steigt.
Anmerkung: Wenn Fabric-Fehler zunehmen und Sie StarOs Node auf Version 19.0 oder höher ausführen, fahren Sie mit dem Abschnitt Lösung in diesem Artikel fort.
Anmerkung: Wenn Fabric-Fehler zunehmen und Sie eine StarOs-Knotenversion unter Version 19.0 ausführen, stellen Sie bitte eine Serviceanfrage beim TAC.
Schritt 1: Wechseln Sie in den Testmodus. Hier finden Sie die Dokumentation zur Aktivierung auf dem StarOs-Knoten.
cli test-commands [encrypted] password password
Schritt 2: Überprüfen Sie den Zustand der Fabric.
show fabric health | grep -i -E "^Petra-B|EGQ"
Beispiel für Ausgabe bei fehlendem Problem:
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
Petra-B 2=1/2
Petra-B 3=2/1
Petra-B 4=2/2
Petra-B 5=3/1
Petra-B 6=3/2
[...]
Beispiel einer Ausgabe, bei der Sie eine Erhöhung der EGQ-Verwerfungspakete sehen:
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
EGQ.RqpDiscardPacketCounter 1143278
EGQ.EhpDiscardPacketCounter 1143278
EGQ.PqpDiscardUnicastPacketCounter 1143278
Petra-B 2=1/2
EGQ.RqpDiscardPacketCounter 1068491
EGQ.EhpDiscardPacketCounter 1068491
EGQ.PqpDiscardUnicastPacketCounter 1068491
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
EGQ.RqpDiscardPacketCounter 1346022 <<<
EGQ.EhpDiscardPacketCounter 1346022 <<<
EGQ.PqpDiscardUnicastPacketCounter 1346022 <<<
Petra-B 2=1/2
EGQ.RqpDiscardPacketCounter 1271360 <<<
EGQ.EhpDiscardPacketCounter 1271360 <<<
EGQ.PqpDiscardUnicastPacketCounter 1271360 <<<
Lösung
Automatischer Wiederherstellungsmechanismus
Art der Verhaltensänderung:
Neuer CLI-Befehl zur Aktivierung der automatischen FSC-Wiederherstellungs-/Rücksetzprozedur bei Erkennung übermäßiger Fabric-Ausgangsverwerfungen
Einführung:
19.0
Altes Verhalten:
Manueller Wiederherstellungsvorgang zum Zurücksetzen von FSCs.
Neues Verhalten:
Neue CLI-Konfigurationsbefehle; weitere Informationen finden Sie in der Dokumentation:
Fabric fsc auto-recovery enable max-attempts <X> to enable this feature.
"max-attempts" ist die Anzahl der Male, die die FSCs zurückgesetzt werden. Standardmäßig ist "max-attempts" unbegrenzt.
Fabric fsc auto-recovery disable, um diese Funktion zu deaktivieren.
show afctrl fsc-auto-recovery zeigt Details über die automatische FSC-Wiederherstellung an, einschließlich Geräte, die noch zurückgesetzt werden müssen, Anzahl der Rücksetzversuche, Anzahl der Ausgangs-Drop-Schwellenwertstatus und Verlauf der automatischen FSC-Wiederherstellung.
Vorsicht: Auswirkungen auf den Kunden: FSC FE-Geräte werden zurückgesetzt, und alle übertragenen Pakete gehen verloren.
Anmerkung: Alle Werte mit Ausnahme des Verlaufs werden repliziert, wenn der MIO-Failover ausgeführt wird.