はじめに
このドキュメントでは、「ThreshFabricEGQDiscards」SNMPトラップでファブリックおよびストレージカード(FSC)カードのトラブルシューティングを行う方法について説明します。
前提条件
要件
次の項目に関する知識があることが推奨されます。
使用するコンポーネント
このドキュメントの内容は、特定のソフトウェアやハードウェアのバージョンに限定されるものではありません。
このドキュメントの情報は、特定のラボ環境にあるデバイスに基づいて作成されました。このドキュメントで使用するすべてのデバイスは、クリアな(デフォルト)設定で作業を開始しています。本稼働中のネットワークでは、各コマンドによって起こる可能性がある影響を十分確認してください。
問題
ASR5500シャーシの1枚のFSCカードのファブリックエッジ(FE)チップセットでSingle Event Upset(SEU)が発生すると、「ThreshFabricEGQDiscards」エラーが通知されます。FEテーブルでのこのビットフリップが原因で、FEチップがファブリック内のパケット(セル)を破損し始め、出力キューの廃棄を引き起こし、カード間のハートビート障害につながります。
この問題は、コマンドラインインターフェイス(CLI)でshow snmp trap history verboseコマンドを実行すると、例として表示されます。
Sat Jan 02 03:59:30 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 9 device 2 threshold 50 measured value 2430 interval 30
Sat Jan 02 03:59:30 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 9 device 1 threshold 50 measured value 2096 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 4 threshold 50 measured value 481 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 4 device 2 threshold 50 measured value 3761 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 4 device 1 threshold 50 measured value 3660 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 2 threshold 50 measured value 173 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 1 threshold 50 measured value 133 interval 30
Sat Jan 02 03:59:42 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 8 device 2 threshold 50 measured value 2977 interval 30
Sat Jan 02 03:59:42 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 8 device 1 threshold 50 measured value 4310 interval 30
Sat Jan 02 03:59:44 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 3 device 1 threshold 50 measured value 4499 interval 30
Sat Jan 02 03:59:44 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 3 device 2 threshold 50 measured value 4091 interval 30
Sat Jan 02 03:59:45 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 10 device 1 threshold 50 measured value 2796 interval 30
Sat Jan 02 03:59:45 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 10 device 2 threshold 50 measured value 5418 interval 30
Sat Jan 02 03:59:47 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 1 device 2 threshold 50 measured value 4747 interval 30
Sat Jan 02 03:59:47 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 1 device 1 threshold 50 measured value 5243 interval 30
Sat Jan 02 03:59:49 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 7 device 2 threshold 50 measured value 4644 interval 30
Sat Jan 02 03:59:49 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 7 device 1 threshold 50 measured value 5017 interval 30
この行は、複数のカードのCPUコンソールに表示されます。
注:コマンドdebug console cardはhidden/testコマンドです。また、StarOsノードでshow support detailsコマンドを実行すると、ASR5500のすべてのカードに対してこのコマンドが毎回収集されます。
******** debug console card 1 cpu 0 tail 10000 only *******
Saturday January 02 05:45:38 EST 2016
[...]
2016-Jan-02+03:59:47.479 card 1-cpu0: afio [1/0/2701] [2862193.674] afio/afio_petrab_egress.c:121: #1: petrab=1=1/1, PetraB EGQ Egress drop threshold exceeded, drop count=5243, interval=30 secs, threshold=50
トラブルシュート
出力ドロップが増加しているかどうかを確認します。
注:リリース19.0以降のバージョンでStarOsノードを実行していて、ファブリックエラーが増加している場合は、この記事の「ソリューション」の項に進んでください。
注:ファブリックエラーが増加していて、StarOsノードバージョンがリリース19.0より前のバージョンを実行している場合は、TACに対してサービスリクエストを提出してください。
ステップ 1:テストモードに入ります。StarOsノードでこれを有効にする方法については、ドキュメントを参照してください。
cli test-commands [encrypted] password password
ステップ 2:ファブリックの状態をチェックします。
show fabric health | grep -i -E "^Petra-B|EGQ"
問題がない場合の出力例:
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
Petra-B 2=1/2
Petra-B 3=2/1
Petra-B 4=2/2
Petra-B 5=3/1
Petra-B 6=3/2
[...]
EGQ Discard Packetsが増加している出力例:
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
EGQ.RqpDiscardPacketCounter 1143278
EGQ.EhpDiscardPacketCounter 1143278
EGQ.PqpDiscardUnicastPacketCounter 1143278
Petra-B 2=1/2
EGQ.RqpDiscardPacketCounter 1068491
EGQ.EhpDiscardPacketCounter 1068491
EGQ.PqpDiscardUnicastPacketCounter 1068491
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
EGQ.RqpDiscardPacketCounter 1346022 <<<
EGQ.EhpDiscardPacketCounter 1346022 <<<
EGQ.PqpDiscardUnicastPacketCounter 1346022 <<<
Petra-B 2=1/2
EGQ.RqpDiscardPacketCounter 1271360 <<<
EGQ.EhpDiscardPacketCounter 1271360 <<<
EGQ.PqpDiscardUnicastPacketCounter 1271360 <<<
解決方法
自動回復メカニズム
動作の変更の種類:
ファブリックの過剰な出力廃棄を検出した際のFSC自動回復/リセット手順を有効にする新しいCLIコマンド
リリースが導入されました:
19.0
古い動作:
FSCをリセットするための手動リカバリプロセス。
新しい動作:
新しいCLI設定コマンドについては、ドキュメントを参照してください。
fabric fsc auto-recovery enable max-attempts <X>を使用して、この機能を有効にします。
max-attemptsは、各FSCをリセットする回数です。デフォルトでは、max-attemptsは無制限です。
fabric fsc auto-recovery disableを使用してこの機能を無効にします。
show afctrl fsc-auto-recovery:FSCの自動リカバリの詳細を表示します。これには、まだリセットされていないデバイス、リセット回数、最大試行回数、出力ドロップしきい値状態、FSCの自動リカバリ履歴が含まれます。
注意:お客様への影響:FSC FEデバイスがリセットされ、転送中のパケットがすべて失われます。
注:MIOがフェールオーバーすると、履歴以外のすべての値が複製されます。