はじめに
このドキュメントでは、コードF1545 ~ F1552の障害について説明します。これらの障害は、ACIがドロップされたパケットを分類する方法に関連する表面的な障害です。
問題
デフォルトでは、ACIのアトミックカウンタはイネーブルになっています。
これらのカウンタは、リーフ間の直接ドロップまたはリーフからスパインへのドロップをチェックします
ルール:on-going-atomic-counter
この場合、障害コードはF1545、F1546、F1547、F1548、F1549、F1550、F1551、およびF1552で、リーフからリーフへのカウンタです。
なぜ報告されるのか?
これらのカウンタは、通信がTEPからTEPのみである限り有効です(VPCなど)。これはACIモニタリングの最初のバージョンでしたが、ACIの設計と実装により、これらの障害は長い間無関係でした。ファブリックの現在のバージョンに関係なく、この機能を無効にすることで確認応答と削除を行うことができます。
一部のパケットはドロップとしてカウントされますが、実際のテナントトラフィックのドロップではありません。例:
- リーフvPCペアは、vPCペアの仮想IP(vPC VIP)を使用して、パケットを個別のトンネルインターフェイス経由で他のリーフに送信します。ACIはパケット統計情報にトンネルインターフェイスを使用します。これは、vPC VIPが仮想インターフェイスであり、個々のリーフ上にそのVIPに対応するトンネルインターフェイスが存在せず、その結果、ドロップを追跡するトンネルインターフェイスが存在しないためです。そのため、vPC VIP宛てのパケットは、受信側のvPCピアリーフスイッチでドロップとしてカウントされます。
- リーフ間のvPCコントロールプレーンパケットとエンドポイント情報交換
- 契約によって発生したドロップもドロップとしてカウントされますが、これは期待どおりの結果です(悪い結果ではありません)。これは、契約が実際に機能しているためです。
回避策
継続アトミックカウンタ機能を無効にします。スケルチされた場合でも、継続アトミックカウンタオブジェクトの数が原因で、多数のノードを持つ一部のファブリックでAPICのパフォーマンス問題が発生する可能性があります。
継続的なアトミックカウンタをデフォルトのCisco Bug ID CSCwh67235で無効にする機能拡張が文書化されており、これは6.1.xバージョン以降のデフォルトの動作です。
[オペレーション] > [ビジュアル化]の順にクリックし、[設定]、[管理状態の無効化]の順に選択して、[送信]をクリックします。
進行中のアトミックカウンタを無効にする
アトミックカウンタをディセーブルにした場合でも、ユーザは「アトミックカウンタポリシーの設定」のドキュメントに記載されているオンデマンドのアトミックカウンタを引き続き使用できます(また、必要です)。
継続は有効ではなく、規模や障害に大きく影響します。オンデマンドは事後対処的で有効であり、継続的な無効化はオンデマンドの使用を妨げない。
この機能を無効にすると、パケットは完全に役に立たないアラートをドロップしますか。
ACIには多くの異なる障害カウンタがあります。実際にドロップが発生している場合は、これらの障害コードの下に表示されます。
たとえば、F100696:入力転送ドロップパケット、ACIでのパケットドロップ障害の説明の詳細などです。
関連する問題
サポートされているスケールでdbgrオブジェクトに対して発生したメモリ不足の問題が原因で、APIC応答が遅くなったり、1つの要求に応答できなくなったりすることがあります。 この機能は、多数のノードを持つファブリックでは十分に拡張できません。
一般的な確認
属性ルールに「on-going-atomic-counter」が含まれている障害をチェックします。
APIC# moquery -c faultInst -x 'query-target-filter=wcard(faultInst.rule,"on-going-atomic-counter")' | grep dn
dn : dbgs/ac/sdvpcpath-101-103-to-102-104/fault-F1546
dn : dbgs/ac/sdvpcpath-101-103-to-102-104/fault-F1548
dn : dbgs/ac/sdvpcpath-102-104-to-101-103/fault-F1548
dn : dbgs/ac/sdvpcpath-102-104-to-101-103/fault-F1546
dn : dbgs/ac/path-101-to-103/fault-F1545
dn : dbgs/ac/path-101-to-103/fault-F1547
dn : dbgs/ac/path-103-to-101/fault-F1545
dn : dbgs/ac/path-103-to-101/fault-F1546
DBGRサービスが実行されていることを確認します。
APIC# ps -ef | egrep "dbgr.bin|STIME"
UID PID PPID C STIME TTY TIME CMD
ifc 15785 1 1 May23 ? 07:57:39 /mgmt//bin/svc_ifc_dbgr.bin --x
dbgrサービスでテキスト「enough tokens」に一致するレコードを確認します。この例では、日付と発生回数によって選択できます。日付2024-05-20の合計153506です
APIC# zgrep "enough tokens" /var/log/dme/log/svc_ifc_dbgr*
svc_ifc_dbgr.bin.log.595460.gz:30038||2024-05-20T08:11:01.125937358+00:00||doer||INFO||co=doer:1:1:0x800000013811b8b:0||Dropping stimuli as doer does not have enough tokens||../common/src/framework/./core/proc/Doer.cc||1303
...
svc_ifc_dbgr.bin.log.595460.gz:30038||2024-05-20T08:11:03.126887965+00:00||doer||INFO||co=doer:19:1:0x98000000129a2c01:0||Dropping stimuli as doer does not have enough tokens||../common/src/framework/./core/proc/Doer.cc||1303
APIC# zgrep "enough tokens" /var/log/dme/log/svc_ifc_dbgr* | grep 2024-05-20 | wc -l
153506
参照:
Cisco APIC障害、イベント、およびシステムメッセージ管理ガイド>予期される障害の処理
アトミックカウンタのガイドラインと制限事項
アトミック カウンタ ポリシーの設定
ACI でのパケット ドロップ障害の説明
参照バグ:
Cisco Bug ID CSCwh67235:実行中のアトミックカウンタをデフォルトで無効にする
Cisco Bug ID CSCuz99892(登録ユーザ専用):TEP-to-TEPアトミックカウンタは信頼できない
Cisco Bug IDCSCvp07545:ACIファブリックで障害F1545およびF1547障害を受信する
Cisco Bug ID CSCwf18707:dbgAcPathAのスケーラビリティを超えるとエラーが発生する