はじめに
このドキュメントでは、コードF1545 ~ F1552の障害について説明します。これらの障害は、ACIが廃棄されたパケットを分類する方法に関連する表面的な障害です。
問題
デフォルトでは、ACIではアトミックカウンタが有効になっています。
これらのカウンタは、リーフ間の直接ドロップまたはリーフからスパインへのドロップをチェックします。
ルール:on-going-atomic-counter
この場合、障害コードは、リーフ間カウンタであるF1545、F1546、F1547、F1548、F1549、F1550、F1551、およびF1552です。
レポートされる理由
これらのカウンタは、通信がTEPからTEPまでである限り有効です(たとえば、VPCはありません)。 これはACIモニタリングの最初のバージョンにありましたが、ACIの設計と実装により、これらの障害は長い間関係のないものになりました。ファブリックの現在のバージョンに関係なく、この機能を無効にすることで、ファブリックの確認と削除を行うことができます。
一部のパケットはドロップとしてカウントされますが、実際のテナントトラフィックのドロップではありません。
例:
- リーフvPCペアは、vPCペアの仮想IP(vPC VIP)を使用して、パケットを個々のトンネルインターフェイス経由で他のリーフに送信します。ACIはパケット統計情報にトンネルインターフェイスを使用します。vPC VIPは仮想インターフェイスであるため、個々のリーフに対応するトンネルインターフェイスはなく、その結果、ドロップを追跡するためのトンネルインターフェイスはありません。したがって、vPC VIP宛てのパケットは、受信側のvPCピアリーフスイッチでドロップとしてカウントされます。
- リーフ間のvPCコントロールプレーンパケットとエンドポイント情報交換
- 契約によって発生したドロップもドロップとしてカウントされますが、これは期待どおりの(悪くない)もので、契約が業務を行っているからです。
回避策
Ongoing Atomic Counter機能を無効にします。スケルチされても、進行中のアトミックカウンタオブジェクトの数が原因で、多数のノードを持つ一部のファブリックでAPICのパフォーマンスの問題が発生する可能性があります。
継続的なアトミックカウンタをデフォルトで無効にする機能拡張が文書化されており、Cisco Bug ID CSCwh67235で、これは6.1.xバージョン以降のデフォルトの動作です。
Operations > Visualizationの順にクリックし、Settingsをクリックします。次にAdministrative State Disabledを選択し、Submitをクリックします。
進行中のアトミックカウンタを無効にする
CLI を使用した確認
APIC# moquery -c dbgOngoingAcMode | grep adminSt
adminSt : disabled
アトミックカウンタがディセーブルになっている場合でも、ユーザは「アトミックカウンタポリシーの設定」のドキュメントに記載されているオンデマンドのアトミックカウンタを引き続き使用できます(必要です)。
継続は有効ではなく、スケール/障害に大きく貢献します。オンデマンドは事後対応型で有効です。継続的な無効化は、オンデマンドの使用を妨げるものではありません。
この機能を無効にすると、パケットドロップはまったく役に立たないアラートになりますか。
ACIには、さまざまな障害カウンタがあります。これらが実際のドロップである場合、これらの障害コードの下に表示されます。
たとえば、F100696(入力フォワーディングドロップパケット)、ACIのパケットドロップ障害の説明の詳細などです。
関連する問題
APICの応答が遅い、またはdbgrオブジェクトに対してサポートされているスケールで発生したメモリ不足の問題が原因で1つの要求に応答できないなどの問題が発生する場合があります。 この機能は、多数のノードを持つファブリックでは十分に拡張できません。
一般的な検証
属性ルールにon-going-atomic-counterが含まれている障害を確認します。
APIC# moquery -c faultInst -x 'query-target-filter=wcard(faultInst.rule,"on-going-atomic-counter")' | grep dn
dn : dbgs/ac/sdvpcpath-101-103-to-102-104/fault-F1546
dn : dbgs/ac/sdvpcpath-101-103-to-102-104/fault-F1548
dn : dbgs/ac/sdvpcpath-102-104-to-101-103/fault-F1548
dn : dbgs/ac/sdvpcpath-102-104-to-101-103/fault-F1546
dn : dbgs/ac/path-101-to-103/fault-F1545
dn : dbgs/ac/path-101-to-103/fault-F1547
dn : dbgs/ac/path-103-to-101/fault-F1545
dn : dbgs/ac/path-103-to-101/fault-F1546
DBGRサービスが実行されていることを確認します。
APIC# ps -ef | egrep "dbgr.bin|STIME"
UID PID PPID C STIME TTY TIME CMD
ifc 15785 1 1 May23 ? 07:57:39 /mgmt//bin/svc_ifc_dbgr.bin --x
dbgrサービスで、十分なトークン数に一致するテキストのレコードがないかどうかを確認します。 この例では、日付と発生回数、つまり日付2024-05-20の合計153506によって選択できます。
APIC# zgrep "enough tokens" /var/log/dme/log/svc_ifc_dbgr*
svc_ifc_dbgr.bin.log.595460.gz:30038||2024-05-20T08:11:01.125937358+00:00||doer||INFO||co=doer:1:1:0x800000013811b8b:0||Dropping stimuli as doer does not have enough tokens||../common/src/framework/./core/proc/Doer.cc||1303
...
svc_ifc_dbgr.bin.log.595460.gz:30038||2024-05-20T08:11:03.126887965+00:00||doer||INFO||co=doer:19:1:0x98000000129a2c01:0||Dropping stimuli as doer does not have enough tokens||../common/src/framework/./core/proc/Doer.cc||1303
APIC# zgrep "enough tokens" /var/log/dme/log/svc_ifc_dbgr* | grep 2024-05-20 | wc -l
153506
APIC# egrep "Shard|id |tokens.available" /debug/$HOSTNAME/dbgr/ifm/debug/mo | grep -B 2 "tokens.available : 0"
Shard : id : 1
tokens.available : 0
関連情報
Cisco APIC障害、イベント、およびシステムメッセージ管理ガイド>予期される障害の処理
アトミックカウンタのガイドラインと制限事項
アトミック カウンタ ポリシーの設定
ACIのパケットドロップ障害の説明
参照バグ
Cisco Bug ID CSCwh67235:実行中のアトミックカウンタをデフォルトで無効にする
Cisco Bug ID CSCuz99892(登録ユーザ専用):TEP-to-TEPアトミックカウンタは信頼できない
Cisco Bug IDCSCvp07545:ACIファブリックで障害F1545およびF1547障害を受信する
Cisco Bug ID CSCwf18707:dbgAcPathAのスケーラビリティを超えるとエラーが発生します