はじめに
このドキュメントでは、「ACI Fault F3696: coop-ep-dampening and remediation steps」について説明します。
背景説明
この特定の障害は、COOPエンドポイントダンプニング機能が原因でEPが「フリーズ」状態になるとトリガーされます。EPが一貫した移動動作を持っていることが判明すると、EPは「フリーズ」状態になり、短時間で複数のCOOPの更新が発生します。
COOP EP DampeningはCOOPプロセス保護メカニズムであり、EPが発生する理由の特定にも役立ちます。
COOP EPダンプニングは、Cisco Application Policy Infrastructure Controller(APIC)リリース4.2(3)で導入され、デフォルトで有効になっています。
code : F3696
descr : 1 EPs are in freeze state.
cause : coop-ep-dampening
注:この障害の性質と関連するバーンダウンタイマーにより、障害がトリガーされ、自動的にクリアされる可能性があります。
Intersight接続ACIファブリック
この障害は、Proactive ACI Engagementの一部としてアクティブに監視されます。
Intersightに接続されたACIファブリックがある場合、お客様に代わってサービスリクエストが生成され、この障害のインスタンスがIntersightに接続されたACIファブリック内で検出されたことが示されます。
COOPエンドポイントダンプニング
Council of Oracle Protocol(COOP)は、エンドポイント(EP)マッピング情報(場所とアイデンティティ)をスパインプロキシに伝達するために使用されます。リーフスイッチは、COOPを介してエンドポイントアドレス情報をスパインスイッチに転送します。これにより、すべてのスパインノードがエンドポイントアドレスおよびロケーション情報の一貫したコピーを維持できます。
インターフェイスまたはデバイス間などでEPが一貫して移動すると、スパインに対してエンドポイントが絶えず更新され、COOPデータベースが正確になります。進行中のエンドポイントの移動による更新の量が増えると、COOPリソースの過剰使用が発生し、有効なエンドポイント更新の処理が妨げられる可能性があります。
リーフスイッチの機能である不正エンドポイント検出は、移動が単一のリーフにスコープ設定されている限り、アグレッシブなEP更新がスパインスイッチに到達しないようにします。COOPを保護するために異なる保護メカニズムを必要とする他のEP移動シナリオ(クロスリーフEP移動など)があります。ここでCOOPエンドポイントダンプニングが機能します。
EP移動の状況でCOOPへの負荷を軽減するために、スパインスイッチはすべてのリーフスイッチに対して、フラグが設定されたエンドポイントからのアップデートを指定された期間無視するように要求します。これが発生すると、このようなエンドポイントのダンプニング状態が「フリーズ」になり、障害F3696が生成されます。
ペナルティ値としきい値の詳細については、「config guide」リンクの「example 4.2 config guide」リンクを参照してください。
https://www.cisco.com/c/en/us/td/docs/switches/datacenter/aci/apic/sw/4-x/basic-configuration/Cisco-APIC-Basic-Configuration-Guide-42x/Cisco-APIC-Basic-Configuration-Guide-42x_chapter_0101.html#Cisco_Task.dita_b4647f36-3e4f-43bc-bea3-7572badebc01
この機能の最新バージョンについては、各バージョンの設定ガイドのリンクを参照してください。
注:不正EP制御やEPループ保護など、その他のアグレッシブEPアップデート保護機能は、明示的に有効にする必要があります。 これらの機能の詳細については、ACIファブリックエンドポイントラーニングホワイトペーパーを参照してください。
https://www.cisco.com/c/en/us/solutions/collateral/data-center-virtualization/application-centric-infrastructure/white-paper-c11-739989.html
EPフリーズの考えられる原因
フィールドでこの動作が発生する一般的なシナリオは次の2つです。
- 単一の論理リンク(vPC)設定ではなく、アクティブ – アクティブを使用した2つの個別のリーフ接続を持つサーバ
- ダウンストリームネットワークデバイス上のループ
迅速な対処の開始
- 「フリーズ」状態になったエンドポイントを特定する
- (オプション)データプレーンへの影響が確認された場合は、一時的な影響を解決するためにフリーズしたEPをクリアします
- EPが移動した理由と、これがネットワーク設計で予想され、必要であるかどうかを特定して理解します。
- 不要な場合は、EPの移動の原因となった根本的な状況に対処するアクションを実行します
- 対象の移動がネットワーク設計に必要であり、必要な場合は、COOP EPダンプニングを無効にすることを検討してください。
注:COOP EPダンプニングは、COOPプロセスの保護メカニズムです。一般に、可能な限り不要なEP移動を軽減する措置を講じることが望ましい。
障害に対処するための詳細手順
「固定」エンドポイントの特定
スパインノードまたはリーフノードで減衰したエンドポイントをすべて表示するには、次のスイッチCLI手順を使用します。
- スパインスイッチまたはリーフスイッチのCLIにログインし、次のコマンドを入力します。
- switch# show coop internal info repo ep dampening
(オプション)「固定」エンドポイントのクリア
GUIを使用
GUIを使用して実行すると、選択したノード上のすべてのフリーズEPがクリアされます。 この操作は、すべてのスパインスイッチと、フリーズしたエンドポイントのソースリーフスイッチで実行する必要があります。
- メニューバーで、Fabric > Inventoryの順にクリックします。
- ナビゲーションペインで、ポッドとスパインノードまたはリーフノードを展開します。
- ノードを右クリックし、Clear Dampened Endpointsを選択します。
- [はい]をクリックして、操作を確定します。
注:問題のEPがまだリーフスイッチのエンドポイントテーブルにある場合、エンドポイントはスパインスイッチのCOOPデータベースにパブリッシュされます。そうでない場合、減衰したエンドポイントは2分後にスパインスイッチのCOOPデータベースから削除されます。
スイッチのCLIを使用する
この手順をスイッチCLI経由で実行すると、一度に1つのエンドポイントだけがクリアされます。この操作は、すべてのスパインスイッチとエンドポイントのソースリーフスイッチで実行する必要があります。
- スパインスイッチまたはリーフスイッチのCLIにログインし、コマンドを入力します
- switch# clear coop internal info repo ep dampening key <bd_vnid> <mac>
注:問題のEPがまだリーフスイッチのエンドポイントテーブルにある場合、エンドポイントはスパインスイッチのCOOPデータベースにパブリッシュされます。そうでない場合、減衰したエンドポイントは2分後にスパインスイッチのCOOPデータベースから削除されます。
COOP EPダンプニングの無効化
一般に、これは推奨されません。ただし、ネットワーク設計で問題のEPの移動が必要であることが判明した場合は、COOP EP Dampeningを無効にすることができます。
disableEpDampening="true"を指定した/api/policymgr/mo/.xmlへのHTTP POSTは、COOP EPダンプニングを無効にします。
COOP EPダンプニングは同じ要求で再度有効にできますが、disableEpDampening="false"を設定します。
POST api/policymgr/mo/.xml
PAYLOAD:
disableEpDampening="true">
APIC CLIを使用
APIC CLIでは、icurlコマンドを使用して必要なHTTP POSTを実行できます。
COOP EPダンプニングの無効化:
apic# icurl -X POST -d '
true">
' http://localhost:7777/api/policymgr/mo/.xml
COOP EPダンプニングが無効になっているかどうかを確認します。
apic# moquery -c infraSetPol
Total Objects shown: 1
# infra.SetPol
disableEpDampening : yes
dn : uni/infra/settings
その他の詳細事項
COOP EPダンプニング – DampFactorのカスタマイズ
5.2.4d以降のリリースでは、「dampFactor」を変更して、COOP EPダンプニング機能に関連する特定の値を増やすことができます。
DampFactorの変更は、デフォルトのしきい値の範囲外にあるレベルのEP移動が予想され、COOP EPダンプニングを無効にしたくないシナリオで検討できます。
Damp penaltyに関連するしきい値は3つあり、これらの値は並行して機能します。DampFactorを変更すると、これらの3つの値がすべて変更されます。
しきい値名 |
説明 |
デフォルト値 |
dampReuseThreshold |
EPが「フリーズ」状態から通常状態に戻るときにしきい値を再利用 |
2500 |
dampSatThresh |
ダンプの彩度のしきい値。EPがこのペナルティ値を超えると、「フリーズ」状態になります |
10,000 |
dampThreshold |
重大な状態のしきい値。EPがその上に10分間留まると、「フリーズ」状態になります |
4000 |
デフォルトのDampFactorは1に設定されています。DampFactorは1 ~ 5の値に変更できます。
COOP EPのDampFactorを修正
APICの次の投稿を使用して、ダンプ係数を値の4倍に変更できます。
apic# icurl -X POST -d '
dampFactor=4>
' http://localhost:7777/api/policymgr/mo/.xml
修正されたしきい値は、coopRepPクラスをチェックすることで、スパイン単位で検証できます。
apic# moquery -c coopRepP
# coop.RepP
...
dampReuseThresh : 10000
dampSatThresh : 40000
dampThresh : 16000