このドキュメントでは、トリアージテーブル、スイッチ固有のチェック、APIC側の関連付けを含む、Cisco ACIリーフ/スパインのトラブルシューティングについて説明します。
ACIスイッチに関するほとんどの問題は、内部コマンドの詳細に直接飛び込むのではなく、順序付けされたコマンドシーケンスを使用することで迅速にトラブルシューティングできます。ソフトウェアとハードウェアのベースラインチェックから始め、診断と環境状態を続行し、APIC上のアクティブスイッチの問題を関連付けてから、機能固有のコマンドに移ります。
| 目標 |
コマンド |
確認事項 |
次の作業 |
|---|---|---|---|
| ACIモードとバージョンの確認 |
show version |
ACIキックスタートイメージ、リリース予定、正常なリセット理由 |
スイッチがACIモードでない場合は、最初にブートイメージを停止して修正します。 |
| モジュールの健全性の確認 |
show module |
モジュールは「ok」で、オンライン診断は「合格」 |
アクティブなモジュールのいずれかが「OK」でないか、または診断が失敗する場合は、まずハードウェアの問題として取り扱います。 |
| 電源、ファン、および熱状態の確認 |
show environment |
動作中のPSUは「ok」、ファンの状態は「ok」、温度は「normal」 |
唯一の問題が「シャットダウン」状態の冗長PSUである場合は、エスカレートする前に設計意図を確認します。 |
| 診断結果の確認 |
show diagnostic result module all(登録ユーザ専用) |
テストは、アクティブなモジュール間でパスを行うために「。」を表示します。 |
いずれかのテストが「F」、「A」、または「I」の場合は、モジュールおよび障害出力と相関します。 |
| 検出とファブリックのベースラインを確認する |
検出の問題を表示 |
システムの状態、隣接関係、インフラVLAN、およびポリシーのダウンロードのチェック |
検出チェックが失敗した場合は、テナントまたはルーティングのトラブルシューティングを行う前に、ベースライン接続を修正します。 |
| APICでの関連付け |
show faults leaf <node-id>またはshow faults history leaf <node-id> |
障害コード、重大度、影響を受けるDN |
APICビューを使用して、アクティブな症状とクリア済みの履歴イベントを分離します。 |
ランタイム状態を解釈する前に、ノードが検出され、登録され、ACIモードソフトウェアを実行していることを確認します。スイッチのオンボーディングとベースライン検出チェックには、組み込みのshow discoveryissuescommandを使用し、APICがノードをインサービスとしてレポートすることを確認します。
leaf-A# show version
Software
BIOS: version 05.53
kickstart: version 16.1(3f) [build 16.1(3f)]
system: version 16.1(3f) [build 16.1(3f)]
PE: version 6.1(3f)
kickstart image file is: /bootflash/aci-n9000-dk9.16.1.3f.bin <--- ACI mode indicator
system image file is: /bootflash/auto-s
Hardware
cisco N9K-C93108TC-FX ("supervisor")
Device name: leaf-A
Last reset at 241000 usecs after Wed Mar 11 17:28:38 2026 JST
Reason: reset-requested-by-cli-command-reload
見た目の良い点:キックスタートとシステム回線が存在し、キックスタートイメージは「aci-n9000」で始まり、リセットの理由は説明できます。
不具合の内容:出力には、ACIキックスタートまたはシステム行のないスタンドアロンNXOSイメージファイルが示されています。
このセクションでは、ベースラインとして固定フォームファクタリーフスイッチを使用します。出力はライブACIリーフに基づいており、トリアージ中に有用な正常および劣化状態の両方を反映しています。
ソフトウェアレベル、イメージモード、稼働時間、および最後にリセットした理由を確認するには、次のコマンドを実行します。
leaf-A# show version
Software
BIOS: version 05.53
kickstart: version 16.1(3f) [build 16.1(3f)]
system: version 16.1(3f) [build 16.1(3f)]
PE: version 6.1(3f)
kickstart image file is: /bootflash/aci-n9000-dk9.16.1.3f.bin
system image file is: /bootflash/auto-s
Hardware
cisco N9K-C93108TC-FX ("supervisor")
Device name: leaf-A
Kernel uptime is 29 day(s), 19 hour(s), 52 minute(s), 45 second(s)
Last reset at 241000 usecs after Wed Mar 11 17:28:38 2026 JST
Reason: reset-requested-by-cli-command-reload
Service: PolicyElem Ch reload
ラインカードの状態とオンライン診断結果をモジュールレベルで確認するには、次のコマンドを実行します。
leaf-A# show module Mod Ports Module-Type Model Status --- ----- ----------------------------------- ------------------ ---------- 1 54 48x10G+6x40/100G Switch N9K-C93108TC-FX ok Mod Online Diag Status --- ------------------ 1 pass <--- basic diagnostic baseline
正常な状態:アクティブモジュールはokで、オンライン診断状態はpassです。
「What bad looks like: Module state is not ok」または「diagnostic state is not pass」というエラーメッセージが表示されます。
PSU、ファン、および熱状態を確認するには、次のコマンドを実行します。
leaf-A# show environment Power Supply: Supply Model Output Capacity Status 1 NXA-PAC-500W-PE 0 W 500 W shut <--- redundant PSU not in use 2 NXA-PAC-500W-PE 219 W 500 W ok Fan: Fan1(sys_fan1) NXA-FAN-30CFM-F Status: ok Fan2(sys_fan2) NXA-FAN-30CFM-F Status: ok Fan3(sys_fan3) NXA-FAN-30CFM-F Status: ok Fan4(sys_fan4) NXA-FAN-30CFM-F Status: ok Temperature: 1 Inlet(1) 37 normal 1 outlet(2) 38 normal 1 x86 processor(3) 71 normal 1 Homewood(4) 56 normal
正常な状態:アクティブなPSUは正常、ファンは正常、温度は正常。
問題の内容:動作中のPSUに障害が発生したか、ファンのステータスがokでないか、または温度センサーが正常でない場合。
show moduleのsummaryフィールドだけでなく、実際のオンライン診断テストを検証するには、このコマンドを実行します。
leaf-A# show diagnostic result module all Current bootup diagnostic level: bypass Module 1: 48x10G (Active) Test results: (. = Pass, F = Fail, I = Incomplete, U = Untested, A = Abort, E = Error disabled) 1) bios-mem-----------------------> . 2) mgmtp-lb-----------------------> . 22) cpu-cache----------------------> . 23) mem-health---------------------> . 24) ssd-acc------------------------> . 33) fpga-reg-chk-------------------> . 43) tahoe-mem----------------------> .
良い見た目:すべての必要なテストは'.'を示します。
不具合の内容:アクティブなハードウェアでのF、I、またはAの結果。
次のコマンドを実行して、オンボーディング、隣接関係、インフラストラクチャVLAN、およびコントローラの到達可能性を検証します。これは、リーフスイッチで最も便利な最初のパスコマンドの1つです。
leaf-A# show discoveryissues
Check 3 HW Modules Check
Test01 Fans status check PASSED
Test02 Power Supply status check FAILED
[Warn] Operational state of sys/ch/psuslot-1/psu is: shut
[Info] Ignore this if it is a redundant power supply
Check 5 System State
Test01 Check System State PASSED
[Info] TopSystem State is : in-service
Check 8 Infra VLAN Check
Test01 Check if infra VLAN is received PASSED
[Info] Infra VLAN received is : 4093
Check 10 IS-IS Adj Info
Test01 check IS-IS adjacencies PASSED
[Info] IS-IS adjacencies found on interfaces:
[Info] eth1/54.30
[Info] eth1/51.31
[Info] eth1/53.32
Check 11 Reachability to APIC
Test01 Ping check to APIC FAILED
[Error] Ping to APIC IP 198.51.100.1 from 198.51.100.64 with MTU 1450 failed.
この例は、現実的で混在した結果を示すため役立ちます。ノードはサービス中で、ファブリック隣接関係がありますが、1つの冗長PSUがシャットダウンされている間はコントローラの到達可能性に障害が発生します。障害が発生した各品目を同等に深刻と見なすのではなく、それぞれの障害をコンテキストに沿って解釈する必要があります。
このセクションでは、モジュラスパインスイッチを使用します。出力の構造は、ラインカード、ファブリックモジュール、スーパーバイザ、およびシステムコントローラを個別に評価する必要があるため、固定リーフとは異なります。
spine-A# show version
Software
BIOS: version 05.53
kickstart: version 16.1(3f) [build 16.1(3f)]
system: version 16.1(3f) [build 16.1(3f)]
PE: version 6.1(3f)
kickstart image file is: /bootflash/aci-n9000-dk9.16.1.3f-cs_64.bin <--- modular spine image
system image file is: /bootflash/auto-s
Hardware
cisco N9K-SUP-A+ ("supervisor")
Device name: spine-A
Last reset at 983000 usecs after Wed Mar 11 17:31:09 2026 JST
Reason: reset-requested-by-cli-command-reload
シャーシ内のすべてのハードウェアプレーンを確認するには、次のコマンドを実行します。
spine-A# show module Mod Ports Module-Type Model Status --- ----- ----------------------------------- ------------------ ---------- 1 32 32p 40/100G Ethernet Module N9K-X9732C-EX ok 2 32 32p 40/100G Ethernet Module N9K-X9732C-EX ok 3 36 36p 40/100G Ethernet Module N9K-X9736C-FX ok 22 0 Fabric Module N9K-C9504-FM-E ok 23 0 Fabric Module N9K-C9504-FM-E ok 24 0 Fabric Module N9K-C9504-FM-E ok 26 0 Fabric Module N9K-C9504-FM-E ok 27 0 Supervisor Module N9K-SUP-A+ active 28 0 Supervisor Module N9K-SUP-A+ standby 29 0 System Controller N9K-SC-A standby 30 0 System Controller N9K-SC-A active Mod Online Diag Status --- ------------------ 1 pass 2 pass 3 pass 22 pass 23 pass 24 pass 26 pass 27 pass 28 pass 29 pass 30 pass
正常な状態:ラインカード、ファブリックモジュール、スーパーバイザ、およびシステムコントローラがすべて揃っており、診断に合格しています。
問題の内容:ファブリックモジュールの欠落またはOK以外、スーパーバイザフェールオーバーの異常、またはモジュール診断の失敗。
spine-A# show environment Power Supply: Supply Model Output Capacity Status 1 N9K-PAC-3000W-B 1031 W 3000 W ok 2 N9K-PAC-3000W-B 0 W 3000 W shut 3 N9K-PAC-3000W-B 992 W 3000 W ok 4 ------------ N/A W 0 W Absent Power Usage Summary: Power Supply redundancy mode (operational) Non-Redundant(combined) Total Power Output (actual draw) 1523 W Total Power Available for additional modules 1793 W Fan: Fan1(sys_fan1) N9K-C9504-FAN Status: ok Fan2(sys_fan2) N9K-C9504-FAN Status: ok Fan3(sys_fan3) N9K-C9504-FAN Status: ok Fan4(sys_fan4) N9K-C9504-FAN Status: ok Fan5(sys_fan5) N9K-C9504-FAN Status: ok Fan6(sys_fan6) N9K-C9504-FAN Status: ok Temperature: 1 ATOM processor(1) 32 normal 3 Homewood instance 2(3) 78 normal 22 LAC instance 1(2) 70 normal 27 x86 processor(4) 36 normal
次の出力は、1つのPSUがシャットダウンしていて、別のスロットが欠席していても、シャーシが正常な場合の良い例です。設定された冗長性モードは、シャーシが引き続き動作する理由を説明します。
spine-A# show diagnostic result module all Current bootup diagnostic level: bypass Module 1: 32p 40/100G Ethernet Module 1) bios-mem-----------------------> . 9) mvl4p-eobc-snake---------------> . 39) lcfc-conn----------------------> . 43) tahoe-mem----------------------> . Module 22: Fabric Module 10) mvl10p-snake-------------------> . 42) fclc-conn----------------------> . 43) tahoe-mem----------------------> . Module 27: Supervisor Module (Active) 24) ssd-acc------------------------> . 32) nvram-cksum--------------------> . 35) eobc-mon-----------------------> . Module 30: System Controller 11) bcm28p-snake-------------------> . 41) pcie-bus-----------------------> .
モジュラスパインでは、このコマンドの主な値は幅です。1つのビューで、ラインカード、ファブリックモジュール、スーパーバイザがすべて診断に合格したことを確認できます。
スイッチのCLIベースラインを検証した後、ノードをアクティブおよび履歴の障害オブジェクトと関連付けるためにAPICに移動します。これは、スイッチの問題が切り分けられている、ポリシー関連の、環境にある、またはすでに解決済みであるかを判断する最も速い方法です。
apic-A# show version Role Pod Node Name Version ---------- --- ---- --------- ----------- controller 1 1 apic-A 6.1(3f) controller 1 2 apic-B 6.1(3f) controller 1 3 apic-C 6.1(3f) leaf 1 101 leaf-A n9000-16.1(3f) spine 1 201 spine-A n9000-16.1(3f)
ソフトウェアの不一致を想定する前に、コントローラとスイッチ間のリリースのアラインメントを確認するには、次のコマンドを使用します。
apic-A# show faults leaf 101
Code : F0532
Severity : critical
Lifecycle : raised
DN : topology/pod-1/node-101/sys/phys-[eth1/11]/phys/fault-F0532
Description : Port is down, reason being Link Not Connected(Connected),
used by EPG on node 101 with hostname leaf-A
Code : F1451
Severity : minor
Lifecycle : raised
DN : topology/pod-1/node-101/sys/ch/psuslot-1/psu/fault-F1451
Description : Power supply shutdown.
Code : F1699
Severity : warning
Lifecycle : raised
DN : topology/pod-1/node-101/sys/time/prov-198.51.100.10/status/fault-F1699
Description : NTP configuration on Leaf leaf-A is not synced to NTP server
この出力は、EPGで使用されるアクセスポート、PSUの状態、および時刻同期の3つのドメインを即座に分離するため便利です。
apic-A# show faults history leaf 101 ID : 8589940065 Description : Port is down, reason:Link Not Connected(Connected), used by:Fabric Severity : minor Code : F1394 Action : modification Life Cycle : raised ID : 8589940026 Description : TCA: ingress drop packets rate value 233 raised above threshold 200 Severity : warning Code : F112128 Action : creation ID : 8589939383 Description : BGP peer is not established, current state Idle Severity : cleared Code : F0299 Action : deletion
履歴ビューを使用して、アクティブな問題を、すでに回復した一時的なイベントと区別します。
apic-A# moquery -c topSystem -f 'top.System.name=="spine-A"' # top.System dn : topology/pod-1/node-201/sys name : spine-A role : spine state : in-service oobMgmtAddr : 198.51.100.201 version : n9000-16.1(3f)
このクエリを使用して、ノードのAPICビューがトラブルシューティングを行っているスイッチに一致することを確認します。
問題:show environmentまたはshow discoveryissuesで、PSUがシャットダウン状態であることが報告されています。
動作チェック:同じ出力で、PSUの状態を、設定および動作している冗長モードと比較します。
根本原因:多くのラボおよび非冗長構成では、1台のPSUが意図的に使用されていません。
解決方法:アクティブなPSUが低下しているか、冗長モードが設計意図と一致しない場合を除き、出力は情報として扱います。
問題:show discoveryissuesでは、ノードがインサービスであると表示されますが、APIC pingチェックは失敗します。
設定チェック:テストで使用されるAPIC側のパスを含め、管理および到達可能性設計を確認します。
動作チェック:ノードのIS-IS隣接関係、infra VLANの導入、アクティブなAPIC側の障害を確認します。
根本原因:コントローラの到達可能性またはポリシーのダウンロードのエッジケースを公開したまま、ノードが参加するのに十分なベースラインファブリック状態を保持している可能性があります。
解決策:APIC障害ビューとノード管理設定を使用して、障害が管理パス関連、トンネル関連、またはポリシー関連のいずれであるかを切り分けます。
次の条件の1つ以上が存在する場合は、テクニカルサポートを収集してエスカレーションします。
| 改定 | 発行日 | コメント |
|---|---|---|
1.0 |
12-Jun-2026
|
初版 |