本文檔介紹思科ACI枝葉和主幹故障排除,包括分類表、交換機特定檢查和APIC端關聯。
使用有序的命令序列而不是直接跳到深入的內部命令時,您可以更快地解決大多數ACI交換機問題。從軟體和硬體基線檢查開始,繼續診斷和環境狀態,然後在進入特定於功能的命令之前,關聯APIC上的活動交換機問題。
| 目標 |
指令 |
需尋找的專案 |
下一步工作 |
|---|---|---|---|
| 確認ACI模式和版本 |
顯示版本 |
ACI啟動映像、預期版本、健全重置原因 |
如果交換器未處於ACI模式,請先停止並修正開機映像。 |
| 驗證模組運行狀況 |
show module |
模組為「正常」,聯機診斷為「通過」 |
如果任何活動模組不是「正常」或診斷失敗,請先將其視為硬體問題。 |
| 檢驗電源、風扇和散熱狀態 |
顯示環境 |
運行PSU為「正常」,風扇狀態為「正常」,溫度為「正常」 |
如果唯一的異常是處於「關閉」狀態的冗餘PSU,請在升級之前驗證設計意圖。 |
| 驗證診斷結果 |
show diagnostic result module all |
測試顯示「。」 用於跨活動模組傳遞 |
如果任何測試是「F」、「A」或「I」,則與模組和故障輸出相關。 |
| 檢查發現和交換矩陣基線 |
顯示發現問題 |
系統狀態、鄰接、次級VLAN和策略下載檢查 |
如果發現檢查失敗,請在排除租戶或路由故障之前修復基線連線。 |
| 在APIC上關聯 |
show faults leaf <node-id>或show faults history leaf <node-id> |
故障代碼、嚴重性和受影響的DN |
使用APIC檢視將活動症狀與已清除的歷史事件區分開來。 |
在解釋運行時狀態之前,請驗證是否已發現、註冊並運行ACI模式軟體。對於交換機啟動和基線發現檢查,請使用built-show discoveryissuesincomment命令並確認APIC將該節點報告為服務中。
leaf-A# show version
Software
BIOS: version 05.53
kickstart: version 16.1(3f) [build 16.1(3f)]
system: version 16.1(3f) [build 16.1(3f)]
PE: version 6.1(3f)
kickstart image file is: /bootflash/aci-n9000-dk9.16.1.3f.bin <--- ACI mode indicator
system image file is: /bootflash/auto-s
Hardware
cisco N9K-C93108TC-FX ("supervisor")
Device name: leaf-A
Last reset at 241000 usecs after Wed Mar 11 17:28:38 2026 JST
Reason: reset-requested-by-cli-command-reload
好看的樣子:Kickstart和系統行存在,kickstart映像以「aci-n9000」開頭,重置原因可以解釋。
壞的樣子:輸出顯示一個沒有ACI kickstart或系統行的獨立NXOS映像檔案。
本部分使用固定外形枝葉交換機作為基線。輸出基於活動的ACI枝葉,反映了在分類期間有用的健康狀態和降級狀態。
運行此命令可驗證軟體級別、映像模式、正常運行時間和上次重置原因。
leaf-A# show version
Software
BIOS: version 05.53
kickstart: version 16.1(3f) [build 16.1(3f)]
system: version 16.1(3f) [build 16.1(3f)]
PE: version 6.1(3f)
kickstart image file is: /bootflash/aci-n9000-dk9.16.1.3f.bin
system image file is: /bootflash/auto-s
Hardware
cisco N9K-C93108TC-FX ("supervisor")
Device name: leaf-A
Kernel uptime is 29 day(s), 19 hour(s), 52 minute(s), 45 second(s)
Last reset at 241000 usecs after Wed Mar 11 17:28:38 2026 JST
Reason: reset-requested-by-cli-command-reload
Service: PolicyElem Ch reload
運行此命令,以便在模組級別驗證線卡狀態和聯機診斷結果。
leaf-A# show module Mod Ports Module-Type Model Status --- ----- ----------------------------------- ------------------ ---------- 1 54 48x10G+6x40/100G Switch N9K-C93108TC-FX ok Mod Online Diag Status --- ------------------ 1 pass <--- basic diagnostic baseline
好看的樣子:活動模組為ok,並且聯機診斷狀態為pass。
壞的樣子:模組狀態不是ok或診斷狀態不是pass。
運行此命令以驗證PSU、風扇和散熱狀態。
leaf-A# show environment Power Supply: Supply Model Output Capacity Status 1 NXA-PAC-500W-PE 0 W 500 W shut <--- redundant PSU not in use 2 NXA-PAC-500W-PE 219 W 500 W ok Fan: Fan1(sys_fan1) NXA-FAN-30CFM-F Status: ok Fan2(sys_fan2) NXA-FAN-30CFM-F Status: ok Fan3(sys_fan3) NXA-FAN-30CFM-F Status: ok Fan4(sys_fan4) NXA-FAN-30CFM-F Status: ok Temperature: 1 Inlet(1) 37 normal 1 outlet(2) 38 normal 1 x86 processor(3) 71 normal 1 Homewood(4) 56 normal
好看的樣子:活動PSU正常工作,風扇正常,溫度正常。
壞的樣子:工作PSU出現故障、風扇狀態不正常或者任何熱量感測器不正常。
運行此命令以驗證實際的聯機診斷測試,而不僅僅是show module中的摘要欄位。
leaf-A# show diagnostic result module all Current bootup diagnostic level: bypass Module 1: 48x10G (Active) Test results: (. = Pass, F = Fail, I = Incomplete, U = Untested, A = Abort, E = Error disabled) 1) bios-mem-----------------------> . 2) mgmtp-lb-----------------------> . 22) cpu-cache----------------------> . 23) mem-health---------------------> . 24) ssd-acc------------------------> . 33) fpga-reg-chk-------------------> . 43) tahoe-mem----------------------> .
好看的樣子:所有必需測試均顯示「.」。
壞的樣子:活動硬體的任何F、I或A結果。
運行此命令以驗證自註冊、鄰接關係、超級VLAN和控制器可訪問性。這是對枝葉交換機最有用的第一次傳遞命令之一。
leaf-A# show discoveryissues
Check 3 HW Modules Check
Test01 Fans status check PASSED
Test02 Power Supply status check FAILED
[Warn] Operational state of sys/ch/psuslot-1/psu is: shut
[Info] Ignore this if it is a redundant power supply
Check 5 System State
Test01 Check System State PASSED
[Info] TopSystem State is : in-service
Check 8 Infra VLAN Check
Test01 Check if infra VLAN is received PASSED
[Info] Infra VLAN received is : 4093
Check 10 IS-IS Adj Info
Test01 check IS-IS adjacencies PASSED
[Info] IS-IS adjacencies found on interfaces:
[Info] eth1/54.30
[Info] eth1/51.31
[Info] eth1/53.32
Check 11 Reachability to APIC
Test01 Ping check to APIC FAILED
[Error] Ping to APIC IP 198.51.100.1 from 198.51.100.64 with MTU 1450 failed.
此示例非常有用,因為它顯示了真實的混合結果 — 節點處於服務中且具有交換矩陣鄰接關係,但是當關閉一個冗餘PSU時,控制器可達性仍然失敗。您必須結合上下文來解釋每個故障,而不是將每個故障行都視為同等嚴重。
本部分使用模組化主幹交換機。輸出的結構與固定枝葉不同,因為您必須分別評估線卡、交換矩陣模組、管理引擎和系統控制器。
spine-A# show version
Software
BIOS: version 05.53
kickstart: version 16.1(3f) [build 16.1(3f)]
system: version 16.1(3f) [build 16.1(3f)]
PE: version 6.1(3f)
kickstart image file is: /bootflash/aci-n9000-dk9.16.1.3f-cs_64.bin <--- modular spine image
system image file is: /bootflash/auto-s
Hardware
cisco N9K-SUP-A+ ("supervisor")
Device name: spine-A
Last reset at 983000 usecs after Wed Mar 11 17:31:09 2026 JST
Reason: reset-requested-by-cli-command-reload
運行此命令可驗證機箱中的每個硬體平面。
spine-A# show module Mod Ports Module-Type Model Status --- ----- ----------------------------------- ------------------ ---------- 1 32 32p 40/100G Ethernet Module N9K-X9732C-EX ok 2 32 32p 40/100G Ethernet Module N9K-X9732C-EX ok 3 36 36p 40/100G Ethernet Module N9K-X9736C-FX ok 22 0 Fabric Module N9K-C9504-FM-E ok 23 0 Fabric Module N9K-C9504-FM-E ok 24 0 Fabric Module N9K-C9504-FM-E ok 26 0 Fabric Module N9K-C9504-FM-E ok 27 0 Supervisor Module N9K-SUP-A+ active 28 0 Supervisor Module N9K-SUP-A+ standby 29 0 System Controller N9K-SC-A standby 30 0 System Controller N9K-SC-A active Mod Online Diag Status --- ------------------ 1 pass 2 pass 3 pass 22 pass 23 pass 24 pass 26 pass 27 pass 28 pass 29 pass 30 pass
好看的樣子:線路卡、交換矩陣模組、管理引擎和系統控制器均已存在,診斷通過通過。
壞的樣子:交換矩陣模塊丟失或不正常、Supervisor故障轉移異常或任何失敗的模組診斷。
spine-A# show environment Power Supply: Supply Model Output Capacity Status 1 N9K-PAC-3000W-B 1031 W 3000 W ok 2 N9K-PAC-3000W-B 0 W 3000 W shut 3 N9K-PAC-3000W-B 992 W 3000 W ok 4 ------------ N/A W 0 W Absent Power Usage Summary: Power Supply redundancy mode (operational) Non-Redundant(combined) Total Power Output (actual draw) 1523 W Total Power Available for additional modules 1793 W Fan: Fan1(sys_fan1) N9K-C9504-FAN Status: ok Fan2(sys_fan2) N9K-C9504-FAN Status: ok Fan3(sys_fan3) N9K-C9504-FAN Status: ok Fan4(sys_fan4) N9K-C9504-FAN Status: ok Fan5(sys_fan5) N9K-C9504-FAN Status: ok Fan6(sys_fan6) N9K-C9504-FAN Status: ok Temperature: 1 ATOM processor(1) 32 normal 3 Homewood instance 2(3) 78 normal 22 LAC instance 1(2) 70 normal 27 x86 processor(4) 36 normal
此輸出是機箱正常運行的良好示例,即使一個PSU關閉,而另一個插槽處於Absent狀態。配置的冗餘模式解釋了為什麼機箱仍可運行。
spine-A# show diagnostic result module all Current bootup diagnostic level: bypass Module 1: 32p 40/100G Ethernet Module 1) bios-mem-----------------------> . 9) mvl4p-eobc-snake---------------> . 39) lcfc-conn----------------------> . 43) tahoe-mem----------------------> . Module 22: Fabric Module 10) mvl10p-snake-------------------> . 42) fclc-conn----------------------> . 43) tahoe-mem----------------------> . Module 27: Supervisor Module (Active) 24) ssd-acc------------------------> . 32) nvram-cksum--------------------> . 35) eobc-mon-----------------------> . Module 30: System Controller 11) bcm28p-snake-------------------> . 41) pcie-bus-----------------------> .
在模組化脊柱上,此命令的主要值是寬度。您可以確認線卡、交換矩陣模組和管理引擎都在單一檢視中通過診斷。
驗證交換機CLI基線後,請轉到APIC以使節點與活動故障對象和歷史故障對象相關聯。這是判斷交換機問題是隔離、策略相關、環境問題還是已清除的最快方法。
apic-A# show version Role Pod Node Name Version ---------- --- ---- --------- ----------- controller 1 1 apic-A 6.1(3f) controller 1 2 apic-B 6.1(3f) controller 1 3 apic-C 6.1(3f) leaf 1 101 leaf-A n9000-16.1(3f) spine 1 201 spine-A n9000-16.1(3f)
在假設軟體不相符之前,請使用以下命令驗證控制器和交換器之間的版本一致性。
apic-A# show faults leaf 101
Code : F0532
Severity : critical
Lifecycle : raised
DN : topology/pod-1/node-101/sys/phys-[eth1/11]/phys/fault-F0532
Description : Port is down, reason being Link Not Connected(Connected),
used by EPG on node 101 with hostname leaf-A
Code : F1451
Severity : minor
Lifecycle : raised
DN : topology/pod-1/node-101/sys/ch/psuslot-1/psu/fault-F1451
Description : Power supply shutdown.
Code : F1699
Severity : warning
Lifecycle : raised
DN : topology/pod-1/node-101/sys/time/prov-198.51.100.10/status/fault-F1699
Description : NTP configuration on Leaf leaf-A is not synced to NTP server
此輸出非常有用,因為它可以立即分隔三個域 — 由EPG使用的接入埠、PSU狀態和時間同步。
apic-A# show faults history leaf 101 ID : 8589940065 Description : Port is down, reason:Link Not Connected(Connected), used by:Fabric Severity : minor Code : F1394 Action : modification Life Cycle : raised ID : 8589940026 Description : TCA: ingress drop packets rate value 233 raised above threshold 200 Severity : warning Code : F112128 Action : creation ID : 8589939383 Description : BGP peer is not established, current state Idle Severity : cleared Code : F0299 Action : deletion
使用歷史記錄檢視,可將活動問題與已恢復的瞬態事件區分開來。
apic-A# moquery -c topSystem -f 'top.System.name=="spine-A"' # top.System dn : topology/pod-1/node-201/sys name : spine-A role : spine state : in-service oobMgmtAddr : 198.51.100.201 version : n9000-16.1(3f)
使用此查詢可確認節點的APIC檢視與您正在故障排除的交換機是否匹配。
問題:show environment或show discoveryissues報告PSU處於關閉狀態。
操作檢查:在相同輸出中,將PSU狀態與已配置和操作冗餘模式進行比較。
根本原因:在許多實驗室和非冗餘部署中,一個PSU被故意未使用。
解決方案:將輸出視為資訊輸出,除非活動PSU降級或冗餘模式與設計意圖不匹配。
問題:show discoveryissues將節點顯示為服務中,但APIC ping檢查失敗。
配置檢查:驗證管理和基礎設施可達性設計,包括測試使用的面向APIC的路徑。
操作檢查:確認節點的IS-IS鄰接、次級VLAN部署和活動APIC端故障。
根本原因:節點可以具有足夠的基本交換矩陣狀態以加入,同時仍然暴露控制器可達性或策略下載邊緣案例。
解決方案:使用APIC故障檢視和節點管理配置來隔離故障是管理路徑相關、隧道相關還是策略相關。
收集技術支援並在存在以下一種或多種情況時上報:
| 修訂 | 發佈日期 | 意見 |
|---|---|---|
1.0 |
12-Jun-2026
|
初始版本 |