本文档介绍思科ACI枝叶和主干故障排除,包括分类表、交换机特定检查和APIC端关联。
当您使用有序的命令序列而不是直接跳到深入的内部命令时,您可以更快地解决大多数ACI交换机问题。从软件和硬件基线检查开始,继续进行诊断和环境状态,然后关联APIC上的活动交换机问题,然后再进入功能特定命令。
| 目标 |
命令 |
查找内容 |
下一步工作 |
|---|---|---|---|
| 确认ACI模式和版本 |
show version |
ACI启动映像、预期版本、健全重置原因 |
如果交换机未处于ACI模式,请首先停止并纠正启动映像。 |
| 验证模块运行状况 |
show module |
模块为“正常”,在线诊断为“通过” |
如果任何活动模块未通过“正常”或诊断失败,请先将其视为硬件问题。 |
| 检验电源、风扇和散热状态 |
show environment |
运行PSU为“正常”,风扇状态为“正常”,温度为“正常” |
如果唯一的异常是处于“关闭”状态的冗余PSU,请在升级前检验设计意图。 |
| 检验诊断结果 |
show diagnostic result module all |
测试显示“。” 用于通过活动模块 |
如果任何测试是'F'、'A'或'I',请关联模块和故障输出。 |
| 检查发现和交换矩阵基线 |
show discoveryissues |
系统状态、邻接、基础VLAN和策略下载检查 |
如果发现检查失败,请在排除租户或路由故障之前修复基线连接。 |
| 在APIC上关联 |
show faults leaf <node-id>或show faults history leaf <node-id> |
故障代码、严重性和受影响的DN |
使用APIC视图将活动症状与已清除的历史事件分开。 |
在解释运行时状态之前,请验证节点是否已发现、注册并正在运行ACI模式软件。对于交换机登录和基线发现检查,请使用built-show discoveryissuesincommand并确认APIC报告节点处于服务中。
leaf-A# show version
Software
BIOS: version 05.53
kickstart: version 16.1(3f) [build 16.1(3f)]
system: version 16.1(3f) [build 16.1(3f)]
PE: version 6.1(3f)
kickstart image file is: /bootflash/aci-n9000-dk9.16.1.3f.bin <--- ACI mode indicator
system image file is: /bootflash/auto-s
Hardware
cisco N9K-C93108TC-FX ("supervisor")
Device name: leaf-A
Last reset at 241000 usecs after Wed Mar 11 17:28:38 2026 JST
Reason: reset-requested-by-cli-command-reload
看起来不错:启动和系统行存在,启动映像以“aci-n9000”开头,重置原因可以解释。
不好的看起来是:输出显示无ACI启动行或系统行的独立NXOS映像文件。
本部分使用固定外形枝叶交换机作为基准。输出基于实时ACI枝叶,反映了在分类期间有用的健康状态和降级状态。
运行此命令以验证软件级别、映像模式、正常运行时间和上次重置原因。
leaf-A# show version
Software
BIOS: version 05.53
kickstart: version 16.1(3f) [build 16.1(3f)]
system: version 16.1(3f) [build 16.1(3f)]
PE: version 6.1(3f)
kickstart image file is: /bootflash/aci-n9000-dk9.16.1.3f.bin
system image file is: /bootflash/auto-s
Hardware
cisco N9K-C93108TC-FX ("supervisor")
Device name: leaf-A
Kernel uptime is 29 day(s), 19 hour(s), 52 minute(s), 45 second(s)
Last reset at 241000 usecs after Wed Mar 11 17:28:38 2026 JST
Reason: reset-requested-by-cli-command-reload
Service: PolicyElem Ch reload
运行此命令以验证板卡状态和模块级别的在线诊断结果。
leaf-A# show module Mod Ports Module-Type Model Status --- ----- ----------------------------------- ------------------ ---------- 1 54 48x10G+6x40/100G Switch N9K-C93108TC-FX ok Mod Online Diag Status --- ------------------ 1 pass <--- basic diagnostic baseline
看起来不错:活动模块为ok,并且联机诊断状态为pass。
不好的看起来是:模块状态为ok或诊断状态未通过。
运行此命令以验证PSU、风扇和热状态。
leaf-A# show environment Power Supply: Supply Model Output Capacity Status 1 NXA-PAC-500W-PE 0 W 500 W shut <--- redundant PSU not in use 2 NXA-PAC-500W-PE 219 W 500 W ok Fan: Fan1(sys_fan1) NXA-FAN-30CFM-F Status: ok Fan2(sys_fan2) NXA-FAN-30CFM-F Status: ok Fan3(sys_fan3) NXA-FAN-30CFM-F Status: ok Fan4(sys_fan4) NXA-FAN-30CFM-F Status: ok Temperature: 1 Inlet(1) 37 normal 1 outlet(2) 38 normal 1 x86 processor(3) 71 normal 1 Homewood(4) 56 normal
看起来不错:活动PSU正常,风扇正常,温度正常。
不好的看起来是:运行PSU发生故障、风扇状态不正常或者任何热传感器都不正常。
运行此命令以验证实际的联机诊断测试,而不只是show module中的摘要字段。
leaf-A# show diagnostic result module all Current bootup diagnostic level: bypass Module 1: 48x10G (Active) Test results: (. = Pass, F = Fail, I = Incomplete, U = Untested, A = Abort, E = Error disabled) 1) bios-mem-----------------------> . 2) mgmtp-lb-----------------------> . 22) cpu-cache----------------------> . 23) mem-health---------------------> . 24) ssd-acc------------------------> . 33) fpga-reg-chk-------------------> . 43) tahoe-mem----------------------> .
看起来不错:所有必需测试均显示“.”。
不好的看起来是:活动硬件的F、I或A结果。
运行此命令以验证自注册、邻接、基础设施VLAN和控制器可达性。这是对枝叶交换机最有用的首遍命令之一。
leaf-A# show discoveryissues
Check 3 HW Modules Check
Test01 Fans status check PASSED
Test02 Power Supply status check FAILED
[Warn] Operational state of sys/ch/psuslot-1/psu is: shut
[Info] Ignore this if it is a redundant power supply
Check 5 System State
Test01 Check System State PASSED
[Info] TopSystem State is : in-service
Check 8 Infra VLAN Check
Test01 Check if infra VLAN is received PASSED
[Info] Infra VLAN received is : 4093
Check 10 IS-IS Adj Info
Test01 check IS-IS adjacencies PASSED
[Info] IS-IS adjacencies found on interfaces:
[Info] eth1/54.30
[Info] eth1/51.31
[Info] eth1/53.32
Check 11 Reachability to APIC
Test01 Ping check to APIC FAILED
[Error] Ping to APIC IP 198.51.100.1 from 198.51.100.64 with MTU 1450 failed.
此示例非常有用,因为它显示了真实的混合结果 — 节点处于服务中且具有交换矩阵邻接,但是当一个冗余PSU关闭时,控制器可达性仍然失败。您必须根据上下文来解释每个故障,而不是将每个故障行都视为同等严重。
本部分使用模块化主干交换机。输出结构与固定枝叶不同,因为您必须分别评估线卡、交换矩阵模块、管理引擎和系统控制器。
spine-A# show version
Software
BIOS: version 05.53
kickstart: version 16.1(3f) [build 16.1(3f)]
system: version 16.1(3f) [build 16.1(3f)]
PE: version 6.1(3f)
kickstart image file is: /bootflash/aci-n9000-dk9.16.1.3f-cs_64.bin <--- modular spine image
system image file is: /bootflash/auto-s
Hardware
cisco N9K-SUP-A+ ("supervisor")
Device name: spine-A
Last reset at 983000 usecs after Wed Mar 11 17:31:09 2026 JST
Reason: reset-requested-by-cli-command-reload
运行此命令以验证机箱中的每个硬件平面。
spine-A# show module Mod Ports Module-Type Model Status --- ----- ----------------------------------- ------------------ ---------- 1 32 32p 40/100G Ethernet Module N9K-X9732C-EX ok 2 32 32p 40/100G Ethernet Module N9K-X9732C-EX ok 3 36 36p 40/100G Ethernet Module N9K-X9736C-FX ok 22 0 Fabric Module N9K-C9504-FM-E ok 23 0 Fabric Module N9K-C9504-FM-E ok 24 0 Fabric Module N9K-C9504-FM-E ok 26 0 Fabric Module N9K-C9504-FM-E ok 27 0 Supervisor Module N9K-SUP-A+ active 28 0 Supervisor Module N9K-SUP-A+ standby 29 0 System Controller N9K-SC-A standby 30 0 System Controller N9K-SC-A active Mod Online Diag Status --- ------------------ 1 pass 2 pass 3 pass 22 pass 23 pass 24 pass 26 pass 27 pass 28 pass 29 pass 30 pass
看起来不错:线卡、交换矩阵模块、管理引擎和系统控制器均存在,并且诊断通过通过。
不好的看起来是:交换矩阵模块丢失或不正常、管理引擎故障转移异常或任何失败的模块诊断。
spine-A# show environment Power Supply: Supply Model Output Capacity Status 1 N9K-PAC-3000W-B 1031 W 3000 W ok 2 N9K-PAC-3000W-B 0 W 3000 W shut 3 N9K-PAC-3000W-B 992 W 3000 W ok 4 ------------ N/A W 0 W Absent Power Usage Summary: Power Supply redundancy mode (operational) Non-Redundant(combined) Total Power Output (actual draw) 1523 W Total Power Available for additional modules 1793 W Fan: Fan1(sys_fan1) N9K-C9504-FAN Status: ok Fan2(sys_fan2) N9K-C9504-FAN Status: ok Fan3(sys_fan3) N9K-C9504-FAN Status: ok Fan4(sys_fan4) N9K-C9504-FAN Status: ok Fan5(sys_fan5) N9K-C9504-FAN Status: ok Fan6(sys_fan6) N9K-C9504-FAN Status: ok Temperature: 1 ATOM processor(1) 32 normal 3 Homewood instance 2(3) 78 normal 22 LAC instance 1(2) 70 normal 27 x86 processor(4) 36 normal
此输出是机箱正常运行的良好示例,即使一个PSU已关闭,而另一个插槽为Absent。配置的冗余模式解释了机箱仍然运行的原因。
spine-A# show diagnostic result module all Current bootup diagnostic level: bypass Module 1: 32p 40/100G Ethernet Module 1) bios-mem-----------------------> . 9) mvl4p-eobc-snake---------------> . 39) lcfc-conn----------------------> . 43) tahoe-mem----------------------> . Module 22: Fabric Module 10) mvl10p-snake-------------------> . 42) fclc-conn----------------------> . 43) tahoe-mem----------------------> . Module 27: Supervisor Module (Active) 24) ssd-acc------------------------> . 32) nvram-cksum--------------------> . 35) eobc-mon-----------------------> . Module 30: System Controller 11) bcm28p-snake-------------------> . 41) pcie-bus-----------------------> .
在模块化主干上,此命令的主要价值是广度。您可以确认线卡、交换矩阵模块和管理引擎都在单一视图中通过诊断。
验证交换机CLI基线后,请转到APIC以将节点与活动故障对象和历史故障对象相关联。这是确定交换机问题是隔离的、与策略相关的、环境问题还是已清除的最快方法。
apic-A# show version Role Pod Node Name Version ---------- --- ---- --------- ----------- controller 1 1 apic-A 6.1(3f) controller 1 2 apic-B 6.1(3f) controller 1 3 apic-C 6.1(3f) leaf 1 101 leaf-A n9000-16.1(3f) spine 1 201 spine-A n9000-16.1(3f)
在假定软件不匹配之前,使用此命令验证控制器和交换机之间的版本一致性。
apic-A# show faults leaf 101
Code : F0532
Severity : critical
Lifecycle : raised
DN : topology/pod-1/node-101/sys/phys-[eth1/11]/phys/fault-F0532
Description : Port is down, reason being Link Not Connected(Connected),
used by EPG on node 101 with hostname leaf-A
Code : F1451
Severity : minor
Lifecycle : raised
DN : topology/pod-1/node-101/sys/ch/psuslot-1/psu/fault-F1451
Description : Power supply shutdown.
Code : F1699
Severity : warning
Lifecycle : raised
DN : topology/pod-1/node-101/sys/time/prov-198.51.100.10/status/fault-F1699
Description : NTP configuration on Leaf leaf-A is not synced to NTP server
此输出非常有用,因为它会立即分离三个域 — 由EPG使用的接入端口、PSU状态和时间同步。
apic-A# show faults history leaf 101 ID : 8589940065 Description : Port is down, reason:Link Not Connected(Connected), used by:Fabric Severity : minor Code : F1394 Action : modification Life Cycle : raised ID : 8589940026 Description : TCA: ingress drop packets rate value 233 raised above threshold 200 Severity : warning Code : F112128 Action : creation ID : 8589939383 Description : BGP peer is not established, current state Idle Severity : cleared Code : F0299 Action : deletion
使用历史记录视图可将活动问题与已恢复的瞬态事件区分开来。
apic-A# moquery -c topSystem -f 'top.System.name=="spine-A"' # top.System dn : topology/pod-1/node-201/sys name : spine-A role : spine state : in-service oobMgmtAddr : 198.51.100.201 version : n9000-16.1(3f)
使用此查询可确认节点的APIC视图是否与您正在故障排除的交换机匹配。
问题:show environment或show discoveryissues报告PSU处于关闭状态。
运行检查:将PSU状态与同一输出中配置的和运行的冗余模式进行比较。
根本原因:在许多实验室和非冗余部署中,一个PSU被故意闲置。
解决方案:除非活动PSU降级或冗余模式与设计意图不匹配,否则将输出视为信息输出。
问题:show discoveryissues将节点显示为服务中,但APIC ping检查失败。
配置检查:验证管理和基础设施连通性设计,包括测试使用的面向APIC的路径。
运行检查:确认节点的IS-IS邻接关系、VLAN基础设施部署和活动APIC端故障。
根本原因:节点可以具有足够的基本交换矩阵状态以加入,同时仍显示控制器可达性或策略下载边缘案例。
解决方案:使用APIC故障视图和节点管理配置来隔离故障是管理路径相关的、隧道相关的还是策略相关的。
收集技术支持并在出现以下一种或多种情况时上报:
| 版本 | 发布日期 | 备注 |
|---|---|---|
1.0 |
12-Jun-2026
|
初始版本 |