Este documento descreve a solução de problemas de leaf e spine da Cisco ACI, incluindo uma tabela de triagem, verificações específicas do switch e correlação do lado do APIC.
Você pode solucionar a maioria dos problemas de switch da ACI mais rapidamente ao usar uma sequência de comandos ordenada, em vez de pular diretamente para comandos internos profundos. Comece com verificações de linha de base de software e hardware, continue com os diagnósticos e o estado ambiental e depois correlacione os problemas de switch ativo no APIC antes de passar para os comandos específicos de recursos.
| Meta |
Comando |
O que procurar |
O que fazer em seguida |
|---|---|---|---|
| Confirmar modo e versão da ACI |
show version |
Imagem inicial inicial da ACI, versão esperada, razão de reinicialização segura |
Se o switch não estiver no modo ACI, pare e corrija a imagem de inicialização primeiro. |
| Verificar a integridade do módulo |
show module |
Os módulos são 'ok' e o diagnóstico online é 'aprovado' |
Se algum módulo ativo não estiver 'ok' ou o diagnóstico falhar, trate-o primeiro como um problema de hardware. |
| Verifique o estado térmico, de energia e do ventilador |
show environment |
As PSUs operacionais são 'ok', o estado do ventilador é 'ok', as temperaturas são 'normais' |
Se a única anomalia for uma PSU redundante no estado "shut" (desligado), verifique a intenção do projeto antes de escalar. |
| Verificar resultados de diagnóstico |
show diagnostic result module all |
Os testes mostram '.' para passar pelos módulos ativos |
Se algum teste for 'F', 'A' ou 'I', correlacione com módulo e saída de falha. |
| Verificar a linha de base da descoberta e da malha |
show discovery issues |
Verificações de estado do sistema, adjacência, infra VLAN e download de política |
Se as verificações de detecção falharem, corrija a conectividade de linha de base antes de solucionar problemas de locatários ou roteamento. |
| Correlacionar no APIC |
show faults leaf <node-id> ou show faults history leaf <node-id> |
Código de falha, gravidade e DN afetado |
Use a exibição do APIC para separar sintomas ativos de eventos históricos já limpos. |
Antes de interpretar o estado do tempo de execução, verifique se o nó foi descoberto, registrado e está executando o software do modo ACI. Para verificações de integração de switch e detecção de linha de base, use oshow discoveryissuescomando incorporado e confirme se o APIC relata o nó como em serviço.
leaf-A# show version
Software
BIOS: version 05.53
kickstart: version 16.1(3f) [build 16.1(3f)]
system: version 16.1(3f) [build 16.1(3f)]
PE: version 6.1(3f)
kickstart image file is: /bootflash/aci-n9000-dk9.16.1.3f.bin <--- ACI mode indicator
system image file is: /bootflash/auto-s
Hardware
cisco N9K-C93108TC-FX ("supervisor")
Device name: leaf-A
Last reset at 241000 usecs after Wed Mar 11 17:28:38 2026 JST
Reason: reset-requested-by-cli-command-reload
O que parece bom: As linhas Kickstart e system estão presentes, a imagem kickstart começa com 'aci-n9000' e o motivo da reinicialização é explicável.
Qual é a aparência ruim: A saída mostra um arquivo de imagem NXOS autônomo sem início rápido da ACI ou linhas de sistema.
Esta seção usa um switch leaf de formato fixo como a linha de base. A saída é baseada em uma folha de ACI ao vivo e reflete condições saudáveis e degradadas que são úteis durante a triagem.
Execute este comando para verificar o nível do software, o modo da imagem, o tempo de atividade e o motivo da última reinicialização.
leaf-A# show version
Software
BIOS: version 05.53
kickstart: version 16.1(3f) [build 16.1(3f)]
system: version 16.1(3f) [build 16.1(3f)]
PE: version 6.1(3f)
kickstart image file is: /bootflash/aci-n9000-dk9.16.1.3f.bin
system image file is: /bootflash/auto-s
Hardware
cisco N9K-C93108TC-FX ("supervisor")
Device name: leaf-A
Kernel uptime is 29 day(s), 19 hour(s), 52 minute(s), 45 second(s)
Last reset at 241000 usecs after Wed Mar 11 17:28:38 2026 JST
Reason: reset-requested-by-cli-command-reload
Service: PolicyElem Ch reload
Execute este comando para verificar o estado da placa de linha e o resultado do diagnóstico online no nível do módulo.
leaf-A# show module Mod Ports Module-Type Model Status --- ----- ----------------------------------- ------------------ ---------- 1 54 48x10G+6x40/100G Switch N9K-C93108TC-FX ok Mod Online Diag Status --- ------------------ 1 pass <--- basic diagnostic baseline
O que parece bom: O módulo ativo está ok e o estado de diagnóstico online é pass.
Qual é a aparência ruim: O estado do módulo não é ok ou o estado de diagnóstico não é pass.
Execute este comando para verificar a PSU, o ventilador e o estado térmico.
leaf-A# show environment Power Supply: Supply Model Output Capacity Status 1 NXA-PAC-500W-PE 0 W 500 W shut <--- redundant PSU not in use 2 NXA-PAC-500W-PE 219 W 500 W ok Fan: Fan1(sys_fan1) NXA-FAN-30CFM-F Status: ok Fan2(sys_fan2) NXA-FAN-30CFM-F Status: ok Fan3(sys_fan3) NXA-FAN-30CFM-F Status: ok Fan4(sys_fan4) NXA-FAN-30CFM-F Status: ok Temperature: 1 Inlet(1) 37 normal 1 outlet(2) 38 normal 1 x86 processor(3) 71 normal 1 Homewood(4) 56 normal
O que parece bom: A PSU ativa está ok, os ventiladores estão ok e as temperaturas estão normais.
Qual é a aparência ruim: Uma PSU operacional falhou, o status do ventilador não está ok ou qualquer sensor térmico não está normal.
Execute este comando para validar os testes de diagnóstico on-line reais, não apenas o campo de resumo em show module.
leaf-A# show diagnostic result module all Current bootup diagnostic level: bypass Module 1: 48x10G (Active) Test results: (. = Pass, F = Fail, I = Incomplete, U = Untested, A = Abort, E = Error disabled) 1) bios-mem-----------------------> . 2) mgmtp-lb-----------------------> . 22) cpu-cache----------------------> . 23) mem-health---------------------> . 24) ssd-acc------------------------> . 33) fpga-reg-chk-------------------> . 43) tahoe-mem----------------------> .
O que parece bom: Todos os testes obrigatórios mostram '.'.
Qual é a aparência ruim: Qualquer resultado F, I ou A para hardware ativo.
Execute este comando para validar a integração, a adjacência, a infra VLAN e a acessibilidade do controlador. Este é um dos comandos de primeira passagem mais úteis para switches leaf.
leaf-A# show discoveryissues
Check 3 HW Modules Check
Test01 Fans status check PASSED
Test02 Power Supply status check FAILED
[Warn] Operational state of sys/ch/psuslot-1/psu is: shut
[Info] Ignore this if it is a redundant power supply
Check 5 System State
Test01 Check System State PASSED
[Info] TopSystem State is : in-service
Check 8 Infra VLAN Check
Test01 Check if infra VLAN is received PASSED
[Info] Infra VLAN received is : 4093
Check 10 IS-IS Adj Info
Test01 check IS-IS adjacencies PASSED
[Info] IS-IS adjacencies found on interfaces:
[Info] eth1/54.30
[Info] eth1/51.31
[Info] eth1/53.32
Check 11 Reachability to APIC
Test01 Ping check to APIC FAILED
[Error] Ping to APIC IP 198.51.100.1 from 198.51.100.64 with MTU 1450 failed.
Este exemplo é útil porque mostra um resultado misto realista - o nó está em serviço e tem adjacências de estrutura, mas a acessibilidade do controlador ainda falha enquanto uma PSU redundante é fechada. Você deve interpretar cada falha no contexto em vez de tratar cada linha com falha como igualmente severa.
Esta seção usa um switch spine modular. A estrutura da saída é diferente de uma folha fixa porque você deve avaliar placas de linha, módulos de estrutura, supervisores e controladores de sistema separadamente.
spine-A# show version
Software
BIOS: version 05.53
kickstart: version 16.1(3f) [build 16.1(3f)]
system: version 16.1(3f) [build 16.1(3f)]
PE: version 6.1(3f)
kickstart image file is: /bootflash/aci-n9000-dk9.16.1.3f-cs_64.bin <--- modular spine image
system image file is: /bootflash/auto-s
Hardware
cisco N9K-SUP-A+ ("supervisor")
Device name: spine-A
Last reset at 983000 usecs after Wed Mar 11 17:31:09 2026 JST
Reason: reset-requested-by-cli-command-reload
Execute este comando para verificar cada plano de hardware no chassi.
spine-A# show module Mod Ports Module-Type Model Status --- ----- ----------------------------------- ------------------ ---------- 1 32 32p 40/100G Ethernet Module N9K-X9732C-EX ok 2 32 32p 40/100G Ethernet Module N9K-X9732C-EX ok 3 36 36p 40/100G Ethernet Module N9K-X9736C-FX ok 22 0 Fabric Module N9K-C9504-FM-E ok 23 0 Fabric Module N9K-C9504-FM-E ok 24 0 Fabric Module N9K-C9504-FM-E ok 26 0 Fabric Module N9K-C9504-FM-E ok 27 0 Supervisor Module N9K-SUP-A+ active 28 0 Supervisor Module N9K-SUP-A+ standby 29 0 System Controller N9K-SC-A standby 30 0 System Controller N9K-SC-A active Mod Online Diag Status --- ------------------ 1 pass 2 pass 3 pass 22 pass 23 pass 24 pass 26 pass 27 pass 28 pass 29 pass 30 pass
O que parece bom: Placas de linha, módulos de estrutura, supervisores e controladores de sistema estão todos presentes e os diagnósticos são aprovados.
Qual é a aparência ruim: Módulos de estrutura ausentes ou não ok, anomalias de failover do supervisor ou qualquer diagnóstico de módulo com falha.
spine-A# show environment Power Supply: Supply Model Output Capacity Status 1 N9K-PAC-3000W-B 1031 W 3000 W ok 2 N9K-PAC-3000W-B 0 W 3000 W shut 3 N9K-PAC-3000W-B 992 W 3000 W ok 4 ------------ N/A W 0 W Absent Power Usage Summary: Power Supply redundancy mode (operational) Non-Redundant(combined) Total Power Output (actual draw) 1523 W Total Power Available for additional modules 1793 W Fan: Fan1(sys_fan1) N9K-C9504-FAN Status: ok Fan2(sys_fan2) N9K-C9504-FAN Status: ok Fan3(sys_fan3) N9K-C9504-FAN Status: ok Fan4(sys_fan4) N9K-C9504-FAN Status: ok Fan5(sys_fan5) N9K-C9504-FAN Status: ok Fan6(sys_fan6) N9K-C9504-FAN Status: ok Temperature: 1 ATOM processor(1) 32 normal 3 Homewood instance 2(3) 78 normal 22 LAC instance 1(2) 70 normal 27 x86 processor(4) 36 normal
Essa saída é um bom exemplo de um chassi que está íntegro, embora uma PSU esteja fechada e outro slot esteja Ausente. O modo de redundância configurado explica por que o chassi ainda está operacional.
spine-A# show diagnostic result module all Current bootup diagnostic level: bypass Module 1: 32p 40/100G Ethernet Module 1) bios-mem-----------------------> . 9) mvl4p-eobc-snake---------------> . 39) lcfc-conn----------------------> . 43) tahoe-mem----------------------> . Module 22: Fabric Module 10) mvl10p-snake-------------------> . 42) fclc-conn----------------------> . 43) tahoe-mem----------------------> . Module 27: Supervisor Module (Active) 24) ssd-acc------------------------> . 32) nvram-cksum--------------------> . 35) eobc-mon-----------------------> . Module 30: System Controller 11) bcm28p-snake-------------------> . 41) pcie-bus-----------------------> .
Em um spine modular, o principal valor desse comando é a largura. Você pode confirmar que as placas de linha, os módulos de estrutura e os supervisores passam no diagnóstico em uma única visualização.
Depois de validar a linha de base da CLI do switch, vá para o APIC para correlacionar o nó com objetos de falha ativos e históricos. Essa é a maneira mais rápida de determinar se o problema do switch é isolado, relacionado a políticas, ambiental ou já resolvido.
apic-A# show version Role Pod Node Name Version ---------- --- ---- --------- ----------- controller 1 1 apic-A 6.1(3f) controller 1 2 apic-B 6.1(3f) controller 1 3 apic-C 6.1(3f) leaf 1 101 leaf-A n9000-16.1(3f) spine 1 201 spine-A n9000-16.1(3f)
Use este comando para verificar o alinhamento de versão entre controladores e switches antes de assumir uma incompatibilidade de software.
apic-A# show faults leaf 101
Code : F0532
Severity : critical
Lifecycle : raised
DN : topology/pod-1/node-101/sys/phys-[eth1/11]/phys/fault-F0532
Description : Port is down, reason being Link Not Connected(Connected),
used by EPG on node 101 with hostname leaf-A
Code : F1451
Severity : minor
Lifecycle : raised
DN : topology/pod-1/node-101/sys/ch/psuslot-1/psu/fault-F1451
Description : Power supply shutdown.
Code : F1699
Severity : warning
Lifecycle : raised
DN : topology/pod-1/node-101/sys/time/prov-198.51.100.10/status/fault-F1699
Description : NTP configuration on Leaf leaf-A is not synced to NTP server
Essa saída é útil porque separa imediatamente três domínios - portas de acesso usadas por EPGs, estado da PSU e sincronização de tempo.
apic-A# show faults history leaf 101 ID : 8589940065 Description : Port is down, reason:Link Not Connected(Connected), used by:Fabric Severity : minor Code : F1394 Action : modification Life Cycle : raised ID : 8589940026 Description : TCA: ingress drop packets rate value 233 raised above threshold 200 Severity : warning Code : F112128 Action : creation ID : 8589939383 Description : BGP peer is not established, current state Idle Severity : cleared Code : F0299 Action : deletion
Use a exibição do histórico para distinguir problemas ativos de eventos transitórios que já se recuperaram.
apic-A# moquery -c topSystem -f 'top.System.name=="spine-A"' # top.System dn : topology/pod-1/node-201/sys name : spine-A role : spine state : in-service oobMgmtAddr : 198.51.100.201 version : n9000-16.1(3f)
Use esta consulta para confirmar se a visualização APIC do nó corresponde ao switch que você está solucionando.
Problema: show environment ou show discovery issues relata uma PSU no estado shut.
Verificação operacional: Compare o estado da PSU com o modo de redundância operacional e configurado na mesma saída.
Causa raiz: Em muitas implantações de laboratório e não redundantes, uma PSU não é usada intencionalmente.
Solução: Trate a saída como informativa, a menos que a PSU ativa esteja degradada ou o modo de redundância não corresponda à intenção do design.
Problema: show discovery issues mostra o nó como em serviço, mas as verificações de ping do APIC falham.
Verificação de configuração: Verifique o gerenciamento e o projeto de acessibilidade da infraestrutura, incluindo o caminho voltado para o APIC usado pelo teste.
Verificação operacional: Confirme as adjacências IS-IS, a implantação de VLAN infra e as falhas do lado APIC ativo para o nó.
Causa raiz: O nó pode ter estado de malha de linha de base suficiente para ingressar enquanto ainda expõe a acessibilidade do controlador ou casos de borda de download de política.
Solução: Use a visualização de falhas do APIC e a configuração de gerenciamento de nós para isolar se a falha está relacionada ao caminho de gerenciamento, ao túnel ou à política.
Colete o suporte técnico e encaminhe-o quando uma ou mais destas condições existirem:
| Revisão | Data de publicação | Comentários |
|---|---|---|
1.0 |
12-Jun-2026
|
Versão inicial |