Questo documento descrive la risoluzione dei problemi relativi a foglie e spine di Cisco ACI, tra cui una tabella di valutazione, controlli specifici per lo switch e correlazione lato APIC.
La risoluzione della maggior parte dei problemi relativi agli switch ACI risulta più rapida quando si utilizza una sequenza di comandi ordinati anziché passare direttamente ai comandi interni complessi. Iniziare con i controlli di base di software e hardware, continuare con la diagnostica e lo stato dell'ambiente, quindi correlare i problemi attivi dello switch sull'APIC prima di passare a comandi specifici per ciascuna funzionalità.
| Obiettivo |
Comando |
Elementi da cercare |
Come procedere |
|---|---|---|---|
| Conferma modalità ACI e versione |
show version |
Immagine di avvio rapido ACI, rilascio previsto, motivo reimpostazione area autenticazione |
Se lo switch non è in modalità ACI, arrestare e correggere prima l'immagine d'avvio. |
| Verifica integrità modulo |
show module |
I moduli sono "ok" e la diagnostica online è "passata" |
Se un modulo attivo non è "ok" o la diagnostica non riesce, trattarlo come un problema hardware. |
| Verifica dello stato di alimentazione, ventola e temperatura |
mostra ambiente |
Le PSU operative sono "ok", lo stato della ventola è "ok", le temperature sono "normali" |
Se l'unica anomalia è rappresentata da una PSU ridondante nello stato di "chiusura", verificare le finalità di progetto prima di procedere all'escalation. |
| Verifica risultati diagnostici |
show diagnostic result module all |
I test mostrano '.' per passare attraverso i moduli attivi |
Se uno dei test è 'F', 'A' o 'I', eseguire la correlazione con l'output del modulo e dell'errore. |
| Verifica individuazione e linea di base fabric |
mostra problemi di individuazione |
Controlli dello stato del sistema, delle adiacenze, dell'infra VLAN e del download delle policy |
Se i controlli di individuazione hanno esito negativo, correggere la connettività della linea di base prima di risolvere i problemi dei tenant o del routing. |
| Correlazione sull'APIC |
show faults foglia <id-nodo> o show faults history foglia <id-nodo> |
Codice errore, gravità e DN interessato |
Usare la vista APIC per separare i sintomi attivi dagli eventi storici già cancellati. |
Prima di interpretare lo stato di runtime, verificare che il nodo sia stato individuato, registrato e che sia in esecuzione il software modalità ACI. Per i controlli di onboarding e di rilevamento della linea di base dello switch, utilizzare il comando predefinito e verificare che l'show discoveryissuesAPIC segnali il nodo come in servizio.
leaf-A# show version
Software
BIOS: version 05.53
kickstart: version 16.1(3f) [build 16.1(3f)]
system: version 16.1(3f) [build 16.1(3f)]
PE: version 6.1(3f)
kickstart image file is: /bootflash/aci-n9000-dk9.16.1.3f.bin <--- ACI mode indicator
system image file is: /bootflash/auto-s
Hardware
cisco N9K-C93108TC-FX ("supervisor")
Device name: leaf-A
Last reset at 241000 usecs after Wed Mar 11 17:28:38 2026 JST
Reason: reset-requested-by-cli-command-reload
Aspetto positivo: Sono presenti linee di Kickstart e di sistema, l'immagine di kickstart inizia con 'aci-n9000' e il motivo per il reset è spiegabile.
Aspetto negativo: L'output mostra un file di immagine NXOS standalone senza kickstart ACI o linee di sistema.
In questa sezione viene utilizzato come linea di base uno switch foglia a fattore di forma fisso. L'output si basa su una foglia ACI dal vivo e riflette sia le condizioni sane che quelle degradate che sono utili durante il triage.
Eseguire questo comando per verificare il livello del software, la modalità immagine, il tempo di attività e il motivo dell'ultima reimpostazione.
leaf-A# show version
Software
BIOS: version 05.53
kickstart: version 16.1(3f) [build 16.1(3f)]
system: version 16.1(3f) [build 16.1(3f)]
PE: version 6.1(3f)
kickstart image file is: /bootflash/aci-n9000-dk9.16.1.3f.bin
system image file is: /bootflash/auto-s
Hardware
cisco N9K-C93108TC-FX ("supervisor")
Device name: leaf-A
Kernel uptime is 29 day(s), 19 hour(s), 52 minute(s), 45 second(s)
Last reset at 241000 usecs after Wed Mar 11 17:28:38 2026 JST
Reason: reset-requested-by-cli-command-reload
Service: PolicyElem Ch reload
Eseguire questo comando per verificare lo stato della scheda di linea e il risultato della diagnostica online a livello di modulo.
leaf-A# show module Mod Ports Module-Type Model Status --- ----- ----------------------------------- ------------------ ---------- 1 54 48x10G+6x40/100G Switch N9K-C93108TC-FX ok Mod Online Diag Status --- ------------------ 1 pass <--- basic diagnostic baseline
Aspetto positivo: Il modulo attivo è ok e lo stato di diagnostica in linea è superato.
Aspetto negativo: Lo stato del modulo non è corretto o lo stato di diagnostica non è passato.
Eseguire questo comando per verificare lo stato di PSU, ventola e temperatura.
leaf-A# show environment Power Supply: Supply Model Output Capacity Status 1 NXA-PAC-500W-PE 0 W 500 W shut <--- redundant PSU not in use 2 NXA-PAC-500W-PE 219 W 500 W ok Fan: Fan1(sys_fan1) NXA-FAN-30CFM-F Status: ok Fan2(sys_fan2) NXA-FAN-30CFM-F Status: ok Fan3(sys_fan3) NXA-FAN-30CFM-F Status: ok Fan4(sys_fan4) NXA-FAN-30CFM-F Status: ok Temperature: 1 Inlet(1) 37 normal 1 outlet(2) 38 normal 1 x86 processor(3) 71 normal 1 Homewood(4) 56 normal
Aspetto positivo: La PSU attiva è ok, le ventole sono ok e le temperature sono normali.
Aspetto negativo: Una PSU funzionante è guasta, lo stato della ventola non è ok o qualsiasi sensore termico non è normale.
Eseguire questo comando per convalidare i test di diagnostica in linea effettivi, non solo il campo di riepilogo in show module.
leaf-A# show diagnostic result module all Current bootup diagnostic level: bypass Module 1: 48x10G (Active) Test results: (. = Pass, F = Fail, I = Incomplete, U = Untested, A = Abort, E = Error disabled) 1) bios-mem-----------------------> . 2) mgmtp-lb-----------------------> . 22) cpu-cache----------------------> . 23) mem-health---------------------> . 24) ssd-acc------------------------> . 33) fpga-reg-chk-------------------> . 43) tahoe-mem----------------------> .
Aspetto positivo: Tutti i test obbligatori mostrano '.'.
Aspetto negativo: Qualsiasi F, I o A risultato per l'hardware attivo.
Eseguire questo comando per verificare l'onboarding, le adiacenze, la VLAN a infrarossi e la raggiungibilità del controller. Questo è uno dei comandi di primo passaggio più utili per gli switch foglia.
leaf-A# show discoveryissues
Check 3 HW Modules Check
Test01 Fans status check PASSED
Test02 Power Supply status check FAILED
[Warn] Operational state of sys/ch/psuslot-1/psu is: shut
[Info] Ignore this if it is a redundant power supply
Check 5 System State
Test01 Check System State PASSED
[Info] TopSystem State is : in-service
Check 8 Infra VLAN Check
Test01 Check if infra VLAN is received PASSED
[Info] Infra VLAN received is : 4093
Check 10 IS-IS Adj Info
Test01 check IS-IS adjacencies PASSED
[Info] IS-IS adjacencies found on interfaces:
[Info] eth1/54.30
[Info] eth1/51.31
[Info] eth1/53.32
Check 11 Reachability to APIC
Test01 Ping check to APIC FAILED
[Error] Ping to APIC IP 198.51.100.1 from 198.51.100.64 with MTU 1450 failed.
Questo esempio è utile perché mostra un risultato realistico misto: il nodo è in servizio e presenta adiacenze di fabric, ma la raggiungibilità del controller continua a non riuscire mentre una PSU ridondante viene chiusa. È necessario interpretare ogni errore nel contesto anziché considerare ogni riga non riuscita come ugualmente grave.
Questa sezione utilizza un interruttore a dorso modulare. La struttura dell'output è diversa da una foglia fissa perché è necessario valutare separatamente schede di linea, moduli fabric, supervisori e controller di sistema.
spine-A# show version
Software
BIOS: version 05.53
kickstart: version 16.1(3f) [build 16.1(3f)]
system: version 16.1(3f) [build 16.1(3f)]
PE: version 6.1(3f)
kickstart image file is: /bootflash/aci-n9000-dk9.16.1.3f-cs_64.bin <--- modular spine image
system image file is: /bootflash/auto-s
Hardware
cisco N9K-SUP-A+ ("supervisor")
Device name: spine-A
Last reset at 983000 usecs after Wed Mar 11 17:31:09 2026 JST
Reason: reset-requested-by-cli-command-reload
Eseguire questo comando per verificare ogni piano hardware nello chassis.
spine-A# show module Mod Ports Module-Type Model Status --- ----- ----------------------------------- ------------------ ---------- 1 32 32p 40/100G Ethernet Module N9K-X9732C-EX ok 2 32 32p 40/100G Ethernet Module N9K-X9732C-EX ok 3 36 36p 40/100G Ethernet Module N9K-X9736C-FX ok 22 0 Fabric Module N9K-C9504-FM-E ok 23 0 Fabric Module N9K-C9504-FM-E ok 24 0 Fabric Module N9K-C9504-FM-E ok 26 0 Fabric Module N9K-C9504-FM-E ok 27 0 Supervisor Module N9K-SUP-A+ active 28 0 Supervisor Module N9K-SUP-A+ standby 29 0 System Controller N9K-SC-A standby 30 0 System Controller N9K-SC-A active Mod Online Diag Status --- ------------------ 1 pass 2 pass 3 pass 22 pass 23 pass 24 pass 26 pass 27 pass 28 pass 29 pass 30 pass
Aspetto positivo: Le schede di linea, i moduli fabric, i supervisori e i controller di sistema sono tutti presenti e la diagnostica è stata superata.
Aspetto negativo: Moduli fabric mancanti o non ok, anomalie di failover del supervisore o eventuali errori di diagnostica dei moduli.
spine-A# show environment Power Supply: Supply Model Output Capacity Status 1 N9K-PAC-3000W-B 1031 W 3000 W ok 2 N9K-PAC-3000W-B 0 W 3000 W shut 3 N9K-PAC-3000W-B 992 W 3000 W ok 4 ------------ N/A W 0 W Absent Power Usage Summary: Power Supply redundancy mode (operational) Non-Redundant(combined) Total Power Output (actual draw) 1523 W Total Power Available for additional modules 1793 W Fan: Fan1(sys_fan1) N9K-C9504-FAN Status: ok Fan2(sys_fan2) N9K-C9504-FAN Status: ok Fan3(sys_fan3) N9K-C9504-FAN Status: ok Fan4(sys_fan4) N9K-C9504-FAN Status: ok Fan5(sys_fan5) N9K-C9504-FAN Status: ok Fan6(sys_fan6) N9K-C9504-FAN Status: ok Temperature: 1 ATOM processor(1) 32 normal 3 Homewood instance 2(3) 78 normal 22 LAC instance 1(2) 70 normal 27 x86 processor(4) 36 normal
Questo output è un buon esempio di chassis che funziona bene anche se una PSU è chiusa e un altro slot è assente. La modalità di ridondanza configurata spiega perché lo chassis è ancora operativo.
spine-A# show diagnostic result module all Current bootup diagnostic level: bypass Module 1: 32p 40/100G Ethernet Module 1) bios-mem-----------------------> . 9) mvl4p-eobc-snake---------------> . 39) lcfc-conn----------------------> . 43) tahoe-mem----------------------> . Module 22: Fabric Module 10) mvl10p-snake-------------------> . 42) fclc-conn----------------------> . 43) tahoe-mem----------------------> . Module 27: Supervisor Module (Active) 24) ssd-acc------------------------> . 32) nvram-cksum--------------------> . 35) eobc-mon-----------------------> . Module 30: System Controller 11) bcm28p-snake-------------------> . 41) pcie-bus-----------------------> .
Su una direttrice modulare, il valore principale di questo comando è la larghezza. È possibile verificare che le schede di linea, i moduli fabric e i supervisori passino tutti la diagnostica in un'unica vista.
Dopo aver convalidato la linea di base CLI dello switch, passare all'APIC per correlare il nodo agli oggetti di errore attivi e cronologici. Questo è il modo più rapido per determinare se il problema dello switch è isolato, correlato alle politiche aziendali, ambientale o già risolto.
apic-A# show version Role Pod Node Name Version ---------- --- ---- --------- ----------- controller 1 1 apic-A 6.1(3f) controller 1 2 apic-B 6.1(3f) controller 1 3 apic-C 6.1(3f) leaf 1 101 leaf-A n9000-16.1(3f) spine 1 201 spine-A n9000-16.1(3f)
Usare questo comando per verificare l'allineamento tra i controller e gli switch prima di presumere una mancata corrispondenza del software.
apic-A# show faults leaf 101
Code : F0532
Severity : critical
Lifecycle : raised
DN : topology/pod-1/node-101/sys/phys-[eth1/11]/phys/fault-F0532
Description : Port is down, reason being Link Not Connected(Connected),
used by EPG on node 101 with hostname leaf-A
Code : F1451
Severity : minor
Lifecycle : raised
DN : topology/pod-1/node-101/sys/ch/psuslot-1/psu/fault-F1451
Description : Power supply shutdown.
Code : F1699
Severity : warning
Lifecycle : raised
DN : topology/pod-1/node-101/sys/time/prov-198.51.100.10/status/fault-F1699
Description : NTP configuration on Leaf leaf-A is not synced to NTP server
Questo output è utile perché separa immediatamente tre domini: le porte di accesso utilizzate da EPG, lo stato PSU e la sincronizzazione dell'ora.
apic-A# show faults history leaf 101 ID : 8589940065 Description : Port is down, reason:Link Not Connected(Connected), used by:Fabric Severity : minor Code : F1394 Action : modification Life Cycle : raised ID : 8589940026 Description : TCA: ingress drop packets rate value 233 raised above threshold 200 Severity : warning Code : F112128 Action : creation ID : 8589939383 Description : BGP peer is not established, current state Idle Severity : cleared Code : F0299 Action : deletion
Utilizzare la visualizzazione Cronologia per distinguere i problemi attivi dagli eventi temporanei già ripristinati.
apic-A# moquery -c topSystem -f 'top.System.name=="spine-A"' # top.System dn : topology/pod-1/node-201/sys name : spine-A role : spine state : in-service oobMgmtAddr : 198.51.100.201 version : n9000-16.1(3f)
Utilizzare questa query per verificare che la vista APIC del nodo corrisponda allo switch che si sta risolvendo.
Problema: mostra ambiente o mostra problemi di individuazione segnala una PSU nello stato di chiusura.
Controllo operativo: Confrontare lo stato della PSU con la modalità di ridondanza configurata e operativa nello stesso output.
Causa principale: In molte installazioni in laboratorio e non ridondanti, una PSU è intenzionalmente inutilizzata.
Soluzione: Trattare l'output come informativo a meno che la PSU attiva non sia danneggiata o la modalità di ridondanza non corrisponda alle finalità di progettazione.
Problema: show discoveryissues mostra il nodo come in servizio, ma i controlli ping APIC hanno esito negativo.
Controllo configurazione: Verificare la progettazione della gestione e della raggiungibilità dell'infrarosso, incluso il percorso rivolto verso l'APIC utilizzato dal test.
Controllo operativo: Confermare le adiacenze IS-IS, la distribuzione della VLAN a infrarossi e gli errori attivi sul lato APIC per il nodo.
Causa principale: Lo stato dell'infrastruttura di base del nodo può essere sufficiente per l'aggiunta del nodo durante l'esposizione della raggiungibilità del controller o dei casi perimetrali di download dei criteri.
Soluzione: Utilizzare la vista degli errori APIC e la configurazione di gestione dei nodi per isolare se l'errore è correlato al percorso di gestione, al tunnel o ai criteri.
Raccogli supporto tecnico ed esegui l'escalation quando si verifica una o più delle seguenti condizioni:
| Revisione | Data di pubblicazione | Commenti |
|---|---|---|
1.0 |
12-Jun-2026
|
Versione iniziale |