In diesem Dokument wird die Fehlerbehebung für das Leaf und den Spine der Cisco ACI mit Triage-Tabelle, Switch-spezifischen Prüfungen und APIC-seitiger Korrelation beschrieben.
Die meisten ACI-Switch-Probleme lassen sich schneller beheben, wenn Sie eine bestimmte Befehlssequenz verwenden, anstatt direkt in detaillierte interne Befehle zu springen. Beginnen Sie mit der Überprüfung der Software- und Hardware-Baseline, setzen Sie die Diagnose und den Umgebungsstatus fort, und korrelieren Sie dann aktive Switch-Probleme am APIC, bevor Sie zu funktionsspezifischen Befehlen übergehen.
| Ziel |
Command |
Zu suchende Elemente |
Nächste Schritte |
|---|---|---|---|
| ACI-Modus und -Version bestätigen |
show version |
ACI-Kickstart-Image, erwartete Version, Grund für gesundes Zurücksetzen |
Befindet sich der Switch nicht im ACI-Modus, stoppen Sie zunächst das Boot-Image, und korrigieren Sie es. |
| Überprüfung des Modulstatus |
show module |
Die Module sind "OK" und die Online-Diagnose ist "Bestanden". |
Wenn ein aktives Modul nicht in Ordnung ist oder die Diagnose fehlschlägt, behandeln Sie es zuerst als Hardwareproblem. |
| Überprüfen Sie die Stromversorgung, den Lüfterstatus und den thermischen Status. |
Show-Umgebung |
Betriebliche Netzteile sind in Ordnung, der Lüfterstatus ist in Ordnung, die Temperaturen sind normal. |
Wenn die einzige Anomalie ein redundantes Netzteil im "heruntergefahrenen" Zustand ist, überprüfen Sie vor der Eskalation die Designabsicht. |
| Überprüfung der Diagnoseergebnisse |
Diagnose-Ergebnismodul alle anzeigen |
Tests zeigen '.' für den Durchlauf über aktive Module |
Wenn ein Test 'F', 'A' oder 'I' ist, korrelieren Sie ihn mit Modul und Fehlerausgabe. |
| Überprüfung der Erkennung und Fabric-Baseline |
Discoveryprobleme anzeigen |
Prüfungen von Systemstatus, Adjacency, Infra-VLAN und Richtliniendownload |
Wenn die Erkennungsprüfungen fehlschlagen, reparieren Sie die Basisverbindungen, bevor Sie Probleme mit Tenants oder Routing beheben. |
| Korrelation mit dem APIC |
show faults leaf <node-id> or show faults history leaf <node-id> |
Fehlercode, Schweregrad und betroffene DN |
Trennen Sie aktive Symptome mithilfe der APIC-Ansicht von bereits gelöschten Ereignissen. |
Bevor Sie den Laufzeitstatus interpretieren, überprüfen Sie, ob der Knoten erkannt und registriert wird und ob die ACI-Modussoftware ausgeführt wird. Verwenden Sie für die Switch-Integration und die Baseline-Analyseprüfungen den integriertenshow discoveryissuesBefehl, und bestätigen Sie, dass der APIC den Knoten als in Betrieb meldet.
leaf-A# show version
Software
BIOS: version 05.53
kickstart: version 16.1(3f) [build 16.1(3f)]
system: version 16.1(3f) [build 16.1(3f)]
PE: version 6.1(3f)
kickstart image file is: /bootflash/aci-n9000-dk9.16.1.3f.bin <--- ACI mode indicator
system image file is: /bootflash/auto-s
Hardware
cisco N9K-C93108TC-FX ("supervisor")
Device name: leaf-A
Last reset at 241000 usecs after Wed Mar 11 17:28:38 2026 JST
Reason: reset-requested-by-cli-command-reload
Wie gut sieht es aus? Kickstart- und Systemzeilen sind vorhanden, das Kickstart-Bild beginnt mit 'aci-n9000' und der Grund für das Zurücksetzen ist erklärbar.
Wie schlecht sieht es aus? Die Ausgabe zeigt eine Standalone-NXOS-Bilddatei ohne ACI-Kickstart oder Systemzeilen.
In diesem Abschnitt wird ein Leaf-Switch mit festem Formfaktor als Baseline verwendet. Die Ausgabe basiert auf einem Live-ACI-Leaf und zeigt sowohl fehlerfreie als auch verschlechterte Bedingungen an, die während der Triage von Nutzen sind.
Führen Sie diesen Befehl aus, um die Softwareebene, den Image-Modus, die Verfügbarkeit und den Grund für das letzte Zurücksetzen zu überprüfen.
leaf-A# show version
Software
BIOS: version 05.53
kickstart: version 16.1(3f) [build 16.1(3f)]
system: version 16.1(3f) [build 16.1(3f)]
PE: version 6.1(3f)
kickstart image file is: /bootflash/aci-n9000-dk9.16.1.3f.bin
system image file is: /bootflash/auto-s
Hardware
cisco N9K-C93108TC-FX ("supervisor")
Device name: leaf-A
Kernel uptime is 29 day(s), 19 hour(s), 52 minute(s), 45 second(s)
Last reset at 241000 usecs after Wed Mar 11 17:28:38 2026 JST
Reason: reset-requested-by-cli-command-reload
Service: PolicyElem Ch reload
Führen Sie diesen Befehl aus, um den Linecard-Status und das Online-Diagnoseergebnis auf Modulebene zu überprüfen.
leaf-A# show module Mod Ports Module-Type Model Status --- ----- ----------------------------------- ------------------ ---------- 1 54 48x10G+6x40/100G Switch N9K-C93108TC-FX ok Mod Online Diag Status --- ------------------ 1 pass <--- basic diagnostic baseline
Wie gut sieht es aus? Das aktive Modul ist in Ordnung, und der Online-Diagnosezustand ist erfolgreich.
Wie schlecht sieht es aus? Der Modulstatus ist nicht ok, oder der Diagnosestatus ist nicht erfolgreich.
Führen Sie diesen Befehl aus, um den Netzteil-, Lüfter- und Temperaturzustand zu überprüfen.
leaf-A# show environment Power Supply: Supply Model Output Capacity Status 1 NXA-PAC-500W-PE 0 W 500 W shut <--- redundant PSU not in use 2 NXA-PAC-500W-PE 219 W 500 W ok Fan: Fan1(sys_fan1) NXA-FAN-30CFM-F Status: ok Fan2(sys_fan2) NXA-FAN-30CFM-F Status: ok Fan3(sys_fan3) NXA-FAN-30CFM-F Status: ok Fan4(sys_fan4) NXA-FAN-30CFM-F Status: ok Temperature: 1 Inlet(1) 37 normal 1 outlet(2) 38 normal 1 x86 processor(3) 71 normal 1 Homewood(4) 56 normal
Wie gut sieht es aus? Das aktive Netzteil ist in Ordnung, die Lüfter sind in Ordnung, und die Temperaturen sind normal.
Wie schlecht sieht es aus? Ein funktionierendes Netzteil ist ausgefallen, der Lüfterstatus ist nicht ok, oder ein Temperatursensor ist nicht normal.
Führen Sie diesen Befehl aus, um die tatsächlichen Online-Diagnosetests zu validieren, und nicht nur das Zusammenfassungsfeld im Modul show.
leaf-A# show diagnostic result module all Current bootup diagnostic level: bypass Module 1: 48x10G (Active) Test results: (. = Pass, F = Fail, I = Incomplete, U = Untested, A = Abort, E = Error disabled) 1) bios-mem-----------------------> . 2) mgmtp-lb-----------------------> . 22) cpu-cache----------------------> . 23) mem-health---------------------> . 24) ssd-acc------------------------> . 33) fpga-reg-chk-------------------> . 43) tahoe-mem----------------------> .
Wie gut sieht es aus? Alle erforderlichen Tests zeigen '.' an.
Wie schlecht sieht es aus? Beliebiges F-, I- oder A-Ergebnis für aktive Hardware.
Führen Sie diesen Befehl aus, um die Verfügbarkeit von Onboarding, Adjacency, Infra-VLAN und Controller zu überprüfen. Dies ist einer der hilfreichsten Befehle für Leaf-Switches.
leaf-A# show discoveryissues
Check 3 HW Modules Check
Test01 Fans status check PASSED
Test02 Power Supply status check FAILED
[Warn] Operational state of sys/ch/psuslot-1/psu is: shut
[Info] Ignore this if it is a redundant power supply
Check 5 System State
Test01 Check System State PASSED
[Info] TopSystem State is : in-service
Check 8 Infra VLAN Check
Test01 Check if infra VLAN is received PASSED
[Info] Infra VLAN received is : 4093
Check 10 IS-IS Adj Info
Test01 check IS-IS adjacencies PASSED
[Info] IS-IS adjacencies found on interfaces:
[Info] eth1/54.30
[Info] eth1/51.31
[Info] eth1/53.32
Check 11 Reachability to APIC
Test01 Ping check to APIC FAILED
[Error] Ping to APIC IP 198.51.100.1 from 198.51.100.64 with MTU 1450 failed.
Dieses Beispiel ist nützlich, da es ein realistisches gemischtes Ergebnis zeigt: Der Knoten ist in Betrieb und verfügt über Fabric-Nachbarschaften, aber die Erreichbarkeit des Controllers ist immer noch nicht gewährleistet, während ein redundantes Netzteil ausgeschaltet ist. Sie müssen jeden Fehler im Kontext interpretieren, anstatt jede fehlerhafte Zeile als gleich schwerwiegend zu behandeln.
In diesem Abschnitt wird ein modularer Spine-Switch verwendet. Die Ausgabestruktur unterscheidet sich von der eines festen Leafs, da Linecards, Fabric-Module, Supervisoren und System-Controller separat evaluiert werden müssen.
spine-A# show version
Software
BIOS: version 05.53
kickstart: version 16.1(3f) [build 16.1(3f)]
system: version 16.1(3f) [build 16.1(3f)]
PE: version 6.1(3f)
kickstart image file is: /bootflash/aci-n9000-dk9.16.1.3f-cs_64.bin <--- modular spine image
system image file is: /bootflash/auto-s
Hardware
cisco N9K-SUP-A+ ("supervisor")
Device name: spine-A
Last reset at 983000 usecs after Wed Mar 11 17:31:09 2026 JST
Reason: reset-requested-by-cli-command-reload
Führen Sie diesen Befehl aus, um jede Hardwareebene im Chassis zu überprüfen.
spine-A# show module Mod Ports Module-Type Model Status --- ----- ----------------------------------- ------------------ ---------- 1 32 32p 40/100G Ethernet Module N9K-X9732C-EX ok 2 32 32p 40/100G Ethernet Module N9K-X9732C-EX ok 3 36 36p 40/100G Ethernet Module N9K-X9736C-FX ok 22 0 Fabric Module N9K-C9504-FM-E ok 23 0 Fabric Module N9K-C9504-FM-E ok 24 0 Fabric Module N9K-C9504-FM-E ok 26 0 Fabric Module N9K-C9504-FM-E ok 27 0 Supervisor Module N9K-SUP-A+ active 28 0 Supervisor Module N9K-SUP-A+ standby 29 0 System Controller N9K-SC-A standby 30 0 System Controller N9K-SC-A active Mod Online Diag Status --- ------------------ 1 pass 2 pass 3 pass 22 pass 23 pass 24 pass 26 pass 27 pass 28 pass 29 pass 30 pass
Wie gut sieht es aus? Line Cards, Fabric-Module, Supervisoren und System-Controller sind vorhanden, und die Diagnose verläuft erfolgreich.
Wie schlecht sieht es aus? Fehlende oder nicht funktionierende Fabric-Module, Supervisor-Failover-Anomalien oder fehlerhafte Moduldiagnosen.
spine-A# show environment Power Supply: Supply Model Output Capacity Status 1 N9K-PAC-3000W-B 1031 W 3000 W ok 2 N9K-PAC-3000W-B 0 W 3000 W shut 3 N9K-PAC-3000W-B 992 W 3000 W ok 4 ------------ N/A W 0 W Absent Power Usage Summary: Power Supply redundancy mode (operational) Non-Redundant(combined) Total Power Output (actual draw) 1523 W Total Power Available for additional modules 1793 W Fan: Fan1(sys_fan1) N9K-C9504-FAN Status: ok Fan2(sys_fan2) N9K-C9504-FAN Status: ok Fan3(sys_fan3) N9K-C9504-FAN Status: ok Fan4(sys_fan4) N9K-C9504-FAN Status: ok Fan5(sys_fan5) N9K-C9504-FAN Status: ok Fan6(sys_fan6) N9K-C9504-FAN Status: ok Temperature: 1 ATOM processor(1) 32 normal 3 Homewood instance 2(3) 78 normal 22 LAC instance 1(2) 70 normal 27 x86 processor(4) 36 normal
Diese Ausgabe ist ein gutes Beispiel für ein fehlerfreies Chassis, obwohl ein Netzteil ausgeschaltet ist und ein anderer Steckplatz fehlt. Der konfigurierte Redundanzmodus erklärt, warum das Chassis noch betriebsbereit ist.
spine-A# show diagnostic result module all Current bootup diagnostic level: bypass Module 1: 32p 40/100G Ethernet Module 1) bios-mem-----------------------> . 9) mvl4p-eobc-snake---------------> . 39) lcfc-conn----------------------> . 43) tahoe-mem----------------------> . Module 22: Fabric Module 10) mvl10p-snake-------------------> . 42) fclc-conn----------------------> . 43) tahoe-mem----------------------> . Module 27: Supervisor Module (Active) 24) ssd-acc------------------------> . 32) nvram-cksum--------------------> . 35) eobc-mon-----------------------> . Module 30: System Controller 11) bcm28p-snake-------------------> . 41) pcie-bus-----------------------> .
Auf einem modularen Spine ist der Hauptwert dieses Befehls die Breite. Sie können bestätigen, dass alle Linecards, Fabric-Module und Supervisoren die Diagnose in einer einzigen Ansicht bestehen.
Nachdem Sie die Switch-CLI-Baseline validiert haben, wechseln Sie zum APIC, um den Knoten mit aktiven und historischen Fehlerobjekten zu korrelieren. Dies ist die schnellste Möglichkeit, festzustellen, ob das Switch-Problem isoliert, richtlinienbezogen, in der Umgebung oder bereits behoben ist.
apic-A# show version Role Pod Node Name Version ---------- --- ---- --------- ----------- controller 1 1 apic-A 6.1(3f) controller 1 2 apic-B 6.1(3f) controller 1 3 apic-C 6.1(3f) leaf 1 101 leaf-A n9000-16.1(3f) spine 1 201 spine-A n9000-16.1(3f)
Verwenden Sie diesen Befehl, um die Versionsausrichtung zwischen Controllern und Switches zu überprüfen, bevor Sie eine Softwareinkongruenz annehmen.
apic-A# show faults leaf 101
Code : F0532
Severity : critical
Lifecycle : raised
DN : topology/pod-1/node-101/sys/phys-[eth1/11]/phys/fault-F0532
Description : Port is down, reason being Link Not Connected(Connected),
used by EPG on node 101 with hostname leaf-A
Code : F1451
Severity : minor
Lifecycle : raised
DN : topology/pod-1/node-101/sys/ch/psuslot-1/psu/fault-F1451
Description : Power supply shutdown.
Code : F1699
Severity : warning
Lifecycle : raised
DN : topology/pod-1/node-101/sys/time/prov-198.51.100.10/status/fault-F1699
Description : NTP configuration on Leaf leaf-A is not synced to NTP server
Diese Ausgabe ist nützlich, da sie sofort drei Domänen trennt: die von EPGs verwendeten Access-Ports, den PSU-Status und die Zeitsynchronisierung.
apic-A# show faults history leaf 101 ID : 8589940065 Description : Port is down, reason:Link Not Connected(Connected), used by:Fabric Severity : minor Code : F1394 Action : modification Life Cycle : raised ID : 8589940026 Description : TCA: ingress drop packets rate value 233 raised above threshold 200 Severity : warning Code : F112128 Action : creation ID : 8589939383 Description : BGP peer is not established, current state Idle Severity : cleared Code : F0299 Action : deletion
Verwenden Sie die Verlaufsansicht, um aktive Probleme von vorübergehenden Ereignissen zu unterscheiden, die bereits wiederhergestellt sind.
apic-A# moquery -c topSystem -f 'top.System.name=="spine-A"' # top.System dn : topology/pod-1/node-201/sys name : spine-A role : spine state : in-service oobMgmtAddr : 198.51.100.201 version : n9000-16.1(3f)
Verwenden Sie diese Abfrage, um sicherzustellen, dass die APIC-Ansicht des Knotens mit dem Switch übereinstimmt, für den Sie eine Fehlerbehebung durchführen.
Problem: Umgebung anzeigen oder Entdeckungsprobleme melden, wenn ein Netzteil heruntergefahren ist.
Betriebsprüfung: Vergleichen Sie den PSU-Status mit dem konfigurierten und betriebsbereiten Redundanzmodus in der gleichen Ausgabe.
Ursache: In vielen Lab- und nicht redundanten Bereitstellungen wird ein Netzteil absichtlich nicht verwendet.
Lösung: Behandeln Sie die Ausgabe als informativ, es sei denn, das aktive Netzteil ist beeinträchtigt oder der Redundanzmodus stimmt nicht mit der Designabsicht überein.
Problem: show discoveryIssues zeigt an, dass der Knoten in Betrieb ist, die APIC-Ping-Prüfungen jedoch fehlschlagen.
Konfigurationsprüfung: Überprüfung des Designs für das Management und die Infraroterreichbarkeit, einschließlich des APIC-seitigen Pfads, der für den Test verwendet wurde
Betriebsprüfung: Bestätigung der IS-IS-Nachbarschaft, der Infra-VLAN-Bereitstellung und der Fehler auf der Seite des aktiven APIC für den Knoten
Ursache: Der Knoten kann über ausreichend grundlegenden Fabric-Zustand verfügen, um sich anzuschließen, während gleichzeitig die Erreichbarkeit des Controllers oder die Möglichkeit zum Herunterladen von Richtlinien für Edge-Fälle gegeben ist.
Lösung: Verwenden Sie die APIC-Fehleransicht und die Konfiguration für das Knotenmanagement, um festzustellen, ob der Ausfall den Managementpfad, den Tunnel oder die Richtlinie betrifft.
Erfassung von technischem Support und Eskalation, wenn eine oder mehrere der folgenden Bedingungen vorliegen:
| Überarbeitung | Veröffentlichungsdatum | Kommentare |
|---|---|---|
1.0 |
12-Jun-2026
|
Erstveröffentlichung |