Introduzione
In questo documento viene fornita una panoramica degli switch Cisco Nexus serie 7000 con software NX-OS e vengono descritte le soluzioni ai problemi più comuni relativi all'hardware e all'architettura.
Nota: Il formato esatto del syslog e dei messaggi di errore descritti nel presente documento può variare leggermente. La variazione dipende dalla versione software in esecuzione sul Supervisor Engine.
Problema: Errore SpineControlBus
Il test di controllo della spine non riesce per Nexus 7000 Supervisor:
Nexus7000# show module internal exceptionlog module 5
...
System Errorcode : 0x418b0022 Spine control test failed
Error Type : Warning
PhyPortLayer : 0x0
Port(s) Affected : none
Error Description : Module 10 Spine Control Bus test Failed
...
11) SpineControlBus E
Error code ------------------> DIAG TEST ERR DISABLE
Total run count -------------> 1597800
Last test execution time ----> Mon May 27 21:57:17 2013
First test failure time -----> Sun Nov 20 00:30:55 2011
Last test failure time ------> Mon May 27 21:57:17 2013
Last test pass time ---------> Mon May 27 21:56:47 2013
Total failure count ---------> 33
Consecutive failure count ---> 1
Last failure reason ---------> Spine control test failed
Soluzione
Questo problema è correlato all'ID bug Cisco CSCuc72466. Per ulteriori informazioni, fare riferimento alle domande frequenti su Nexus 7000: Quale azione consigliata eseguire quando il test SpineControlBus ha esito negativo?.
Problema: Trovati blocchi errati nella NVRAM
Gli errori NVRAM vengono visualizzati negli eventi diagnostici:
Nexus7000#show diagnostic events
1) Event:E_DEBUG, length:97, at 9664 usecs after Wed Dec 5 01:03:42 2012
[103] Event_ERROR: TestName->NVRAM TestingType->health monitoring module->5
Result->fail Reason->
#show diagnostic result module 5 test NVRAM detail
4) NVRAM-------------------------> E
Error code ------------------> DIAG TEST ERR DISABLE
Total run count -------------> 52596
Last test execution time ----> Wed Dec 5 01:03:41 2012
First test failure time -----> Tue Dec 4 23:28:45 2012
Last test failure time ------> Wed Dec 5 01:03:42 2012
Last test pass time ---------> Tue Dec 4 23:23:41 2012
Total failure count ---------> 20
Consecutive failure count ---> 20
Last failure reason ---------> Bad blocks found on nvram
Si tratta di un problema hardware, di un errore del Supervisor Engine o di un problema transitorio.
Soluzione
- Eseguire nuovamente il test NVRAM per verificare se si tratta di un falso allarme. Immettere questi comandi per disabilitare e riabilitare il test diagnostico (ad esempio, se fornito per il modulo con problemi 5):
- nessuna NVRAM di test del modulo 5 di monitoraggio diagnostico
- NVRAM di test del modulo 5 di diagnostic monitor
Immettere il comando show diagnostic result module 5 test NVRAM detail per visualizzare i risultati del comando test.
- Se il test della NVRAM ha nuovamente esito negativo, ricollocare il modulo 5. Osservare i risultati dei comandi show diagnostic result modulo 5 e show module.
- Se il modulo ha nuovamente esito negativo, inoltrare una richiesta di autorizzazione restituzione materiale (RMA) per il Supervisor nello slot in cui si è verificato il problema.
Problema: Errore Compact Flash Modulo 9
Uno o tutti questi elementi sono visualizzati sul Supervisor 2/Supervisor 2E:
- Messaggio di errore:
DEVICE_TEST-2-COMPACT_FLASH_FAIL: Module 5 has failed test CompactFlash
20 times on device Compact Flash due to error The compact flash power test failed.
- Impossibile salvare la configurazione.
- Errori test diagnostici:
Test results: (. = Pass, F = Fail, I = Incomplete,
U = Untested, A = Abort, E = Error disabled)
7) CompactFlash E
Error code ------------------> DIAG TEST ERR DISABLE
Total run count -------------> 23302
Last test execution time ----> Sun Apr 13 10:07:30 2014
First test failure time -----> Sun Apr 13 00:37:41 2014
Last test failure time ------> Sun Apr 13 10:07:40 2014
Last test pass time ---------> Sun Apr 13 00:07:41 2014
Total failure count ---------> 20
Consecutive failure count ---> 20
Last failure reason ---------> The compact flash power test
failed
Next Execution time ---------> Sun Apr 13 10:37:30 2014
Causa principale
I supervisori Nexus 7000 di seconda generazione vengono forniti con due flash eUSB identici per la ridondanza. I flash forniscono un repository per bootflash, configurazioni e altre informazioni pertinenti. Questi due flash vengono riconfigurati come array RAID 1 che implementa il mirroring interno. Con la ridondanza, un Supervisor può funzionare con la perdita di uno dei flash ma non di entrambi.
Ci sono alcune istanze nel campo in cui uno o entrambi questi flash sono contrassegnati come guasti dal software RAID in un arco di tempo di diversi mesi o anni in servizio. Un reset/riavvio della scheda consente di riscoprire che i flash guasti sono integri al successivo avvio.
Soluzione
Completare questa procedura per verificare se si tratta di un problema hardware:
- Ricaricare il Supervisor del problema, se possibile.
- Se il problema si verifica dopo il riavvio, è necessario sostituire l'hardware.
- Se il problema viene risolto con il ricaricamento, la causa principale è correlata all'ID bug Cisco CSCus22805.
Problema: Test di loopback della porta della scheda di linea N7K-M132XP-12 non riuscito
La scheda di linea riporta un errore di diagnostica dovuto a un errore del test PortLoopback 10 volte consecutivamente:
DIAG_PORT_LB-2-PORTLOOPBACK_TEST_FAIL Module:16 Test:PortLoopback
failed 10 consecutive times. Faulty module:Module 16 affected ports:5,7
Error:Loopback test failed. Packets lost on the LC at the Queueing engine ASIC
MODULE-4-MOD_WARNING Module 16 (serial: XXXX) reported warning on
ports 16/5-16/5 (Ethernet) due to Loopback test failed.
Packets lost on the LC at the Queueing engine ASIC in device 78
(device error 0x41830059)
Causa principale
Questo è un messaggio di avviso e nella maggior parte dei casi indica un problema hardware con la porta.
Soluzione
Verificare prima la presenza dell'ID bug Cisco CSCtn81109 e dell'ID bug Cisco CSCti95293, in quanto potrebbe trattarsi di un problema software.
Ricollocare il modulo per reinizializzare la scheda ed eseguire nuovamente i test di integrità dell'hardware di avvio. Se i test diagnostici mostrano ancora errori per la stessa scheda, sostituire la scheda.
Ricaricare la scheda al momento opportuno e raccogliere gli output di questi comandi:
- mostra log di log
- mostra modulo
- mostra tutti i dettagli del modulo risultati
In alternativa, è possibile eseguire nuovamente solo questo test specifico e non è necessario ricaricare la scheda. L'esempio mostra il modulo 16:
show diagnostic result module 16
diagnostic clear result module all
(config)# no diagnostic monitor module 16 test 5
(config)# diagnostic monitor module 16 test 5
diagnostic start module 16 test 5
show diagnostic result module 16 test 5
Problema: N7K-M132XP-12 Modulo scheda di linea-4-MOD_WARNING
Vengono visualizzati questi errori ed è possibile che il modulo venga ricaricato:
2013 Mar 27 00:40:23 DC3-7000-PRODD2-A23 MODULE-4-MOD_WARNING
Module 9 (serial: XXX) reported warning on ports 9/1-9/3 (Unknown)
due to BE2 Arbiter experienced an error in device 65 (device error 0xc410f613)
Causa principale
Si tratta di un guasto hardware causato da errori di parità o problemi hardware sulla scheda secondaria.
Soluzione
- Controllare l'output di questi comandi:
- show version
- show system reset-reason module X
- show logging onboard internal reset-reason
- show module internal event-history module X
- show log
- Se la versione di Cisco NS-OX in uso è precedente alla 4.2, aggiornare il sistema a una nuova versione per garantire l'integrazione delle correzioni ai seguenti problemi software (ridurre al minimo la possibilità di errori di parità):
- Cisco ID bug CSCso7230 L1 D-cache enabled 8541 CPU crashed con errori di parità L1 D-cache
- Cisco ID bug CSCsr90831 - Arresti anomali della CPU 8541 abilitata per L1 D-cache con errori di parità Push L1 D-cache
- Se gli errori si verificano ripetutamente, riposizionare la scheda e il monitor.
- Se gli errori si ripetono ancora, sostituire il modulo del problema.
Altri problemi software noti
ID bug Cisco CSCtb98876
Problema: Errore di perdita di sincronizzazione seriali N7K-M224XP-23L
Questi errori vengono visualizzati nel modulo:
%MODULE-4-MOD_WARNING: Module # (Serial number: XXXX) reported warning
Ethernet#/# due to chico serdes sync loss in device DEV_SKYTRAIN
(device error 0xc9003600)
Causa principale
Questi errori indicano un problema di perdita di sincronizzazione tra il modulo n. e Xbar/ASIC. Nella maggior parte dei casi la causa è un guasto hardware del modulo.
Se la versione di Cisco NS-OX in uso è precedente alla 6.1(4) e il messaggio non viene visualizzato in modo continuo, è possibile che l'ID bug Cisco CSCud91672 sia rilevante. La causa del problema è che le impostazioni dei server NX-OS sono diverse dalle impostazioni diagnostiche sui due canali tra SKT <—>SAC.
Soluzione
Raccogli l'output di questi comandi:
- show version
- mostra modulo
- show run
- show module internal event-history module X
- show module internal activity module X
- show module internal exception-log module X
- mostra errori di cronologia eventi interni del modulo
- mostra log degli ultimi 200
- show logging nvram
Per isolare la causa del difetto, aggiornare lo switch al sistema NS-OX versione 6.1(4) o successive.
Eseguire questo test per verificare se la scheda è difettosa anziché lo slot xbar o dello chassis:
- Spostare il modulo con problemi in un altro slot libero nello chassis.
- Se si dispone di un modulo di riserva, inserirlo in uno slot con problemi.
- Se gli errori non vengono rilevati dopo il passaggio 1, inserire nuovamente il modulo nello slot in cui si è verificato il problema e verificarlo.
Problema: Errori di test N7K-F248XP-25 PrimaryBootROM e SecondaryBootROM
Il modulo N7K-F248XP-25 ha esito negativo nei test PrimaryBootROM e SecondaryBootROM:
show module internal exceptionlog module 1 | i Error|xception
********* Exception info for module 1 ********
exception information --- exception instance 1 ----
Error Description : Secondary BootROM test failed
exception information --- exception instance 2 ----
Error Description : Primary BootROM test failed
Causa principale
Questo problema è in genere dovuto al danneggiamento del file del BIOS o a un errore hardware della scheda di linea.
Soluzione
L'ID bug Cisco CSCuf82089 aggiunge codice per visualizzare informazioni più descrittive su questi errori e migliorare la diagnostica. Ad esempio, mostra un componente con errori anziché un valore null corrente.
In alcuni casi il problema è causato dal danneggiamento del BIOS sul modulo. Immettere il comando install module X bios forced (installazione forzata del modulo X) per risolvere il problema. Si noti che questo comando può influire sul servizio. Si consiglia di eseguirlo solo durante un intervento di manutenzione.
Per risolvere il problema, completare i seguenti passaggi:
- Pianificare una finestra di manutenzione e immettere il comando install module X bios forced come possibile soluzione alternativa. Immettere questo comando solo durante un intervento di manutenzione per evitare un potenziale impatto sul servizio.
- Se la fase 1 non risolve il problema o non è possibile disporre di una finestra di manutenzione per questa azione, sostituire il modulo. L'output di questo esempio mostra un tentativo non riuscito:
Nexus7000# install module 1 bios forced
Warning: Installing Bios forcefully...!
Warning: Please do not remove or power off the module at this time
Upgrading primary bios
Started bios programming .... please wait
[# 0% ]
BIOS install failed for module 1, Error=0x40710027(BIOS flash-type verify failed)
BIOS is OK ...
Please try the command again...
Problema: Errore sensore temperatura
Questo errore viene visualizzato sulla piattaforma:
%PLATFORM-4-MOD_TEMPFAIL: Module-2 temperature sensor 7 failed
Causa principale
Si tratta di un problema intermittente con il blocco di temperatura/tensione nell'ASIC in determinate condizioni a causa della temporizzazione ASIC interna. L'ID bug Cisco CSCtw79052 descrive la causa nota del problema.
Si tratta di un problema di tempificazione tra l'ASIC che fissa la temperatura internamente e il software che campiona il bit valido. Il problema è che può colpire una qualsiasi delle 12 istanze di Clipper. Questo problema non ha un particolare innesco ed è intermittente. Questo problema non influisce sul servizio e si verifica perché la logica di lettura della temperatura presenta un problema che richiede ulteriori tentativi nel driver.
Soluzione
Raccogliere l'output di questi comandi e verificare la presenza di bug Cisco con ID CSCtw79052:
- show version
- mostra temperatura ambiente
- show sprom module <numero modulo>
- Nexus# attach module <numero modulo>
- <module#>#show hardware internal sensor - errori di cronologia degli eventi
Problema: Errore Xbar/C7010-FAB-1 in stato di spegnimento
C7010-FAB-1 è in stato di spegnimento e vengono visualizzati i seguenti errori:
%PLATFORM-3-EJECTOR_STAT_CHANGED: Ejectors' status in slot 13 has changed,
Left Ejector is OPEN, Right Ejector is CLOSE
%PLATFORM-3-EJECTOR_STAT_CHANGED: Ejectors' status in slot 13 has changed,
Left Ejector is OPEN, Right Ejector is OPEN
%PLATFORM-2-XBAR_REMOVE: Xbar 3 removed (Serial number XXX)
Xbar Ports Module-Type Model Status
--- ----- ----------------------------------- ------------------ ----------
3 0 Fabric Module N/A powered-dn
?
Xbar Power-Status Reason
--- ------------ ---------------------------
3 powered-dn failure(powered-down) since maximum number of bringups were exceeded
In alternativa, vengono visualizzati gli errori ASIC xbar:
%MODULE-4-MOD_WARNING: Module 15 (serial: XXX) reported warning due to
X-bar Interface ASIC Error in device 70 (device error 0xc4600248)
%OC_USD-SLOT15-2-RF_CRC: OC2 received packets with CRC error from MOD 15
through XBAR slot 3/inst 2
Causa principale
Questo problema è dovuto a un modulo xbar difettoso o alloggiato in modo non corretto oppure a uno slot dello chassis guasto.
Soluzione
- Controllare l'output di questi comandi:
- show version
- mostra modulo
- show logging (visualizza registri)
- show logging nvram
- show module internal exception-log
- show module internal event-history
- mostra core
- show system reset-reason
- mostra ambiente | in barra verticale
- show system internal platform event-history xbar X è xbar #
- mostra errori interni di sistema relativi alla cronologia degli eventi del client xbar
- mostra xbar interna sistema all
- mostra errori di cronologia eventi interni xbar del sistema
- Eseguire un riposizionamento a freddo del modulo xbar e controllare lo stato.
- Se il riposizionamento non riesce, provare la barra verticale in un altro slot o provare lo stesso slot con un altro modulo xbar per assicurarsi che lo chassis funzioni correttamente.
- Sostituire l'hardware difettoso in base ai test eseguiti nei punti 2 e 3.
Problema: N7K-C7010-FAN-F Modulo ventole guasto
Si osservano uno o più dei seguenti sintomi di guasto della ventola:
%PLATFORM-5-FAN_STATUS: Fan module 3 (Serial number XXX)
Fan3(fab_fan1) current-status is FAN_FAIL
Nexus 7000#show environment fan
Fan3(fab_fan1) N7K-C7010-FAN-F 1.1 Failure (Failed Fanlets: 2 6 7 8 9 10 14 15 )
Fan4(fab_fan2) N7K-C7010-FAN-F 1.1 Ok
...
#show hardware
----------------------------------
Chassis has 4 Fan slots
----------------------------------
Fan3(fab_fan1) failed
Model number is N7K-C7010-FAN-F
...
Causa principale
Nella maggior parte dei casi si tratta di un guasto della ventola o dello slot dello chassis.
Soluzione
- Controllare l'output di questi comandi:
- show version
- mostra modulo
- mostra inventario
- show log
- show log nvram
- mostra ventola ambiente
- Provare questo N7K-C7010-FAN-F in un altro buon chassis.
- Sostituire la ventola o lo chassis in base ai risultati dei punti 1 e 2.
Problema: Allarme alimentatore %PLATFORM-2-PS_CAPACITY_CHANGE
Gli allarmi vengono visualizzati per i cambiamenti di capacità, a volte molto frequentemente.
%PLATFORM-2-PS_CAPACITY_CHANGE: Power supply PS2 changed its capacity.
possibly due to On/Off or power cable removal/
2013 Oct 17 17:06:40 ... last message repeated 14 times
Causa principale
Il problema è dovuto a un cavo di alimentazione difettoso o scollegato oppure a un guasto dell'alimentatore.
Soluzione
Controllare l'output del comando show env power detail e verificare lo stato dell'alimentatore. In questo esempio di output, entrambe le corde sono collegate ma la seconda mostra solo una capacità di 1200W invece di 3000W e deve essere per il 220V AC sul N7K-AC-6.0KW. La fonte di alimentazione è stata testata correttamente. Sostituire l'alimentatore.
PS_2 total capacity: 4200 W Voltage:50Vchord 1 capacity: 3000 W chord 1
connected to 110v AC chord 2 capacity: 1200 W chord 2 connected to 220v AC
Problema: %PLATFORM-5-PS_STATUS: Alimentatore X PS_FAIL Allarme
Questo avviso viene visualizzato sulla piattaforma:
%PLATFORM-5-PS_STATUS: PowerSupply 3 current-status is PS_FAIL
%PLATFORM-2-PS_FAIL: Power supply 3 failed or shut down (Serial number xxxxx)
Causa principale
Questo avviso è dovuto a un cavo di alimentazione difettoso o scollegato oppure a un guasto dell'alimentatore.
Soluzione
- Controllare l'output di questi comandi:
- mostra dettagli alimentazione ambiente
- mostra potenza
- Ricollegare l'alimentatore guasto. Utilizzare l'alimentatore ridondante per assicurarsi che non passi offline.
- Inviare una RMA per l'alimentatore. Utilizzare l'alimentatore ridondante per assicurarsi che non passi offline.
Riferimenti
Cisco Nexus serie 7000 Ridondanza alimentatori
Problema: Problema di alimentazione su FEX
Per l'alimentatore FEX vengono visualizzati i seguenti allarmi:
%SATCTRL-FEX104-2-SOHMS_DIAG_ERROR: FEX-104 Module 1: Runtime diag detected major event:
Voltage failure on power supply: 1
%SATCTRL-FEX104-2-SOHMS_DIAG_ERROR: FEX-104 System minor alarm on power
supply 1: failed
%SATCTRL-FEX104-2-SOHMS_DIAG_ERROR: FEX-104 Recovered: System minor alarm
on power supply 1: failed
Soluzione
Verificare la presenza di problemi hardware e di alimentazione. Se si verifica un problema software, i messaggi di errore continuano anche dopo lo scambio dell'hardware.
I metodi per risolvere questi problemi includono:
- Ricollegare l'alimentatore FEX. Utilizzare l'alimentatore ridondante per assicurarsi che non passi offline.
- Inviare la RMA per l'alimentatore FEX. Utilizzare l'alimentatore ridondante per assicurarsi che non passi offline.
- Ripetere questi passaggi per il secondo alimentatore.
Rivedere e rispondere a queste domande per definire le circostanze del fallimento:
- Quanti alimentatori FEX sono interessati?
- Per un piccolo allarme, avete scambiato la sorgente di ingresso, e questo ha fatto qualche differenza?
- Sono presenti altri alimentatori FEX che presentano problemi?
- Sono presenti altre scatole della stessa fonte di alimentazione?
- Il cavo di alimentazione è stato sostituito?
- Si è verificata un'impennata di corrente o un problema nell'ambiente?
Raccogli output da questi comandi per analizzare gli errori:
- show sprom fex 100 all
- mostra log di log | non più
- show tech fex 100 | non più
- attach fex 100
- show platform software satctrl trace
Errore software noto
ID bug Cisco CSCtr7620
Problema: Gli alimentatori N7K-AC-6,0KW sono indicati come guasti
Gli alimentatori di emergenza N7K-AC-6,0KW vengono indicati come guasti/arresto ma lo switch funziona correttamente e viene visualizzata un'uscita non 0 effettiva per l'alimentatore difettoso.
Causa principale
Su un alimentatore con entrambi gli ingressi attivi, quando un input viene scollegato, ricollegato e disconnesso entro 1,5 secondi l'alimentatore può bloccarsi in caso di guasto di sottotensione e NX-OS può segnalare il guasto dell'alimentatore. In un'altra variante, su una fornitura con due ingressi, rimuovere un ingresso e attendere 20-30 secondi. L'alimentatore potrebbe impostare a intermittenza l'allarme di guasto interno e NX-OS segnala il guasto dell'alimentatore.
Per risolvere il problema, Cisco ID bug CSCty78612 apporta modifiche al firmware sugli alimentatori.
L'ID bug Cisco CSCuc86262 aggiunge una funzione di miglioramento del software che consente di ripristinare il sistema da questi falsi errori. NX-OS ora controlla in modo autonomo lo stato dell'unità di alimentazione (PSU) e la modifica allo stato appropriato se lo stato riportato è diverso da quello reale.
Soluzione
Immettere il comando show env power detail e verificare l'output effettivo per verificare il false errore:
Nexus7000# show env power
Power Supply:
Voltage: 50 Volts
Power Actual Total
Supply Model Output Capacity Status
(Watts ) (Watts )
------- ------------------- ----------- ----------- --------------
1 N7K-AC-6.0KW 0 W 0 W Shutdown
2 N7K-AC-6.0KW 3888 W 6000 W Fail/Shut
Lo stato errato di errore/arresto viene cancellato quando si spegne/accende la PSU.
L'ID bug Cisco CSCty78612 apporta modifiche al firmware della PSU. Il software è stato migliorato tramite l'ID bug Cisco CSCuc86262, che consente di ripristinare le notifiche di errore/arresto del sistema correggendo i falsi bit se l'alimentatore funziona normalmente. NX-OS versioni 5.2(9), 6.1(3), 6.2(2) e successive presentano le migliorie che evitano una RMA.
Problema: Perdite di pacchetti software
Parte dei pacchetti di grandi dimensioni vengono scartati quando c'è un'alta velocità di pacchetti IP con una lunghezza superiore all'MTU configurata sull'interfaccia di uscita del pacchetto.
Causa principale
Si tratta di un comportamento normale. Quando il sistema riceve un pacchetto IP di lunghezza superiore all'MTU configurata sull'interfaccia di uscita del pacchetto, invia il pacchetto al control plane, che gestisce la frammentazione. In NX-OS 4.1.3 e versioni successive, a tali pacchetti persi viene applicato un limitatore di velocità. Per impostazione predefinita, questo limite è limitato a un massimo di 500 pagine al secondo.
Soluzione
Questo è un errore software noto nell'ID bug Cisco CSCsu01048.
Problema: USER-2-SYSTEM_MSG Errore di sistema durante il test automatico FIPS
Viene visualizzato l'errore "USER-2-SYSTEM_MSG FIPS self-test failure in DCOS_rand - netstack".
Causa principale
Ogni volta che viene generato un numero casuale, viene eseguito il test automatico del generatore di numeri casuali condizionale (CRNG). Se il test non riesce, viene registrato un messaggio syslog. Questa operazione viene eseguita in base alla raccomandazione FIPS (Federal Information Processing Standards). Tuttavia, l'impatto di questo è innocuo in quanto il numero casuale viene generato di nuovo.
In NX-OS sono disponibili due tipi di generatori di numeri casuali:
- FIPS RNG implementato nella libreria crittografica openssl
- RNG non FIPS che è linux RNG
Come per FIPS, tutti gli RNG devono implementare il test CRNGT (Conditional Random Number Generator Test). Il test confronta il numero casuale generato corrente con quello precedente. Se i numeri coincidono, viene generato un messaggio syslog e un altro numero casuale.
Il test viene eseguito per garantire l'univocità del numero casuale. La rigenerazione del numero non comporta alcun impatto funzionale.
Soluzione
Questo messaggio non influisce sul funzionamento del sistema. Da Cisco NX-OS versione 5.2x e successive, la gravità del messaggio viene ridotta da 2 in modo da non essere più visibile con la configurazione di registrazione predefinita. Questa registrazione viene eseguita nell'ambito dei test automatici interni NX-OS per diverse funzioni dello switch.
Questo è un errore software noto nell'ID bug Cisco CSCtn70083.