Introduzione
Questo documento descrive come cancellare gli errori temporanei UECC (Unrectable Error Correction Code) della memoria sui sistemi di calcolo unificato Cisco (UCS).
Prerequisiti
Requisiti
Nessun requisito specifico previsto per questo documento.
Componenti usati
Questo documento è valido per tutti i server di generazione M5, M6 e M7.
Le informazioni discusse in questo documento fanno riferimento a dispositivi usati in uno specifico ambiente di emulazione. Su tutti i dispositivi menzionati nel documento la configurazione è stata ripristinata ai valori predefiniti. Se la rete è operativa, valutare attentamente eventuali conseguenze derivanti dall'uso dei comandi.
Premesse
Nel caso di server che non visualizzano precedenti istanze di errori ECC (Error Correction Code) o UECC (Uncorrectable Error Correction Code), alcuni moduli di memoria possono presentare errori di memoria UECC durante il POST del BIOS durante un riavvio in condizioni operative normali. I moduli DIMM (Dual In-Line Memory Module) interessati vengono mostrati come nell'elenco dei blocchi, ma non vengono segnalati nuovi errori dopo la cancellazione dei dati dell'elenco dei blocchi o durante un'analisi dei guasti dopo un'autorizzazione alla restituzione dei materiali (RMA). Ciò indica la potenziale natura transitoria degli errori di memoria UCS. I DIMM possono continuare a essere utilizzati dopo aver cancellato i dati relativi agli errori nell'elenco dei blocchi.
Errori temporanei o non persistenti possono verificarsi senza preavviso. Gli errori correggibili non si verificano sempre all'interno di un modulo DIMM prima che si verifichi un errore di addestramento DIMM o un errore multibit. L'ambito degli eventi che si verificano durante l'addestramento della memoria è molto diverso da quello che si verifica quando la memoria viene utilizzata in fase di esecuzione. Pertanto, la stabilità dei moduli di memoria non è necessariamente correlata tra POST del server e runtime.
Difetti noti
Il comportamento descritto sopra è descritto dai bug elencati:
1. ID bug Cisco CSCwa75339
2. ID bug Cisco CSCwk28210
3. ID bug Cisco CSCwo62396
Passi per la cancellazione degli errori POST UECC
Server blade
Nota: Selezionare l'ID chassis e l'ID server corretti richiesti per l'ambiente specifico. L'immagine visualizzata è a scopo dimostrativo.
Spegnere il server.
Il server deve essere spento fisicamente, altrimenti gli errori UECC possono persistere al riavvio.
Nota: I dati DIMM SPD non vengono aggiornati in quanto CIMC esegue il polling dei dati DIMM SPD solo all'accensione del server. Se esiste un DIMM con problemi reali, l'errore si ripresenta al riavvio e il supporto Cisco può fornire un RMA per il DIMM.
Metodo GUI per UCS Manager
Selezionare Apparecchiature > Chassis > ID chassis > Server > ID server > Azioni > Sistema > Reimposta tutti gli errori di memoria.

Metodo GUI per Intersight Managed Mode (IMM)

Nota: Questi passaggi sono validi anche per i server integrati della serie C.
Metodo Command Line Interface (CLI)
Avviare una sessione SSH sull'indirizzo IP virtuale di UCS Manager. Assicurarsi che il server in questione sia spento prima di procedere con le operazioni descritte.

Al termine, verificare che non vi siano nuovi errori incrementali nel sistema.
Server rack
Spegnere il server.
Il server deve essere spento fisicamente, altrimenti gli errori UECC possono persistere al riavvio.
Nota: I dati DIMM SPD non vengono aggiornati in quanto CIMC esegue il polling dei dati DIMM SPD solo all'accensione del server. Se esiste un DIMM con problemi reali, l'errore si ripresenta al riavvio e il supporto Cisco può fornire un RMA per il DIMM.
Metodo GUI
Se il server non è gestito con Intersight Managed Mode (IMM), è necessario il metodo Command Line Interface (CLI). In caso contrario, si applicano le procedure precedenti.
Metodo CLI
Nota: L'immagine visualizzata è a scopo dimostrativo.
Avviare una sessione SSH sull'indirizzo IP CIMC del server. Prima di procedere con la procedura descritta, verificare che il server in questione sia spento.

Al termine, verificare che non vi siano nuovi errori incrementali nel sistema.