Introduzione
Questo documento descrive il processo di esecuzione dello strumento di verifica dello stato e pre-aggiornamento di Unified Computing System Manager (UCSM).
Prerequisiti
Requisiti
Cisco consiglia di installare Python 3.6 o versioni successive.
Nota: Se si esegue il sistema operativo Windows, è possibile installare e configurare il percorso di ambiente tramite Python.
Nota: Non aprire una richiesta TAC per problemi Python o esecuzione dello script non riuscita. Fare riferimento alla sezione dei comandi CLI per identificare manualmente il problema e aprire la richiesta TAC per ciascun problema identificato.
Componenti usati
Il documento può essere consultato per tutte le versioni software o hardware.
Le informazioni discusse in questo documento fanno riferimento a dispositivi usati in uno specifico ambiente di emulazione. Su tutti i dispositivi menzionati nel documento la configurazione è stata ripristinata ai valori predefiniti. Se la rete è operativa, valutare attentamente eventuali conseguenze derivanti dall'uso dei comandi.
Premesse
UCSM Check Tool è un'utilità per eseguire autocontrolli proattivi su UCSM al fine di garantirne la stabilità e la resilienza. Consente di automatizzare un elenco di controlli di integrità e pre-aggiornamento sui sistemi UCS per risparmiare tempo quando vengono eseguite le operazioni di aggiornamento e manutenzione dell'infrastruttura UCS.
Nota: Scarica e usa sempre la versione più recente dello strumento. Poiché lo strumento viene migliorato frequentemente, quando si utilizza una versione precedente, è possibile che non vengano eseguiti controlli importanti.
Nota: Si tratta di uno script molto efficace, di facile utilizzo. Tuttavia, non è in grado di identificare tutti i problemi.
Scenari d'uso
- Prima degli aggiornamenti dell'infrastruttura UCS
- Controllo dello stato di UCS prima e dopo l'attività di manutenzione
- Quando si lavora con Cisco TAC
- Controllo proattivo in qualsiasi momento
Modalità d'uso
Sistema operativo Windows
Passaggio 1. Scaricare l'ultima versione di Python da Python Downloads
Passaggio 2. Utilizzare la normale procedura di installazione e fare clic su Installa ora (quella consigliata) per scaricare l'installazione.
Nota: Accertarsi di selezionare Add Python to PATH.

Passaggio 3. Passare alla directory in cui Python è stato installato sul sistema.
Passaggio 4. Aprire il prompt dei comandi e digitare il comando Python per verificare l'installazione di Python.

Passaggio 5. Scaricare la versione più recente dello script di controllo dello stato da qui e salvarla in una cartella. A questo punto, estrarre il file compresso, come mostrato nell'immagine.

Passaggio 6. Scaricare e salvare i log del supporto tecnico UCSM più recenti nella cartella creata, come mostrato nell'immagine. Fare clic su questo collegamento per individuare la procedura per scaricare il bundle del log UCSM: Generazione del supporto tecnico UCSM.
Passaggio 7. Aprire CMD e cd nella cartella in cui si trova UCSMTool.py ed eseguire UCSMTool.py, come mostrato nell'immagine.

Passaggio 8. Immettere il percorso del file in cui si trova il file di supporto tecnico UCSM e scegliere l'opzione desiderata.
1. Controllo dello stato UCSM
2. Controllo pre-aggiornamento

MacOS
Passaggio 1. MacOS viene fornito con Python predefinito installato. Verificare la versione Python installata come mostrato:

Nota: Se la versione Python è inferiore alla 3.6, eseguire l'aggiornamento alla versione 3.6 e successive.
Nota: Se la versione Python è 3.6 o successiva, passare al punto 5, altrimenti passare al punto 2.
Passaggio 2. Scaricare l'ultima versione di Python da Python Releases for Macros.
Passaggio 3. Utilizzare il normale processo di installazione per completare/aggiornare l'installazione Python.
Passaggio 4. Scaricare l'ultima versione dello script di controllo dello stato da qui e salvarla in una cartella. A questo punto, estrarre il file compresso, come mostrato nell'immagine:

Passaggio 5. Scaricare e salvare i log del supporto tecnico UCSM più recenti nella cartella creata, come mostrato nell'immagine. Fare clic sul collegamento per individuare la procedura per scaricare il bundle del log UCSM: Generazione del supporto tecnico UCSM.

Passaggio 6. Aprire il terminale, individuare la directory in cui è stato scaricato lo script di verifica dello stato, eseguire python UCSMTool.py o python3UCSMTool.py come mostrato:.

Passaggio 7. Immettere il percorso del file in cui si trova il file del supporto tecnico UCSM e scegliere l'opzione desiderata per eseguire lo script.
1. Controllo dello stato UCSM
- Verifica pre-aggiornamento

Uscite/controlli eseguiti
Controlli eseguiti dal controllo di prevenzione sullo stato UCSM
Questi controlli vengono eseguiti da UCSM-Healthchecktool:
- Stato cluster UCSM HA: Visualizza lo stato del cluster delle interconnessioni fabric.
- Stato processo PMON: visualizza lo stato di tutti i processi in Cisco UCS Manager.
- Montaggio del file system: visualizza la tabella di montaggio.
- Verifica la presenza di problemi relativi alle dimensioni di /var/ sysmgr: controlla gli utilizzi di /var/ sysmgr.
- Verifica l'esistenza di un problema relativo alle dimensioni di /var/ tmp: verifica se /var/ tmp viene utilizzato.
- 6296 FI non risponde dopo un ciclo di alimentazione, aggiornamento revisione hardware: verifica il modulo di interconnessione fabric e il relativo numero di revisione hardware.
- Errori con livello di gravità maggiore o critico: Segnala se si dispone di un avviso principale o critico in UCS Manager.
- Controlla backup disponibile: Verifica se il backup è disponibile in UCS Manager.
- Controllo certificato keyring: verifica se il keyring è scaduto o valido.
- Soluzione di sicurezza necessaria o no: Verifica se è necessaria o meno una soluzione provvisoria verificando il modello FI e la relativa versione.
- Hardware deprecato in Cisco UCS Manager release 4.x: Verifica la presenza di hardware deprecato in Cisco UCS Manager versione 4.x.
- Trovato hardware deprecato per la versione 3.1.x in avanti: Verifica la presenza di hardware deprecato in Cisco UCS Manager 3.x.
- Controllare il riavvio B200M4 a causa di campi vuoti MRAID12G: Controlla se il server B200M4 dispone di un S/N vuoto del controller RAID MRAID12G.
- UCS 3.1 La modifica dell'allocazione massima dell'alimentazione causa un errore di rilevamento del blade: verifica i criteri per il risparmio di energia configurati in UCS Manager.
- Esistenza del codice di errore del danneggiamento bootflash F1219: verifica l'esistenza di un danneggiamento bootflash.
- Verificare che httpd non venga avviato quando viene eliminato il keyring predefinito: Controlla se il keyring predefinito è stato eliminato.
- I FI di terza generazione hanno stati del file system non puliti-"Stato del file system: clean with errors" (pulisci con errori): Verifica la presenza di errori nel file system.
- Verifica installazione automatica server alla versione 4.0(4b): impossibile attivare il controller SAS: verifica la versione del firmware dell'host e la versione di espansione SAS.
- Verificare che l'aggiornamento del firmware della serie C rimanga a lungo in corso, eseguire un inventario del server, PNU OS Inventory: Verifica il modello del server e la relativa versione per identificare se si è verificato questo problema.
- Controllare il dominio di autenticazione UCSM che utilizza un punto o un trattino: Verifica se il nome del dominio di autenticazione è configurato con un punto o un trattino.
- Errore di autenticazione locale o fallback: verifica la presenza di un metodo di autenticazione configurato per un determinato modello FI e verifica anche la versione.
- Verifica dello stato tra UCS Central e UCS Central: verifica se UCS Manager è registrato in UCS Central.
- Controllo VLAN riservata: Controlla se le VLAN usate appartengono all'intervallo di VLAN riservato.
- Gruppi di pin LAN e SAN: Verifica la configurazione del pinning lan/san nel cluster ed evidenzia per esaminare la configurazione prima di eseguire l'aggiornamento/qualsiasi attività MW.
- Controllo delle attività in sospeso presenti in UCS Manager: verifica se sono presenti attività in sospeso nel dominio di UCS Manager.
- Controllo dello stato per IOM: Controlla lo stato complessivo dei moduli di I/O.
- File di base disponibili in UCSM Verifica: verifica se viene trovato un file di base entro 60 giorni.
- Possibile configurazione errata L2 indipendente: verifica se sono presenti configurazioni errate nel caso in cui sia configurato l'L2 indipendente.
- Problema di link flap VIC 1400 e 6400: verifica le condizioni presenti nel difetto.
- Controllare 2304 IOMs disconnettersi e riconnettersi durante l'aggiornamento del firmware: Verifica il modello del modulo di interconnessione e I/O dell'infrastruttura e identifica eventuali problemi potenziali.
- Controllo integrità DME: verifica lo stato del database del motore di gestione dei dati (DME).
- Numero di interfacce attive e floppy corrispondenti su FI: verifica il numero di interfacce e di sessioni floppy.
- Controllo MTU jumbo o standard: identifica la configurazione MTU.
Numero di output dello strumento UCSM di esempio
akmalla@ucsm_health_check-master % python3 UCSMTool.py
UCS Health Check Tool 2.0
Enter the UCSM file path: /Users/akmalla/Desktop/UCSM health Script/UCSMlog.tar
Press 1 for UCSM Health Check
Press 2 for PreUpgrade Check
Enter your choice (1/2): 1
Log Extraction: [########################] COMPLETED
UCSM Version: 4.3(2c)
Summary Result:
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| SlNo | Name | Status | Comments |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 1 | UCSM HA Cluster State | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 2 | PMON Process State | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 3 | File System Mount | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 4 | Check for /var/sysmgr size issue | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 5 | Check for /var/tmp size issue | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 6 | 6296 FI unresponsive after power cycle, HW revision update | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 7 | Faults with Severity Major or Severity Critical | Found | Review the faults and Contact TAC, if needed |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 8 | Check Backup Available | Backup Operation Not Found | Backup operation has not been found. Please ensure that the |
| | | | latest backup is captured as a best practice. |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 9 | Keyring Cert Check | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 10 | Safeshut Workaround Needed or Not | Not Needed | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 11 | Deprecated Hardware in Cisco UCS Manager Release 4.x | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 12 | Deprecated HW found for 3.1.x onwards | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 13 | Check for B200M4 reboot due to blank MRAID12G fields | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 14 | UCSM 3.1 Change in max power allocation causes blade discovery | Not Found | |
| | failure | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 15 | Existence of bootflash corruption fault code F1219 | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 16 | Check for httpd fail to start when default keyring is deleted | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 17 | 3rd GEN FIs has unclean file system states-"Filesystem state: | Not Found | |
| | clean with errors" | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 18 | Check for Server Auto-Install to 4.0(4b) Fails to Activate SAS | Not Found | |
| | Controller | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 19 | Check for C-Series firmware upgrade stays long in process | Not Found | |
| | "perform inventory of server" PNU OS Inventory | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 20 | Check UCSM Authentication Domain using a Period or Hyphen | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 21 | Local or fallback Authentication failure | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 22 | Health check between UCSM and UCS central | Not Found | UCS Manager is Not Registered |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 23 | Reserved VLAN Check | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 24 | LAN and SAN Pin Groups | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 25 | Checking Pending Activities Present in UCSM | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 26 | Health Check for IOM | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 27 | Core Files available in UCSM Check | Not Found | No core files were found in last 60 days |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 28 | Disjoint L2 potential misconfiguration | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 29 | VIC 1400 and 6400 Link Flap Issue | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 30 | Check 2304 IOMs disconnect and re-connect during firmware update | Not Found | |
| | step | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 31 | Number of Interface up and Flogi Matching on FI | --- | Primary: |
| | | | FC Port Trunking Count: 0, |
| | | | Eth up Port: 7, |
| | | | Flogi Count: 0 |
| | | | Secondary: |
| | | | FC Port Trunking Count: 0, |
| | | | Eth up Port: 7, |
| | | | Flogi Count: 0 |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 32 | Jumbo or Standard MTU Check | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
Faults with Severity Major:
F0331: Service profile DemoSP cannot be accessed
F0831: lan Member 1/2 of Port-Channel XXXX on fabric interconnect B is down, membership: down
F0858: lan port-channel XXXX on fabric interconnect B oper state: failed, reason: port-channel-members-down
F0831: lan Member 1/2 of Port-Channel XXXX on fabric interconnect A is down, membership: down
F0858: lan port-channel XXXX on fabric interconnect A oper state: failed, reason: port-channel-members-down
NOTE:
a. All reports and logs will be saved in the same location from where the script was executed.
b. Please visit the Summary Report/ Main Report to view all the Major and Critical Fault alerts.
Analisi output strumento - Passaggi successivi
- Lo strumento automatizza il processo di esecuzione dei comandi manuali sui sistemi UCS.
- Se lo strumento viene eseguito correttamente e fornisce PASS/NOT FOUND per tutti i test. Il sistema UCS è adatto per tutti i controlli eseguiti dallo script.
- Nelle situazioni in cui lo strumento FAIL/FOUND su alcuni controlli o non viene eseguito correttamente, è possibile utilizzare i comandi CLI (elencati qui) per eseguire sugli interconnettori UCS System/Fabric gli stessi controlli eseguiti manualmente dallo script.
- Lo strumento NON verifica la presenza di avvertenze vecchie/nuove/aperte/risolte e pertanto si consiglia di esaminare le note sulla versione e le guide all'aggiornamento UCS prima di qualsiasi attività di aggiornamento o manutenzione.
Suggerimento: Per un controllo generale dello stato dell'ambiente UCS, Cisco TAC non fornisce questo servizio. Il team CX Customer Delivery di Cisco (in precedenza Advanced Services) dispone di un'analisi dei rischi e degli errori che offre. Per questo tipo di servizio, contattare il team vendite/account.
Comandi CLI
SSH su entrambe le interconnessioni fabric:
# show cluster extended-state, verify HA status is ready.
# connect local-mgmt ; # show pmon state, Verify the services are in running status.
# connect nxos ; # show system internal flash, Verify free size in /var/sysmgr and /var/tmp
# connect nxos ; # show module, verify HW revision number for 6296 fabric interconnects.
# show fault detail | include F1219, verify this fault code for bootflash corruption
# scope eth-uplink; # show reserved-vlan
# show iom health status, displays health of IOM
# show server status, verify the status of server.
# scope monitoring; # scope sysdebug; # show cores , verify if there are any core files.
# scope security; # scope keyring default; #show detail, verify details for default keyring, expiry etc.
# connect nxos; # show int br | grep -v down | wc –l, verify the number of active Ethernet interfaces.
# scope security; # show authentication, review the authentication type.
# connect nxos; # show flogi database, review the flogi database.