Introducción
Este documento describe el proceso de ejecución de la herramienta de comprobación de estado y actualización previa de Unified Computing System Manager (UCSM).
Prerequisites
Requirements
Cisco recomienda que tenga instalado Python 3.6 o posterior en el sistema.
Nota: Si está ejecutando el sistema operativo Windows, puede instalar y configurar Python en la ruta del entorno.
Nota: No abra un caso TAC para problemas de Python/fallo de ejecución del script. Consulte la sección de comandos de CLI para identificar manualmente el problema y abrir un caso de TAC por problema identificado.
Componentes Utilizados
Este documento no tiene restricciones específicas en cuanto a versiones de software y de hardware.
La información que contiene este documento se creó a partir de los dispositivos en un ambiente de laboratorio específico. Todos los dispositivos que se utilizan en este documento se pusieron en funcionamiento con una configuración verificada (predeterminada). Si tiene una red en vivo, asegúrese de entender el posible impacto de cualquier comando.
Antecedentes
La herramienta de comprobación de UCSM es una utilidad para realizar autocomprobaciones proactivas en UCSM con el fin de garantizar su estabilidad y resistencia. Ayuda a automatizar una lista de comprobaciones de estado y previas a la actualización de los sistemas UCS para ahorrar tiempo a la hora de llevar a cabo las operaciones de mantenimiento y actualización de la infraestructura de UCS.
Nota: Descargue y utilice siempre la versión más reciente de la herramienta. Dado que la herramienta se mejora con frecuencia, cuando se utiliza una versión anterior, puede pasar por alto comprobaciones importantes.
Nota: Este script es un script de mejor esfuerzo y libre de usar. Sin embargo, no puede identificar todos los problemas.
Cuándo se debe utilizar
- Antes de actualizar la infraestructura UCS
- Comprobación del estado de UCS antes y después de la actividad de mantenimiento
- Cuando trabaja con Cisco TAC
- Comprobación de estado proactiva en cualquier momento
Cómo usarla
SO Windows
Paso 1. Descargue la última versión de Python desde Python Downloads
Paso 2. Utilice el proceso de instalación normal y haga clic en Install Now (el recomendado), para descargar la configuración.
Nota: Asegúrese de marcar Add Python to PATH.

Paso 3. Navegue hasta el directorio en el que Python se instaló en el sistema.
Paso 4. Abra el símbolo del sistema y escriba el comando Python para verificar la instalación de Python.

Paso 5. Descargue la última versión del script de comprobación de estado desde aquí y guárdelo en una carpeta. Ahora, extraiga el archivo comprimido, como se muestra en la imagen.

Paso 6. Descargue y guarde los registros de soporte técnico de UCSM más recientes en la carpeta creada, como se muestra en la imagen. Haga clic en este enlace para buscar los pasos para descargar el paquete de registro de UCSM: Generación de soporte técnico de UCSM.
Paso 7. Abra CMD y cd en la carpeta donde se encuentra UCSMTool.py y ejecute UCSMTool.py como se muestra en la imagen.

Paso 8. Ingrese la ruta del archivo donde se encuentra el archivo de soporte técnico de UCSM y elija la opción deseada.
1. Comprobación de estado de UCSM
2. Comprobación previa a la actualización

MacOS
Paso 1. MacOS viene con el Python predeterminado instalado. Verifique la versión instalada de Python como se muestra:

Nota: En caso de que la versión de Python sea inferior a la 3.6, actualice a la versión 3.6 y posteriores.
Nota: Si la versión de Python es 3.6 o posterior, salte al paso 5; de lo contrario, salte al paso 2.
Paso 2. Descargue la última versión de Python de Python Releases for Macros.
Paso 3. Use el proceso de instalación normal para completar/actualizar la instalación de Python.
Paso 4. Descargue la última versión del script de comprobación de estado desde aquí y guárdelo en una carpeta. Ahora, extraiga el archivo comprimido, como se muestra en esta imagen:

Paso 5. Descargue y guarde los registros de soporte técnico de UCSM más recientes en la carpeta creada, como se muestra en esta imagen. Haga clic en el enlace para buscar los pasos para descargar el paquete de registro de UCSM: Generación de soporte técnico de UCSM.

Paso 6. Abra el terminal, navegue hasta el directorio donde tiene descargada la secuencia de comandos de comprobación de estado, ejecute python UCSMTool.py o python3UCSMTool.py como se muestra a continuación:.

Paso 7. Introduzca la ruta del archivo donde se encuentra el archivo de soporte técnico de UCSM y seleccione la opción deseada para ejecutar el script.
1. Comprobación de estado de UCSM
- Comprobación previa a la actualización

Comprender las salidas/comprobaciones realizadas
Comprobaciones realizadas por la comprobación de estado de UCSM
Estas comprobaciones las realiza UCSM-Healthchecktool:
- Estado del clúster de UCSM HA: Muestra el estado del clúster de las fabric interconectadas.
- Estado del proceso PMON: muestra el estado de todos los procesos en Cisco UCS Manager.
- Montaje del sistema de archivos: muestra la tabla de montaje.
- Verifique el problema de tamaño de /var/ sysmgr: Verifica los usos de /var/ sysmgr.
- Verifique si /var/ tmp size issue: Verifica si /var/ tmp usa.
- 6296 FI sin respuesta después de un ciclo de alimentación, actualización de revisión de hardware: verifica el módulo Fabric Interconnect y su número de revisión de HW.
- Errores con gravedad mayor o gravedad crítica: Informa si tiene alguna alerta importante o crítica en UCS Manager.
- Comprobar copia de seguridad disponible: Comprueba si la copia de seguridad está disponible en UCS Manager.
- Comprobación de certificación de anillos de claves: Comprueba si el anillo de claves ha caducado o es válido.
- Solución alternativa de seguridad necesaria o no: Comprueba si se necesita o no una solución alternativa de seguridad comprobando el modelo FI y su versión.
- Hardware obsoleto en la versión 4.x de Cisco UCS Manager: Comprueba si hay hardware obsoleto en la versión 4.x de Cisco UCS Manager.
- HW obsoleto encontrado para 3.1.x en adelante: Comprueba si hay hardware obsoleto en la versión 3.x de Cisco UCS Manager.
- Compruebe si B200M4 se ha reiniciado debido a campos MRAID12G en blanco: Comprueba si el servidor B200M4 tiene un S/N en blanco de la controladora RAID MRAID12G.
- El cambio de UCSM 3.1 en la asignación de potencia máxima provoca un fallo en la detección de blades: verifica la política de alimentación configurada en UCS Manager.
- Existencia de corrupción de bootflash código de error F1219: Comprueba la existencia de corrupción de bootflash.
- Compruebe si httpd no se inicia cuando se elimina el anillo de claves predeterminado: Comprueba si se ha eliminado el anillo de claves predeterminado.
- Los FI de 3ª GENERACIÓN tienen estados de sistema de archivos sucios-"Estado del sistema de archivos: limpiar con errores": Comprueba los errores del sistema de archivos.
- Comprobar si la instalación automática del servidor en 4.0(4b) no activa el controlador SAS: verifica la versión del firmware del host y la versión del ampliador SAS.
- Verifique que la actualización del firmware de la serie C se mantenga durante mucho tiempo en proceso, realice un inventario del servidor, PNU OS Inventory: Verifica el modelo del servidor y su versión para identificar si se da este problema.
- Verifique el dominio de autenticación de UCSM que utiliza un punto o guion: Verifica si el nombre de dominio de autenticación está configurado con un punto o caracteres de guión.
- Error de autenticación local o de reserva: verifica el método de autenticación configurado para un modelo de FI determinado y también verifica su versión.
- Comprobación de estado entre UCSM y UCS central: verifica si UCS Manager está registrado con UCS Central.
- Comprobación de VLAN reservada: Comprueba si las VLAN utilizadas pertenecen al intervalo de VLAN reservado.
- Grupos de PIN de LAN y SAN: Comprueba la configuración de conexión LAN/SAN del clúster y resáltela para revisar la configuración antes de realizar una actualización o cualquier actividad de MW.
- Comprobación de las actividades pendientes presentes en UCSM: verifica si hay actividades pendientes en el dominio de UCS Manager.
- Comprobación de estado para la OIM: Comprueba el estado general de los módulos de E/S.
- Archivos de núcleo disponibles en la comprobación de UCSM: verifica si se encuentra algún archivo de núcleo en 60 días.
- Posible configuración errónea de L2 desarticulada: verifica si existe alguna configuración incorrecta en caso de que se configure la L2 desarticulada.
- Problema de inestabilidad de link VIC 1400 y 6400: verifica las condiciones presentes en este defecto.
- Verifique la desconexión y reconexión de los IOM 2304 durante la actualización del firmware: Verifica el modelo de módulo de E/S y Fabric Interconnect e identifica si existe algún problema potencial.
- Comprobación del estado de DME: verifica el estado de la base de datos de Data Management Engine (DME).
- Number of Interface up and Flogi Matching on FI: Verifica el número de interfaces y la sesión flogi.
- Comprobación de MTU Jumbo o Estándar: Identifica la configuración de MTU.
Número de salida de la herramienta UCSM de ejemplo
akmalla@ucsm_health_check-master % python3 UCSMTool.py
UCS Health Check Tool 2.0
Enter the UCSM file path: /Users/akmalla/Desktop/UCSM health Script/UCSMlog.tar
Press 1 for UCSM Health Check
Press 2 for PreUpgrade Check
Enter your choice (1/2): 1
Log Extraction: [########################] COMPLETED
UCSM Version: 4.3(2c)
Summary Result:
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| SlNo | Name | Status | Comments |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 1 | UCSM HA Cluster State | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 2 | PMON Process State | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 3 | File System Mount | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 4 | Check for /var/sysmgr size issue | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 5 | Check for /var/tmp size issue | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 6 | 6296 FI unresponsive after power cycle, HW revision update | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 7 | Faults with Severity Major or Severity Critical | Found | Review the faults and Contact TAC, if needed |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 8 | Check Backup Available | Backup Operation Not Found | Backup operation has not been found. Please ensure that the |
| | | | latest backup is captured as a best practice. |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 9 | Keyring Cert Check | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 10 | Safeshut Workaround Needed or Not | Not Needed | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 11 | Deprecated Hardware in Cisco UCS Manager Release 4.x | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 12 | Deprecated HW found for 3.1.x onwards | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 13 | Check for B200M4 reboot due to blank MRAID12G fields | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 14 | UCSM 3.1 Change in max power allocation causes blade discovery | Not Found | |
| | failure | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 15 | Existence of bootflash corruption fault code F1219 | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 16 | Check for httpd fail to start when default keyring is deleted | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 17 | 3rd GEN FIs has unclean file system states-"Filesystem state: | Not Found | |
| | clean with errors" | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 18 | Check for Server Auto-Install to 4.0(4b) Fails to Activate SAS | Not Found | |
| | Controller | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 19 | Check for C-Series firmware upgrade stays long in process | Not Found | |
| | "perform inventory of server" PNU OS Inventory | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 20 | Check UCSM Authentication Domain using a Period or Hyphen | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 21 | Local or fallback Authentication failure | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 22 | Health check between UCSM and UCS central | Not Found | UCS Manager is Not Registered |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 23 | Reserved VLAN Check | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 24 | LAN and SAN Pin Groups | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 25 | Checking Pending Activities Present in UCSM | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 26 | Health Check for IOM | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 27 | Core Files available in UCSM Check | Not Found | No core files were found in last 60 days |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 28 | Disjoint L2 potential misconfiguration | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 29 | VIC 1400 and 6400 Link Flap Issue | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 30 | Check 2304 IOMs disconnect and re-connect during firmware update | Not Found | |
| | step | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 31 | Number of Interface up and Flogi Matching on FI | --- | Primary: |
| | | | FC Port Trunking Count: 0, |
| | | | Eth up Port: 7, |
| | | | Flogi Count: 0 |
| | | | Secondary: |
| | | | FC Port Trunking Count: 0, |
| | | | Eth up Port: 7, |
| | | | Flogi Count: 0 |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 32 | Jumbo or Standard MTU Check | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
Faults with Severity Major:
F0331: Service profile DemoSP cannot be accessed
F0831: lan Member 1/2 of Port-Channel XXXX on fabric interconnect B is down, membership: down
F0858: lan port-channel XXXX on fabric interconnect B oper state: failed, reason: port-channel-members-down
F0831: lan Member 1/2 of Port-Channel XXXX on fabric interconnect A is down, membership: down
F0858: lan port-channel XXXX on fabric interconnect A oper state: failed, reason: port-channel-members-down
NOTE:
a. All reports and logs will be saved in the same location from where the script was executed.
b. Please visit the Summary Report/ Main Report to view all the Major and Critical Fault alerts.
Analizar la salida de la herramienta: siguientes pasos
- La herramienta automatiza el proceso de ejecución de comandos manuales en los sistemas UCS.
- Si la herramienta funciona correctamente y da PASS/NOT FOUND en todas las pruebas. El sistema UCS es bueno para todas las comprobaciones que ha realizado el script.
- En situaciones en las que la herramienta FAIL/FOUND en algunas comprobaciones o no se ejecute correctamente, puede utilizar los comandos de CLI (enumerados aquí) para realizar las mismas comprobaciones en la interconexión de UCS System/Fabric que las realizadas manualmente con la secuencia de comandos.
- La herramienta NO comprueba si hay advertencias antiguas/nuevas/abiertas/resueltas y, por tanto, se recomienda revisar las notas de la versión de UCS y las guías de actualización antes de llevar a cabo cualquier actividad de actualización o mantenimiento.
Consejo: Para realizar una comprobación general del estado de su entorno UCS, Cisco TAC no proporciona este servicio. El equipo de atención al cliente de Cisco CX (anteriormente conocido como Advanced Services) dispone de un análisis de riesgos/depuración de errores que ofrece. Si necesita este tipo de servicio, póngase en contacto con el equipo comercial/de cuentas.
Comandos CLI
SSH a ambos Fabric Interconnects:
# show cluster extended-state, verify HA status is ready.
# connect local-mgmt ; # show pmon state, Verify the services are in running status.
# connect nxos ; # show system internal flash, Verify free size in /var/sysmgr and /var/tmp
# connect nxos ; # show module, verify HW revision number for 6296 fabric interconnects.
# show fault detail | include F1219, verify this fault code for bootflash corruption
# scope eth-uplink; # show reserved-vlan
# show iom health status, displays health of IOM
# show server status, verify the status of server.
# scope monitoring; # scope sysdebug; # show cores , verify if there are any core files.
# scope security; # scope keyring default; #show detail, verify details for default keyring, expiry etc.
# connect nxos; # show int br | grep -v down | wc –l, verify the number of active Ethernet interfaces.
# scope security; # show authentication, review the authentication type.
# connect nxos; # show flogi database, review the flogi database.