Introdução
Este documento descreve o processo de execução da ferramenta de verificação de integridade e pré-atualização do Unified Computing System Manager (UCSM).
Pré-requisitos
Requisitos
A Cisco recomenda que você tenha o Python 3.6 ou posterior instalado no sistema.
Note: Se você estiver executando o sistema operacional Windows, poderá ter o Python instalado e configurado o caminho Ambiente.
Note: Não abra um caso TAC para problemas Python/Falha na execução do script. Consulte a seção de comandos CLI para identificar manualmente o problema e abrir o caso do TAC por problema identificado.
Componentes Utilizados
Este documento não se restringe a versões de software e hardware específicas.
As informações neste documento foram criadas a partir de dispositivos em um ambiente de laboratório específico. Todos os dispositivos utilizados neste documento foram iniciados com uma configuração (padrão) inicial. Se a rede estiver ativa, certifique-se de que você entenda o impacto potencial de qualquer comando.
Informações de Apoio
A Ferramenta de Verificação UCSM é um utilitário para executar autoverificações proativas no UCSM para garantir sua estabilidade e resiliência. Ele ajuda a automatizar uma lista de verificações de integridade e pré-atualização em sistemas UCS para economizar tempo quando as operações de atualização e manutenção da infraestrutura do UCS ocorrem.
Note: Faça sempre o download e use a versão mais recente da ferramenta. Como a ferramenta é aprimorada com frequência, quando você usa uma versão mais antiga, ela pode perder verificações importantes.
Note: Este script é um script de melhor esforço e de uso livre. No entanto, ele não pode identificar todos os problemas.
Quando usar
- Antes das atualizações de infraestrutura do UCS
- Verificação de integridade do UCS antes e depois da atividade de manutenção
- Quando você trabalha com o Cisco TAC
- Verificação de integridade proativa a qualquer momento
How to Use
SO Windows
Etapa 1. Faça o download da última versão do Python em Downloads Python
Etapa 2. Use o processo de instalação normal e clique em Instalar agora (o recomendado) para fazer o download da configuração.
Note: Certifique-se de marcar Add Python to PATH.

Etapa 3. Navegue até o diretório no qual o Python foi instalado no sistema.
Etapa 4. Abra o prompt de comando e digite o comando Python para verificar a instalação do Python.

Etapa 5. Faça o download da versão mais recente do script de verificação de integridade aqui e salve-o em uma pasta. Agora, extraia o arquivo compactado, como mostrado na imagem.

Etapa 6. Faça o download e salve os últimos registros de suporte técnico do UCSM na pasta criada, como mostrado na imagem. Clique neste link para encontrar as etapas de download do pacote de log do UCSM: Gerando suporte técnico do UCSM.
Etapa 7. Abra CMD e cd na pasta onde UCSMTool.py está localizado e execute UCSMTool.py como mostrado na imagem.

Etapa 8. Insira o caminho do arquivo onde o arquivo de suporte técnico do UCSM está localizado e escolha a opção desejada.
1. Verificação de integridade do UCSM
2. Verificação de Pré-Atualização

MacOS
Etapa 1. O MacOS vem com o Python padrão instalado. Verifique a versão instalada do Python conforme mostrado:

Note: Caso a versão do Python seja inferior à 3.6, atualize para a 3.6 e versões posteriores.
Note: Se a versão Python for 3.6 ou posterior, vá para a Etapa 5; caso contrário, vá para a Etapa 2.
Passo 2. Faça o download da última versão do Python em Python Releases for Macros.
Etapa 3. Usar o processo de instalação normal para concluir/atualizar a instalação do Python.
Etapa 4. Faça o download da versão mais recente do script de verificação de integridade de aqui e salve-o em uma pasta. Agora, extraia o arquivo compactado, como mostrado nesta imagem:

Etapa 5. Faça o download e salve os últimos registros de suporte técnico do UCSM na pasta criada, como mostrado nesta imagem. Clique no link para encontrar as etapas de download do pacote de log do UCSM: Gerando suporte técnico do UCSM.

Etapa 6. Abra o terminal, navegue até o diretório onde você fez o download do script de verificação de integridade, execute o python UCSMTool.py ou python3UCSMTool.py como mostrado:.

Etapa 7. Insira o caminho do arquivo onde o arquivo de suporte técnico do UCSM está localizado e escolha a opção desejada para executar o script.
1. Verificação de integridade do UCSM
- Verificação de pré-atualização

Entender Saídas/Verificações Executadas
Verificações Executadas pela Verificação de Integridade do UCSM
Essas verificações são realizadas por UCSM-Healthchecktool:
- Estado do cluster UCSM HA: Exibe o estado do cluster das interconexões em malha.
- Estado do processo PMON: exibe o estado de todos os processos no Cisco UCS Manager.
- Montagem do Sistema de Arquivos: Exibe a tabela de montagem.
- Verifique o problema /var/ sysmgr size: Verifica os usos de /var/ sysmgr.
- Verificar por problemas de tamanho de /var/ tmp: Verifica se o /var/ tmp usa.
- 6296 FI sem resposta após um ciclo de energia, atualização de revisão de HW: Verifica o módulo de interconexão de estrutura e seu número de revisão de HW.
- Falhas com severidade maior ou severidade crítica: Relata se você tem algum alerta importante ou crítico no UCS Manager.
- Verificar backup disponível: Verifica se o backup está disponível no UCS Manager.
- Verificação de certificado do chaveiro: Verifica se o chaveiro expirou ou é válido.
- Solução alternativa Safeshut necessária ou não: Verifica se uma solução alternativa do safeshut é necessária ou não, verificando o modelo FI e sua versão.
- Hardware obsoleto no Cisco UCS Manager versão 4.x: Verifica se há hardware preterido na versão do Cisco UCS Manager 4.x.
- HW preterido encontrado para a versão 3.1.x em diante: Verifica se há hardware preterido na versão do Cisco UCS Manager 3.x.
- Verifique a reinicialização do B200M4 devido a campos MRAID12G em branco: Verifica se o servidor B200M4 tem um S/N vazio do controlador RAID MRAID12G.
- UCSM 3.1 Alteração na alocação máxima de energia causa falha na descoberta do blade: verifica a política de energia configurada no UCS Manager.
- Existência do código de falha de corrupção do flash de inicialização F1219: Verifica a existência de corrupção do flash de inicialização.
- Não é possível iniciar a verificação de httpd quando o chaveiro padrão é excluído: Verifica se o chaveiro padrão foi excluído.
- Os FIs de 3ª GERAÇÃO têm estados de sistema de arquivos não limpos-"Estado do sistema de arquivos: limpar com erros": Verifica se há erros no sistema de arquivos.
- Verifique se a instalação automática do servidor para 4.0(4b) não consegue ativar o controlador SAS: verifica a versão do firmware do host e a versão do expansor SAS.
- Verifique se a atualização do firmware C-Series permanece por muito tempo no processo, faça um inventário do servidor, Inventário do sistema operacional PNU: verifique o modelo do servidor e sua versão para identificar se você encontrou esse problema.
- Verifique o domínio de autenticação do UCSM que usa um ponto ou hífen: Verifica se o nome do Domínio de Autenticação está configurado com um ponto ou hífen.
- Falha de autenticação local ou de fallback: verifica o método de autenticação configurado para um modelo de FI específico e também a sua versão.
- Verificação de integridade entre UCSM e UCS central: verifica se o UCS Manager está registrado no UCS Central.
- Verificação de VLAN reservada: Verifica se as VLANs usadas são de um intervalo de VLAN reservado.
- Grupos de pinos de LAN e SAN: Verifica a configuração de pinning de lan/san no cluster e realça para revisar sua configuração antes da atualização/qualquer atividade de MW.
- Verificando atividades pendentes presentes no UCSM: verifica se há atividades pendentes no domínio do UCS Manager.
- Verificação de integridade da OIM: Verifica a integridade geral dos Módulos de E/S.
- Arquivos principais disponíveis na verificação de UCSM: verifica se algum arquivo principal foi encontrado dentro de 60 dias.
- Configuração incorreta potencial de L2 disjunta: Verifica se há alguma configuração incorreta caso a L2 disjunta esteja configurada.
- Problema de Link Flap VIC 1400 e 6400: Verifica as condições presentes neste defeito.
- Verifique se os IOMs 2304 se desconectam e se reconectam durante a atualização do firmware: Verifica o modelo de interconexão de estrutura e módulo de I/O e identifica se há algum problema em potencial.
- Verificação de integridade do DME: Verifica a integridade do banco de dados do Mecanismo de Gerenciamento de Dados (DME).
- Número de Interface ativa e Correspondência Flogi no FI: Verifica o número de interfaces e sessão flogi.
- Verificação de MTU Jumbo ou Padrão: identifica a configuração de MTU.
Número de Saída da Ferramenta UCSM de Exemplo
akmalla@ucsm_health_check-master % python3 UCSMTool.py
UCS Health Check Tool 2.0
Enter the UCSM file path: /Users/akmalla/Desktop/UCSM health Script/UCSMlog.tar
Press 1 for UCSM Health Check
Press 2 for PreUpgrade Check
Enter your choice (1/2): 1
Log Extraction: [########################] COMPLETED
UCSM Version: 4.3(2c)
Summary Result:
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| SlNo | Name | Status | Comments |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 1 | UCSM HA Cluster State | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 2 | PMON Process State | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 3 | File System Mount | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 4 | Check for /var/sysmgr size issue | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 5 | Check for /var/tmp size issue | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 6 | 6296 FI unresponsive after power cycle, HW revision update | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 7 | Faults with Severity Major or Severity Critical | Found | Review the faults and Contact TAC, if needed |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 8 | Check Backup Available | Backup Operation Not Found | Backup operation has not been found. Please ensure that the |
| | | | latest backup is captured as a best practice. |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 9 | Keyring Cert Check | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 10 | Safeshut Workaround Needed or Not | Not Needed | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 11 | Deprecated Hardware in Cisco UCS Manager Release 4.x | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 12 | Deprecated HW found for 3.1.x onwards | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 13 | Check for B200M4 reboot due to blank MRAID12G fields | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 14 | UCSM 3.1 Change in max power allocation causes blade discovery | Not Found | |
| | failure | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 15 | Existence of bootflash corruption fault code F1219 | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 16 | Check for httpd fail to start when default keyring is deleted | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 17 | 3rd GEN FIs has unclean file system states-"Filesystem state: | Not Found | |
| | clean with errors" | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 18 | Check for Server Auto-Install to 4.0(4b) Fails to Activate SAS | Not Found | |
| | Controller | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 19 | Check for C-Series firmware upgrade stays long in process | Not Found | |
| | "perform inventory of server" PNU OS Inventory | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 20 | Check UCSM Authentication Domain using a Period or Hyphen | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 21 | Local or fallback Authentication failure | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 22 | Health check between UCSM and UCS central | Not Found | UCS Manager is Not Registered |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 23 | Reserved VLAN Check | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 24 | LAN and SAN Pin Groups | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 25 | Checking Pending Activities Present in UCSM | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 26 | Health Check for IOM | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 27 | Core Files available in UCSM Check | Not Found | No core files were found in last 60 days |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 28 | Disjoint L2 potential misconfiguration | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 29 | VIC 1400 and 6400 Link Flap Issue | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 30 | Check 2304 IOMs disconnect and re-connect during firmware update | Not Found | |
| | step | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 31 | Number of Interface up and Flogi Matching on FI | --- | Primary: |
| | | | FC Port Trunking Count: 0, |
| | | | Eth up Port: 7, |
| | | | Flogi Count: 0 |
| | | | Secondary: |
| | | | FC Port Trunking Count: 0, |
| | | | Eth up Port: 7, |
| | | | Flogi Count: 0 |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 32 | Jumbo or Standard MTU Check | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
Faults with Severity Major:
F0331: Service profile DemoSP cannot be accessed
F0831: lan Member 1/2 of Port-Channel XXXX on fabric interconnect B is down, membership: down
F0858: lan port-channel XXXX on fabric interconnect B oper state: failed, reason: port-channel-members-down
F0831: lan Member 1/2 of Port-Channel XXXX on fabric interconnect A is down, membership: down
F0858: lan port-channel XXXX on fabric interconnect A oper state: failed, reason: port-channel-members-down
NOTE:
a. All reports and logs will be saved in the same location from where the script was executed.
b. Please visit the Summary Report/ Main Report to view all the Major and Critical Fault alerts.
Analisar saída da ferramenta - Próximas etapas
- A ferramenta automatiza o processo de execução de comandos manuais em sistemas UCS.
- Se a ferramenta executar OK e fornecer PASS/NOT FOUND em todos os testes. O sistema UCS é bom para todas as verificações que o script executou.
- Em situações em que a ferramenta FAIL/FOUND em algumas verificações ou não é executada com êxito, você pode usar os comandos CLI (listados aqui) para executar as mesmas verificações na interconexão de estrutura/sistema UCS como feito pelo script Manualmente.
- A ferramenta NÃO verifica se há avisos antigos/novos/abertos/resolvidos e, portanto, é altamente recomendável revisar as Notas de versão e Guias de atualização do UCS antes de qualquer atividade de atualização ou manutenção.
Tip: Para uma verificação de integridade geral do seu ambiente UCS, o Cisco TAC não fornece esse serviço. A equipe de entrega ao cliente do CX da Cisco (conhecida anteriormente como Serviços avançados) tem uma análise de risco/depuração de bugs que ela oferece. Se você precisar desse tipo de serviço, entre em contato com sua equipe de vendas/contas.
Comandos CLI
SSH para ambas as interconexões em malha:
# show cluster extended-state, verify HA status is ready.
# connect local-mgmt ; # show pmon state, Verify the services are in running status.
# connect nxos ; # show system internal flash, Verify free size in /var/sysmgr and /var/tmp
# connect nxos ; # show module, verify HW revision number for 6296 fabric interconnects.
# show fault detail | include F1219, verify this fault code for bootflash corruption
# scope eth-uplink; # show reserved-vlan
# show iom health status, displays health of IOM
# show server status, verify the status of server.
# scope monitoring; # scope sysdebug; # show cores , verify if there are any core files.
# scope security; # scope keyring default; #show detail, verify details for default keyring, expiry etc.
# connect nxos; # show int br | grep -v down | wc –l, verify the number of active Ethernet interfaces.
# scope security; # show authentication, review the authentication type.
# connect nxos; # show flogi database, review the flogi database.