Introduction
Ce document décrit le processus d'exécution de l'outil de contrôle d'intégrité et de pré-mise à niveau d'Unified Computing System Manager (UCSM).
Conditions préalables
Exigences
Cisco recommande d'installer Python 3.6 ou version ultérieure sur le système.
Remarque : Si vous exécutez le système d'exploitation Windows, Python peut être installé et configuré sur le chemin d'accès de l'environnement.
Remarque : N'ouvrez pas de dossier TAC pour des problèmes Python/Échec de l'exécution du script. Reportez-vous à la section relative aux commandes CLI pour identifier manuellement le problème et ouvrir un dossier TAC par problème identifié.
Composants utilisés
Ce document n'est pas limité à des versions de matériel et de logiciel spécifiques.
The information in this document was created from the devices in a specific lab environment. All of the devices used in this document started with a cleared (default) configuration. Si votre réseau est en ligne, assurez-vous de bien comprendre l’incidence possible des commandes.
Informations générales
L'outil de contrôle UCSM est un utilitaire permettant d'effectuer des auto-contrôles proactifs sur UCSM afin de garantir sa stabilité et sa résilience. Il permet d'automatiser une liste de vérifications de l'état et de pré-mise à niveau des systèmes UCS afin de gagner du temps lors des opérations de mise à niveau et de maintenance de l'infrastructure UCS.
Remarque : Téléchargez et utilisez toujours la dernière version de l'outil. Comme l'outil est fréquemment amélioré, lorsque vous utilisez une version plus ancienne, il peut manquer des vérifications importantes.
Remarque : Il s'agit d'un script de type « best effort », libre d'utilisation. Toutefois, elle ne peut pas identifier tous les problèmes.
Cas d’utilisation
- Avant les mises à niveau de l'infrastructure UCS
- Vérification du fonctionnement de UCS avant et après l'activité de maintenance
- Lorsque vous travaillez avec le TAC Cisco
- Vérification proactive du fonctionnement à tout moment
Marche à suivre
système d'exploitation Windows
Étape 1. Télécharger la dernière version de Python à partir de Téléchargements Python
Étape 2. Utilisez la procédure d'installation normale et cliquez sur Install Now (la procédure recommandée) pour télécharger l'installation.
Remarque : Assurez-vous de cocher Add Python to PATH.

Étape 3. Accédez au répertoire dans lequel Python a été installé sur le système.
Étape 4. Ouvrez l'invite de commande et tapez la commande Python pour vérifier l'installation de Python.

Étape 5. Téléchargez la dernière version du script de contrôle d’intégrité ici et enregistrez-la dans un dossier. Maintenant, extrayez le fichier compressé, comme indiqué dans l'image.

Étape 6. Téléchargez et enregistrez les derniers journaux d'assistance technique UCSM dans le dossier créé, comme illustré dans l'image. Cliquez sur ce lien pour connaître les étapes de téléchargement du bundle de journaux UCSM : Génération du support technique UCSM.
Étape 7. Ouvrez CMD et cd dans le dossier où se trouve UCSMTool.py et exécutez UCSMTool.py comme indiqué dans l'image.

Étape 8. Entrez le chemin d'accès du fichier où se trouve le fichier de support technique UCSM et choisissez l'option souhaitée.
1. Vérification du fonctionnement d'UCSM
2. Vérification préalable à la mise à niveau

MacOS
Étape 1. MacOS est fourni avec Python installé par défaut. Vérifiez la version installée de Python comme indiqué :

Remarque : Si la version de Python est inférieure à 3.6, veuillez effectuer une mise à niveau vers la version 3.6 et les versions ultérieures.
Remarque : Si la version de Python est 3.6 ou ultérieure, passez à l'étape 5, sinon, passez à l'étape 2.
Étape 2. Téléchargez la dernière version de Python à partir de Python Releases for Macros.
Étape 3. Utiliser le processus d'installation normal pour terminer/mettre à niveau l'installation de Python.
Étape 4. Téléchargez la dernière version du script de contrôle d’intégrité à partir d’ici et enregistrez-la dans un dossier. Maintenant, extrayez le fichier compressé, comme indiqué dans cette image :

Étape 5. Téléchargez et enregistrez les derniers journaux d'assistance technique UCSM dans le dossier créé, comme illustré dans cette image. Cliquez sur le lien pour trouver les étapes pour télécharger l'ensemble de journaux UCSM : Génération du support technique UCSM.

Étape 6. Ouvrez le terminal, accédez au répertoire où vous avez téléchargé le script de contrôle d'intégrité, exécutez python UCSMTool.py ou python3UCSMTool.py comme indiqué : .

Étape 7. Entrez le chemin d'accès du fichier de support technique UCSM et choisissez l'option souhaitée pour exécuter le script.
1. Vérification du fonctionnement d'UCSM
- Vérification avant mise à niveau

Comprendre les résultats/contrôles effectués
Contrôles effectués par le bilan de santé UCSM
Ces vérifications sont effectuées par UCSM-Healthchecktool :
- État du cluster UCSM HA : Affiche l'état de cluster des interconnexions de fabric.
- PMON Process State : affiche l'état de tous les processus dans Cisco UCS Manager.
- File System Mount : affiche la table de montage.
- Recherchez le problème de taille /var/ sysmgr : vérifie les utilisations /var/ sysmgr.
- Vérifier le problème de taille /var/ tmp : Vérifie si /var/ tmp est utilisé.
- 6296 FI insensible après un cycle d'alimentation, mise à jour de la révision matérielle : vérifie le module d'interconnexion de fabric et son numéro de révision matérielle.
- Défaillances avec gravité majeure ou gravité critique : Signale si vous disposez d'une alerte majeure ou critique dans UCS Manager.
- Vérifier la sauvegarde disponible : Vérifie si la sauvegarde est disponible dans UCS Manager.
- Keyring Cert Check : vérifie si le porte-clés a expiré ou est valide.
- Solution de contournement de sécurité requise ou non : Vérifie si une solution de sécurité est nécessaire ou non en vérifiant le modèle FI et sa version.
- Matériel déconseillé dans Cisco UCS Manager version 4.x : Recherche tout matériel déconseillé dans la version 4.x de Cisco UCS Manager.
- Matériel déconseillé trouvé à partir de la version 3.1.x : Recherche tout matériel déconseillé dans la version 3.x de Cisco UCS Manager.
- Recherchez le redémarrage de B200M4 en raison des champs MRAID12G vides : Vérifie si le serveur B200M4 a un S/N vierge du contrôleur RAID MRAID12G.
- UCSM 3.1 La modification de l'allocation d'alimentation maximale entraîne une panne de détection de lame : vérifie la politique d'alimentation configurée dans UCS Manager.
- Existence of bootflash corruption fault code F1219 : vérifie l'existence de bootflash corruption.
- Vérifiez que httpd ne démarre pas lorsque le trousseau par défaut est supprimé : Vérifie si le porte-clés par défaut est supprimé.
- 3rd GEN FIs a unclean file system states-"État du système de fichiers : nettoyer avec des erreurs" : Recherche une erreur de système de fichiers.
- Check for Server Auto-Install to 4.0(4b) Fails to Activate SAS Controller : vérifie la version du microprogramme hôte et la version de l'amplificateur SAS.
- Vérifiez que la mise à niveau du micrologiciel de la gamme C reste en cours, effectuez un inventaire du serveur, PNU OS Inventory : vérifie le modèle du serveur et sa version pour identifier si vous rencontrez ce problème.
- Vérifiez le domaine d'authentification UCSM qui utilise un point ou un tiret : Vérifie si le nom de domaine d'authentification est configuré avec un point ou un tiret.
- Échec de l'authentification locale ou de secours : vérifie la méthode d'authentification configurée pour un modèle FI particulier et vérifie également sa version.
- Contrôle d'intégrité entre UCSM et UCS Central : vérifie si UCS Manager est enregistré auprès d'UCS Central.
- Vérification du VLAN réservé : Vérifie si les VLAN utilisés proviennent d'une plage VLAN réservée.
- Groupes de broches LAN et SAN : Vérifie la configuration d'épinglage LAN/SAN dans votre cluster et met en surbrillance pour vérifier votre configuration avant la mise à niveau/toute activité MW.
- Vérification des activités en attente présentes dans UCSM : vérifie s'il existe des activités en attente dans votre domaine UCS Manager.
- Bilan de santé de l'IOM : Vérifie l'intégrité globale des modules E/S.
- Core Files available in UCSM Check : vérifie si un fichier Core est trouvé dans les 60 jours.
- Disjoint L2 - Erreur de configuration potentielle : vérifie s'il y a une erreur de configuration au cas où Disjoint L2 serait configuré.
- Problème du volet de liaison VIC 1400 et 6400 : vérifie les conditions présentes dans ce défaut.
- Vérifiez que les IOM 2304 se déconnectent et se reconnectent pendant la mise à jour du microprogramme : Vérifie le modèle de module d'interconnexion de fabric et d'E/S et identifie tout problème potentiel.
- DME Health Check : vérifie l'intégrité de la base de données DME (Data Management Engine).
- Number of Interface up and Flogi Matching on FI : vérifie le nombre d'interfaces et de sessions flogi.
- Jumbo ou Standard MTU Check : identifie la configuration MTU.
Exemple de numéro de sortie de l'outil UCSM
akmalla@ucsm_health_check-master % python3 UCSMTool.py
UCS Health Check Tool 2.0
Enter the UCSM file path: /Users/akmalla/Desktop/UCSM health Script/UCSMlog.tar
Press 1 for UCSM Health Check
Press 2 for PreUpgrade Check
Enter your choice (1/2): 1
Log Extraction: [########################] COMPLETED
UCSM Version: 4.3(2c)
Summary Result:
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| SlNo | Name | Status | Comments |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 1 | UCSM HA Cluster State | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 2 | PMON Process State | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 3 | File System Mount | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 4 | Check for /var/sysmgr size issue | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 5 | Check for /var/tmp size issue | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 6 | 6296 FI unresponsive after power cycle, HW revision update | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 7 | Faults with Severity Major or Severity Critical | Found | Review the faults and Contact TAC, if needed |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 8 | Check Backup Available | Backup Operation Not Found | Backup operation has not been found. Please ensure that the |
| | | | latest backup is captured as a best practice. |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 9 | Keyring Cert Check | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 10 | Safeshut Workaround Needed or Not | Not Needed | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 11 | Deprecated Hardware in Cisco UCS Manager Release 4.x | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 12 | Deprecated HW found for 3.1.x onwards | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 13 | Check for B200M4 reboot due to blank MRAID12G fields | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 14 | UCSM 3.1 Change in max power allocation causes blade discovery | Not Found | |
| | failure | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 15 | Existence of bootflash corruption fault code F1219 | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 16 | Check for httpd fail to start when default keyring is deleted | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 17 | 3rd GEN FIs has unclean file system states-"Filesystem state: | Not Found | |
| | clean with errors" | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 18 | Check for Server Auto-Install to 4.0(4b) Fails to Activate SAS | Not Found | |
| | Controller | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 19 | Check for C-Series firmware upgrade stays long in process | Not Found | |
| | "perform inventory of server" PNU OS Inventory | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 20 | Check UCSM Authentication Domain using a Period or Hyphen | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 21 | Local or fallback Authentication failure | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 22 | Health check between UCSM and UCS central | Not Found | UCS Manager is Not Registered |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 23 | Reserved VLAN Check | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 24 | LAN and SAN Pin Groups | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 25 | Checking Pending Activities Present in UCSM | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 26 | Health Check for IOM | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 27 | Core Files available in UCSM Check | Not Found | No core files were found in last 60 days |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 28 | Disjoint L2 potential misconfiguration | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 29 | VIC 1400 and 6400 Link Flap Issue | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 30 | Check 2304 IOMs disconnect and re-connect during firmware update | Not Found | |
| | step | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 31 | Number of Interface up and Flogi Matching on FI | --- | Primary: |
| | | | FC Port Trunking Count: 0, |
| | | | Eth up Port: 7, |
| | | | Flogi Count: 0 |
| | | | Secondary: |
| | | | FC Port Trunking Count: 0, |
| | | | Eth up Port: 7, |
| | | | Flogi Count: 0 |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 32 | Jumbo or Standard MTU Check | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
Faults with Severity Major:
F0331: Service profile DemoSP cannot be accessed
F0831: lan Member 1/2 of Port-Channel XXXX on fabric interconnect B is down, membership: down
F0858: lan port-channel XXXX on fabric interconnect B oper state: failed, reason: port-channel-members-down
F0831: lan Member 1/2 of Port-Channel XXXX on fabric interconnect A is down, membership: down
F0858: lan port-channel XXXX on fabric interconnect A oper state: failed, reason: port-channel-members-down
NOTE:
a. All reports and logs will be saved in the same location from where the script was executed.
b. Please visit the Summary Report/ Main Report to view all the Major and Critical Fault alerts.
Analyser les résultats de l'outil - Étapes suivantes
- L'outil automatise le processus d'exécution des commandes manuelles sur les systèmes UCS.
- Si l'outil fonctionne correctement et donne PASS/NOT FOUND sur tous les tests. Le système UCS convient à toutes les vérifications effectuées par le script.
- Dans les cas où l'outil FAIL/FOUND sur certaines vérifications ou ne s'exécute pas correctement, vous pouvez utiliser les commandes CLI (répertoriées ici) pour effectuer les mêmes vérifications sur l'interconnexion système/fabric UCS que celles effectuées par le script manuellement.
- L'outil NE vérifie PAS les anciennes/nouvelles/ouvertes/résolues et il est donc fortement recommandé de consulter les notes de version et les guides de mise à niveau d'UCS avant toute activité de mise à niveau ou de maintenance.
Conseil : Pour une vérification générale de l'état de votre environnement UCS, le TAC Cisco ne fournit pas ce service. L'équipe Cisco CX Customer Delivery Team (anciennement appelée Advanced Services) propose une analyse des bogues et des risques. Si vous avez besoin de ce type de service, contactez votre équipe de vente/compte.
Commandes CLI
SSH vers les deux interconnexions de fabric :
# show cluster extended-state, verify HA status is ready.
# connect local-mgmt ; # show pmon state, Verify the services are in running status.
# connect nxos ; # show system internal flash, Verify free size in /var/sysmgr and /var/tmp
# connect nxos ; # show module, verify HW revision number for 6296 fabric interconnects.
# show fault detail | include F1219, verify this fault code for bootflash corruption
# scope eth-uplink; # show reserved-vlan
# show iom health status, displays health of IOM
# show server status, verify the status of server.
# scope monitoring; # scope sysdebug; # show cores , verify if there are any core files.
# scope security; # scope keyring default; #show detail, verify details for default keyring, expiry etc.
# connect nxos; # show int br | grep -v down | wc –l, verify the number of active Ethernet interfaces.
# scope security; # show authentication, review the authentication type.
# connect nxos; # show flogi database, review the flogi database.