Einleitung
In diesem Dokument wird der Prozess der Ausführung des Health and Pre-Upgrade-Prüfungstools von Unified Computing System Manager (UCSM) beschrieben.
Voraussetzungen
Anforderungen
Cisco empfiehlt, Python 3.6 oder höher auf dem System zu installieren.
Anmerkung: Wenn Sie unter Windows OS arbeiten, können Sie Python installieren und den Umgebungspfad konfigurieren lassen.
Anmerkung: Öffnen Sie kein TAC-Ticket für Python-Probleme/Skript konnte nicht ausgeführt werden. Im Abschnitt "CLI-Befehle" können Sie das Problem manuell identifizieren und ein TAC-Ticket für jedes erkannte Problem erstellen.
Verwendete Komponenten
Dieses Dokument ist nicht auf bestimmte Software- und Hardware-Versionen beschränkt.
Die Informationen in diesem Dokument beziehen sich auf Geräte in einer speziell eingerichteten Testumgebung. Alle Geräte, die in diesem Dokument benutzt wurden, begannen mit einer gelöschten (Nichterfüllungs) Konfiguration. Wenn Ihr Netzwerk in Betrieb ist, stellen Sie sicher, dass Sie die möglichen Auswirkungen aller Befehle kennen.
Hintergrundinformationen
Das UCSM Check Tool ist ein Tool, mit dem Sie proaktive Selbstprüfungen des UCSM durchführen können, um dessen Stabilität und Ausfallsicherheit zu gewährleisten. Sie ermöglicht die Automatisierung einer Liste von Integritätsprüfungen und Prüfungen vor einem Upgrade für UCS-Systeme und spart so Zeit bei Upgrades und Wartungsarbeiten für die UCS-Infrastruktur.
Anmerkung: Laden Sie die neueste Version des Tools herunter, und verwenden Sie sie. Da das Tool häufig verbessert wird, kann es bei Verwendung einer älteren Version wichtige Prüfungen verpassen.
Anmerkung: Dieses Skript ist ein benutzerfreundliches Skript mit bestmöglicher Leistung. Sie kann jedoch nicht alle Probleme identifizieren.
Verwendungszweck
- Vor UCS-Infrastruktur-Upgrades
- Statusüberprüfung des UCS vor und nach Wartungsaktivitäten
- Zusammenarbeit mit dem Cisco TAC
- Proaktiver Health Check jederzeit
Nutzung
Windows-Betriebssystem
Schritt 1. Laden Sie die neueste Version von Python von Python Downloads
Schritt 2: Verwenden Sie den normalen Installationsvorgang, und klicken Sie auf Jetzt installieren (der empfohlene Prozess), um das Setup herunterzuladen.
Anmerkung: Aktivieren Sie Python zu PATH hinzufügen.

Schritt 3: Navigieren Sie zu dem Verzeichnis, in dem Python auf dem System installiert wurde.
Schritt 4: Öffnen Sie die Eingabeaufforderung, und geben Sie den Befehl Python ein, um die Python-Installation zu überprüfen.

Schritt 5: Laden Sie hier die neueste Version des Health Check-Skripts herunter und speichern Sie es in einem Ordner. Extrahieren Sie nun die komprimierte Datei, wie im Bild dargestellt.

Schritt 6: Laden Sie die neuesten technischen Support-Protokolle für UCSM herunter und speichern Sie sie in dem erstellten Ordner, wie im Bild gezeigt. Klicken Sie auf diesen Link, um nach den Schritten zum Herunterladen des UCSM-Protokollpakets zu suchen: Generieren des technischen Supports für UCSM
Schritt 7: Öffnen Sie CMD und cd in dem Ordner, in dem sich UCSMTool.py befindet, und führen Sie UCSMTool.py aus, wie im Bild dargestellt.

Schritt 8: Geben Sie den Dateipfad ein, unter dem sich die Datei für den technischen Support für UCSM befindet, und wählen Sie die gewünschte Option.
1. UCSM-Integritätsprüfung
2. Überprüfung vor dem Upgrade

MacOS
Schritt 1. MacOS kommt mit Standard-Python installiert. Überprüfen Sie die installierte Python-Version wie folgt:

Anmerkung: Falls die Python-Version älter als 3.6 ist, aktualisieren Sie auf Version 3.6 und höher.
Anmerkung: Wenn die Python-Version 3.6 oder höher ist, springen Sie zu Schritt 5, andernfalls springen Sie zu Schritt 2.
Schritt 2. Laden Sie die neueste Version von Python von Python Releases for Macros herunter.
Schritt 3: Verwenden Sie den normalen Installationsvorgang, um die Python-Installation abzuschließen/zu aktualisieren.
Schritt 4. Laden Sie die neueste Version des Health Check-Skripts von hier herunter und speichern Sie es in einem Ordner. Extrahieren Sie nun die komprimierte Datei, wie in diesem Bild gezeigt:

Schritt 5: Laden Sie die neuesten technischen Support-Protokolle für UCSM herunter und speichern Sie sie in dem erstellten Ordner, wie in diesem Bild dargestellt. Klicken Sie auf den Link, um nach den Schritten zum Herunterladen des UCSM-Protokollpakets zu suchen: Generieren des technischen Supports für UCSM

Schritt 6. Öffnen Sie das Terminal, navigieren Sie zu dem Verzeichnis, in das Sie das Skript für die Integritätsprüfung heruntergeladen haben, und führen Sie python UCSMTool.py oder python3UCSMTool.py aus, wie dargestellt:.

Schritt 7: Geben Sie den Dateipfad ein, unter dem sich die Datei für den technischen Support für UCSM befindet, und wählen Sie die gewünschte Option zum Ausführen des Skripts.
1. UCSM-Integritätsprüfung
- Prüfung vor dem Upgrade

Ermitteln der Ausgaben/Überprüfungen
Von UCSM HealthCheck durchgeführte Prüfungen
Diese Prüfungen werden mit dem UCSM-Healthcheck-Tool durchgeführt:
- UCSM HA-Clusterstatus: Zeigt den Cluster-Status der Fabric Interconnects an.
- PMON Process State: Zeigt den Status aller Prozesse in Cisco UCS Manager an.
- File System Mount (Dateisystembereitstellung): Zeigt die Bereitstellungstabelle an.
- Überprüfen Sie die Größe von /var/ sysmgr: Überprüft /var/sysmgr.
- Auf /var/ tmp-Größenproblem prüfen: Prüft, ob /var/ tmp verwendet wird.
- 6296 FI reagiert nach Aus- und Wiedereinschalten nicht, HW-Revisionsupdate: Verifiziert Fabric Interconnect-Modul und dessen HW-Revisionsnummer.
- Fehler mit Schweregrad "Major" oder "Severity Critical": Meldet schwerwiegende oder kritische Warnungen in UCS Manager.
- Überprüfen Sie die verfügbare Sicherung: Überprüft, ob die Sicherung in UCS Manager verfügbar ist.
- Keyring Cert Check: Überprüft, ob der Keyring abgelaufen oder gültig ist.
- Safeshut Workaround erforderlich oder nicht erforderlich: Überprüft das FI-Modell und seine Version, ob eine Absicherung erforderlich ist.
- Veraltete Hardware in Cisco UCS Manager Version 4.x: Prüft auf veraltete Hardware in Cisco UCS Manager 4.x.
- Veraltete Hardware für Version 3.1.x: Prüft auf veraltete Hardware in der Version Cisco UCS Manager 3.x.
- Überprüfen Sie, ob der B200M4 aufgrund leerer MRAID12G-Felder neu gestartet wurde: Überprüft, ob der B200M4-Server über eine leere S/N des MRAID12G RAID-Controllers verfügt.
- UCSM 3.1. Die Änderung der maximalen Leistungszuweisung verursacht einen Blade-Erkennungsfehler: Verifiziert die im UCS Manager konfigurierte Leistungsrichtlinie.
- Existenz von bootflash Korruption Fehlercode F1219: Überprüft das Vorhandensein von bootflash Korruption.
- Überprüfen Sie, ob httpd nicht startet, wenn der Standardkeyring gelöscht wird: Überprüft, ob der Standardkeyring gelöscht wird.
- FIs der dritten Generation weisen nicht saubere Dateisystemzustände auf -"Dateisystemzustand: mit Fehlern säubern": Prüft auf Dateisystemfehler.
- Überprüfen Sie, ob die automatische Serverinstallation auf 4.0(4b) den SAS-Controller nicht aktiviert: Überprüft die Host-Firmware-Version und die SAS-Expander-Version.
- Prüfen Sie, ob das Firmware-Upgrade der C-Serie lange in Gang bleibt, führen Sie eine Inventarisierung des Servers durch, PNU OS Inventory: Verifiziert das Servermodell und seine Version, um festzustellen, ob Sie dieses Problem behoben haben.
- Aktivieren Sie die UCSM-Authentifizierungsdomäne, die einen Punkt oder Bindestrich verwendet: Überprüft, ob der Authentifizierungsdomänenname mit einem Punkt oder Bindestrich konfiguriert ist.
- Lokaler Authentifizierungsfehler oder Fallback-Authentifizierungsfehler: Prüft die für ein bestimmtes FI-Modell konfigurierte Authentifizierungsmethode und verifiziert auch deren Version.
- Statusprüfung zwischen UCSM und UCS Central: Überprüft, ob UCS Manager bei UCS Central registriert ist.
- Prüfung des reservierten VLANs: Überprüft, ob die verwendeten VLANs aus dem reservierten VLAN-Bereich stammen.
- LAN- und SAN-Pin-Gruppen Prüft die LAN-/SAN-Pin-Konfiguration in Ihrem Cluster und hebt hervor, dass Sie Ihre Konfiguration vor dem Upgrade/vor MW-Aktivitäten überprüfen müssen.
- Überprüfen ausstehender Aktivitäten in UCSM: Überprüft, ob in Ihrer UCS Manager-Domäne ausstehende Aktivitäten vorhanden sind.
- Integritätsprüfung für IOM: Überprüft den Gesamtzustand der E/A-Module.
- In UCSM verfügbare Kerndateien prüfen: Überprüft, ob eine Kerndatei innerhalb von 60 Tagen gefunden wurde.
- Potenzielle fehlerhafte L2-Konfiguration: Überprüft, ob eine fehlerhafte Konfiguration vorliegt, falls die fehlerhafte L2-Konfiguration vorliegt.
- VIC 1400 und 6400 Link Flap Problem: Überprüft die Bedingungen in diesem Defekt.
- Überprüfen Sie, ob 2304 IOMs während des Firmware-Updates getrennt und erneut verbunden werden: Verifizierung des Fabric Interconnect- und E/A-Modulmodells und Identifizierung potenzieller Probleme
- DME Health Check: Überprüft den Zustand der Datenbank der Data Management Engine (DME).
- Number of Interface up and Flogi Matching on FI: Verifiziert die Anzahl der Schnittstellen und Flogi-Sitzungen.
- Jumbo- oder Standard-MTU-Prüfung: Identifiziert die MTU-Konfiguration.
Beispielausgabe des UCSM-Tools
akmalla@ucsm_health_check-master % python3 UCSMTool.py
UCS Health Check Tool 2.0
Enter the UCSM file path: /Users/akmalla/Desktop/UCSM health Script/UCSMlog.tar
Press 1 for UCSM Health Check
Press 2 for PreUpgrade Check
Enter your choice (1/2): 1
Log Extraction: [########################] COMPLETED
UCSM Version: 4.3(2c)
Summary Result:
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| SlNo | Name | Status | Comments |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 1 | UCSM HA Cluster State | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 2 | PMON Process State | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 3 | File System Mount | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 4 | Check for /var/sysmgr size issue | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 5 | Check for /var/tmp size issue | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 6 | 6296 FI unresponsive after power cycle, HW revision update | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 7 | Faults with Severity Major or Severity Critical | Found | Review the faults and Contact TAC, if needed |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 8 | Check Backup Available | Backup Operation Not Found | Backup operation has not been found. Please ensure that the |
| | | | latest backup is captured as a best practice. |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 9 | Keyring Cert Check | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 10 | Safeshut Workaround Needed or Not | Not Needed | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 11 | Deprecated Hardware in Cisco UCS Manager Release 4.x | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 12 | Deprecated HW found for 3.1.x onwards | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 13 | Check for B200M4 reboot due to blank MRAID12G fields | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 14 | UCSM 3.1 Change in max power allocation causes blade discovery | Not Found | |
| | failure | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 15 | Existence of bootflash corruption fault code F1219 | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 16 | Check for httpd fail to start when default keyring is deleted | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 17 | 3rd GEN FIs has unclean file system states-"Filesystem state: | Not Found | |
| | clean with errors" | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 18 | Check for Server Auto-Install to 4.0(4b) Fails to Activate SAS | Not Found | |
| | Controller | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 19 | Check for C-Series firmware upgrade stays long in process | Not Found | |
| | "perform inventory of server" PNU OS Inventory | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 20 | Check UCSM Authentication Domain using a Period or Hyphen | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 21 | Local or fallback Authentication failure | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 22 | Health check between UCSM and UCS central | Not Found | UCS Manager is Not Registered |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 23 | Reserved VLAN Check | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 24 | LAN and SAN Pin Groups | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 25 | Checking Pending Activities Present in UCSM | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 26 | Health Check for IOM | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 27 | Core Files available in UCSM Check | Not Found | No core files were found in last 60 days |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 28 | Disjoint L2 potential misconfiguration | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 29 | VIC 1400 and 6400 Link Flap Issue | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 30 | Check 2304 IOMs disconnect and re-connect during firmware update | Not Found | |
| | step | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 31 | Number of Interface up and Flogi Matching on FI | --- | Primary: |
| | | | FC Port Trunking Count: 0, |
| | | | Eth up Port: 7, |
| | | | Flogi Count: 0 |
| | | | Secondary: |
| | | | FC Port Trunking Count: 0, |
| | | | Eth up Port: 7, |
| | | | Flogi Count: 0 |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 32 | Jumbo or Standard MTU Check | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
Faults with Severity Major:
F0331: Service profile DemoSP cannot be accessed
F0831: lan Member 1/2 of Port-Channel XXXX on fabric interconnect B is down, membership: down
F0858: lan port-channel XXXX on fabric interconnect B oper state: failed, reason: port-channel-members-down
F0831: lan Member 1/2 of Port-Channel XXXX on fabric interconnect A is down, membership: down
F0858: lan port-channel XXXX on fabric interconnect A oper state: failed, reason: port-channel-members-down
NOTE:
a. All reports and logs will be saved in the same location from where the script was executed.
b. Please visit the Summary Report/ Main Report to view all the Major and Critical Fault alerts.
Analyse der Tool-Ausgabe - Weitere Schritte
- Das Tool automatisiert die Ausführung manueller Befehle auf UCS-Systemen.
- Wenn das Tool OK ausführt und bei allen Tests BESTANDEN/NICHT GEFUNDEN gibt. Das UCS-System eignet sich für alle Prüfungen, die das Skript durchgeführt hat.
- Wenn das Tool bei einigen Prüfungen FEHLGESCHLAGEN/GEFUNDEN wird oder nicht erfolgreich ausgeführt wird, können Sie die CLI-Befehle (hier aufgeführt) verwenden, um die gleichen Prüfungen für UCS System/Fabric Interconnect wie im Manually-Skript durchzuführen.
- Das Tool sucht NICHT nach alten/neuen/offenen/behobenen Vorbehalten. Daher wird dringend empfohlen, die UCS-Versionshinweise und die Upgrade-Leitfäden zu lesen, bevor Sie ein Upgrade durchführen oder Wartungsarbeiten durchführen.
Tipp: Im Rahmen einer allgemeinen Statusprüfung Ihrer UCS-Umgebung stellt das Cisco TAC diesen Service nicht zur Verfügung. Das CX Customer Delivery Team von Cisco (ehemals Advanced Services) bietet eine umfassende Bug Scrub/Risikoanalyse. Wenn Sie diese Art von Service benötigen, wenden Sie sich an Ihr Vertriebs-/Account-Team.
CLI-Befehle
SSH zu beiden Fabric Interconnects:
# show cluster extended-state, verify HA status is ready.
# connect local-mgmt ; # show pmon state, Verify the services are in running status.
# connect nxos ; # show system internal flash, Verify free size in /var/sysmgr and /var/tmp
# connect nxos ; # show module, verify HW revision number for 6296 fabric interconnects.
# show fault detail | include F1219, verify this fault code for bootflash corruption
# scope eth-uplink; # show reserved-vlan
# show iom health status, displays health of IOM
# show server status, verify the status of server.
# scope monitoring; # scope sysdebug; # show cores , verify if there are any core files.
# scope security; # scope keyring default; #show detail, verify details for default keyring, expiry etc.
# connect nxos; # show int br | grep -v down | wc –l, verify the number of active Ethernet interfaces.
# scope security; # show authentication, review the authentication type.
# connect nxos; # show flogi database, review the flogi database.