簡介
本文檔介紹運行統一計算系統管理器(UCSM)運行狀況和升級前檢查工具的過程。
必要條件
需求
思科建議您將Python 3.6或更高版本安裝在系統上。
附註:如果您正在運行Windows OS,則可以安裝Python並配置環境路徑。
附註:請勿開啟Python問題/指令碼無法運行的TAC案例。請參閱CLI命令部分以手動識別問題並根據識別的問題開啟TAC案例。
採用元件
本文件所述內容不限於特定軟體和硬體版本。
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路運作中,請確保您瞭解任何指令可能造成的影響。
背景資訊
UCSM檢查工具是一個實用程式,用於對UCSM執行主動自檢,以確保其穩定性和恢復能力。它有助於在UCS基礎設施升級和維護操作進行時,自動對UCS系統進行運行狀況檢查和升級前檢查的清單,從而節省時間。
附註:請始終下載並使用工具的最新版本。由於該工具經常增強,因此,當您使用較舊版本時,它可能會遺漏重要的檢查。
附註:此指令碼是盡力而為、可自由使用的指令碼。但是,它無法查明所有問題。
使用時機
- 維護活動前後的UCS運行狀況檢查
- 使用思科TAC時
- 隨時進行主動運行狀況檢查
使用方法
Windows作業系統
步驟1.從Python下載最新版本的Python
步驟2.使用正常安裝過程,然後按一下「Install Now」(建議安裝)以下載安裝程式。
附註:確保選中Add Python to PATH。

步驟3.導航到系統上安裝Python的目錄。
步驟4.開啟命令提示符,然後鍵入命令Python以驗證Python安裝。

步驟5.從此處下載運行狀況檢查指令碼的最新版本,並將其儲存到資料夾中。現在,提取壓縮檔案,如圖所示。

步驟6. 下載並將最新UCSM技術支援日誌儲存到所建立的資料夾中,如下圖所示。按一下此連結可查詢下載UCSM日誌捆綁包的步驟:正在生成UCSM技術支援。
步驟7.開啟CMD和cd到UCSMTool.py所在的資料夾,然後運行UCSMTool.py,如下圖所示。

步驟8.輸入UCSM技術支援檔案所在的檔案路徑,然後選擇所需選項。
1. UCSM運行狀況檢查
2.升級前檢查

MacOS
步驟1. MacOS附帶安裝預設Python。驗證安裝的Python版本,如下所示:

附註:如果Python版本低於3.6,請升級到3.6及更高版本。
附註:如果Python版本是3.6或更高版本,請跳至Step 5,否則跳至Step 2。
步驟2.從宏的Python版本下載最新版本的Python。
步驟3.使用正常安裝過程完成/升級Python安裝。
步驟4. 從此下載最新版本的運行狀況檢查指令碼,並將其儲存到資料夾中。現在,擷取壓縮檔案,如下圖所示:

步驟5. 下載並將最新UCSM技術支援日誌儲存到所建立的資料夾中,如下圖所示。按一下連結查詢下載UCSM日誌捆綁包的步驟:正在生成UCSM技術支援。

步驟6.開啟終端,瀏覽到下載健康檢查指令碼的目錄,運行python UCSMTool.py或python3UCSMTool.py,如下所示:

步驟7.輸入UCSM技術支援檔案所在的檔案路徑,然後選擇所需選項運行指令碼。
1. UCSM運行狀況檢查
- 升級前檢查

瞭解執行的輸出/檢查
由UCSM運行狀況檢查執行的檢查
這些檢查由UCSM-Healthchecktool執行:
- UCSM HA群集狀態:顯示交換矩陣互聯的群集狀態。
- PMON進程狀態:顯示CiscoUCS Manager中所有進程的狀態。
- 檔案系統裝載:顯示裝載表。
- 檢查/var/ sysmgr大小問題:檢查/var/sysmgr使用例項。
- 檢查/var/ tmp大小問題:檢查/var/ tmp使用例項。
- 6296 FI在電源週期後無響應,硬體版本更新:驗證交換矩陣互聯模組及其硬體版本號。
- 嚴重性為嚴重性或嚴重性為嚴重性的故障:報告您在UCS Manager中有任何重大或嚴重警報。
- 選中Backup Available:驗證UCS Manager中是否有可用備份。
- 金鑰環證書檢查:檢查金鑰環是否過期或有效。
- 是否需要安全解決方法:通過驗證FI型號及其版本來檢查是否需要安全修整解決方法。
- Cisco UCS Manager 4.x版中已棄用的硬體:檢查Cisco UCS Manager 4.x版本中任何不推薦使用的硬體。
- 從3.1.x版本開始,已棄用硬體:檢查Cisco UCS Manager 3.x版本中任何不推薦使用的硬體。
- 檢查B200M4是否由於空白MRAID12G欄位而重新啟動:檢查B200M4伺服器是否有空的MRAID12G RAID控制器S/N。
- UCSM 3.1最大功率分配更改會導致刀片發現失敗:驗證UCS Manager中配置的電源策略。
- Bootflash損壞存在故障代碼F1219:檢查bootflash損壞是否存在。
- 刪除預設金鑰環時,檢查httpd是否無法啟動:檢查是否刪除了預設金鑰環。
- 第3代FI具有不乾淨的檔案系統狀態 — 「檔案系統狀態:清理出錯":檢查檔案系統錯誤。
- 檢查伺服器自動安裝至4.0(4b)未啟用SAS控制器:驗證主機韌體版本和SAS擴展器版本。
- 檢查C系列韌體升級是否持續較長時間,執行伺服器清單、PNU作業系統清單:驗證伺服器型號及其版本,以確定您是否遇到此問題。
- 檢查使用句點或連字型大小的UCSM身份驗證域:驗證身份驗證域名是否配置了句號或連字字元。
- 本地或回退身份驗證失敗:檢查為特定FI模型配置的身份驗證方法並驗證其版本。
- UCS與UCS Central之間的運行狀況檢查:驗證UCS Manager是否已向UCS Central註冊。
- 保留VLAN檢查:檢查使用的VLAN是否來自保留VLAN範圍。
- LAN和SAN Pin組:檢查集群中的lan/san固定配置,並突出顯示以在升級之前檢視配置/任何MW活動。
- 檢查UCS Manager域中存在掛起的活動:驗證UCS Manager域中是否有任何掛起的活動。
- IOM運行狀況檢查:檢查IO模組的整體運行狀況。
- UCSM檢查中可用的核心檔案:驗證是否在60天內找到任何核心檔案。
- 脫節L2可能配置錯誤:驗證在配置脫節L2的情況下是否存在任何配置錯誤。
- VIC 1400和6400連結翻動問題:檢查此缺陷中存在的條件。
- 在韌體更新期間檢查2304 IOM斷開連線並重新連線:驗證交換矩陣互聯和IO模組型號並確定是否存在任何潛在問題。
- DME運行狀況檢查:驗證資料管理引擎(DME)資料庫的運行狀況。
- FI上介面和浮動匹配的數量:驗證介面和浮動會話的數量。
- Jumbo或標準MTU檢查:確定MTU配置。
UCSM工具輸出編號示例
akmalla@ucsm_health_check-master % python3 UCSMTool.py
UCS Health Check Tool 2.0
Enter the UCSM file path: /Users/akmalla/Desktop/UCSM health Script/UCSMlog.tar
Press 1 for UCSM Health Check
Press 2 for PreUpgrade Check
Enter your choice (1/2): 1
Log Extraction: [########################] COMPLETED
UCSM Version: 4.3(2c)
Summary Result:
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| SlNo | Name | Status | Comments |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 1 | UCSM HA Cluster State | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 2 | PMON Process State | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 3 | File System Mount | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 4 | Check for /var/sysmgr size issue | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 5 | Check for /var/tmp size issue | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 6 | 6296 FI unresponsive after power cycle, HW revision update | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 7 | Faults with Severity Major or Severity Critical | Found | Review the faults and Contact TAC, if needed |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 8 | Check Backup Available | Backup Operation Not Found | Backup operation has not been found. Please ensure that the |
| | | | latest backup is captured as a best practice. |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 9 | Keyring Cert Check | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 10 | Safeshut Workaround Needed or Not | Not Needed | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 11 | Deprecated Hardware in Cisco UCS Manager Release 4.x | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 12 | Deprecated HW found for 3.1.x onwards | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 13 | Check for B200M4 reboot due to blank MRAID12G fields | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 14 | UCSM 3.1 Change in max power allocation causes blade discovery | Not Found | |
| | failure | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 15 | Existence of bootflash corruption fault code F1219 | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 16 | Check for httpd fail to start when default keyring is deleted | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 17 | 3rd GEN FIs has unclean file system states-"Filesystem state: | Not Found | |
| | clean with errors" | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 18 | Check for Server Auto-Install to 4.0(4b) Fails to Activate SAS | Not Found | |
| | Controller | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 19 | Check for C-Series firmware upgrade stays long in process | Not Found | |
| | "perform inventory of server" PNU OS Inventory | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 20 | Check UCSM Authentication Domain using a Period or Hyphen | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 21 | Local or fallback Authentication failure | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 22 | Health check between UCSM and UCS central | Not Found | UCS Manager is Not Registered |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 23 | Reserved VLAN Check | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 24 | LAN and SAN Pin Groups | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 25 | Checking Pending Activities Present in UCSM | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 26 | Health Check for IOM | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 27 | Core Files available in UCSM Check | Not Found | No core files were found in last 60 days |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 28 | Disjoint L2 potential misconfiguration | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 29 | VIC 1400 and 6400 Link Flap Issue | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 30 | Check 2304 IOMs disconnect and re-connect during firmware update | Not Found | |
| | step | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 31 | Number of Interface up and Flogi Matching on FI | --- | Primary: |
| | | | FC Port Trunking Count: 0, |
| | | | Eth up Port: 7, |
| | | | Flogi Count: 0 |
| | | | Secondary: |
| | | | FC Port Trunking Count: 0, |
| | | | Eth up Port: 7, |
| | | | Flogi Count: 0 |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 32 | Jumbo or Standard MTU Check | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
Faults with Severity Major:
F0331: Service profile DemoSP cannot be accessed
F0831: lan Member 1/2 of Port-Channel XXXX on fabric interconnect B is down, membership: down
F0858: lan port-channel XXXX on fabric interconnect B oper state: failed, reason: port-channel-members-down
F0831: lan Member 1/2 of Port-Channel XXXX on fabric interconnect A is down, membership: down
F0858: lan port-channel XXXX on fabric interconnect A oper state: failed, reason: port-channel-members-down
NOTE:
a. All reports and logs will be saved in the same location from where the script was executed.
b. Please visit the Summary Report/ Main Report to view all the Major and Critical Fault alerts.
分析工具輸出 — 後續步驟
- 該工具自動執行在UCS系統上運行手動命令的流程。
- 如果工具運行OK並在所有測試上提供PASS/NOT FOUND。UCS系統適用於指令碼執行的所有檢查。
- 如果工具FAIL/FOUND在某些檢查中執行或未成功運行,可以使用CLI命令(此處列出)對UCS系統/交換矩陣互聯執行與指令碼Manually相同的檢查。
- 該工具不檢查任何舊/新/開啟/解決的警告,因此強烈建議在任何升級或維護活動之前檢視UCS發行說明和升級指南。
提示:對於您的UCS環境的常規運行狀況檢查,Cisco TAC不提供此服務。思科的CX客戶交付團隊(以前稱為「高級服務」)提供錯誤清理/風險分析。如果您需要此類服務,請與您的銷售/客戶團隊聯絡。
CLI命令
到兩個交換矩陣互聯的SSH:
# show cluster extended-state, verify HA status is ready.
# connect local-mgmt ; # show pmon state, Verify the services are in running status.
# connect nxos ; # show system internal flash, Verify free size in /var/sysmgr and /var/tmp
# connect nxos ; # show module, verify HW revision number for 6296 fabric interconnects.
# show fault detail | include F1219, verify this fault code for bootflash corruption
# scope eth-uplink; # show reserved-vlan
# show iom health status, displays health of IOM
# show server status, verify the status of server.
# scope monitoring; # scope sysdebug; # show cores , verify if there are any core files.
# scope security; # scope keyring default; #show detail, verify details for default keyring, expiry etc.
# connect nxos; # show int br | grep -v down | wc –l, verify the number of active Ethernet interfaces.
# scope security; # show authentication, review the authentication type.
# connect nxos; # show flogi database, review the flogi database.