本產品的文件集力求使用無偏見用語。針對本文件集的目的,無偏見係定義為未根據年齡、身心障礙、性別、種族身分、民族身分、性別傾向、社會經濟地位及交織性表示歧視的用語。由於本產品軟體使用者介面中硬式編碼的語言、根據 RFP 文件使用的語言,或引用第三方產品的語言,因此本文件中可能會出現例外狀況。深入瞭解思科如何使用包容性用語。
思科已使用電腦和人工技術翻譯本文件,讓全世界的使用者能夠以自己的語言理解支援內容。請注意,即使是最佳機器翻譯,也不如專業譯者翻譯的內容準確。Cisco Systems, Inc. 對這些翻譯的準確度概不負責,並建議一律查看原始英文文件(提供連結)。
本文檔介紹運行Unified Computing System Manager(UCSM)運行狀況和升級前檢查工具的過程。
思科建議您將Python 3.6或更高版本安裝在系統上。
注意:如果您正在運行Windows OS,則可以安裝Python並配置環境路徑。
注意:請勿開啟TAC案例,因為Python問題/指令碼無法運行。請參閱CLI命令部分以手動識別問題並根據識別的問題開啟TAC案例
本文件所述內容不限於特定軟體和硬體版本。
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路運作中,請確保您瞭解任何指令可能造成的影響。
UCSM檢查工具是一個實用程式,用於對UCSM執行主動自檢,以確保其穩定性和恢復能力。它有助於在UCS基礎設施升級和維護操作進行時,自動對UCS系統進行運行狀況檢查和升級前檢查的清單,從而節省時間。
注意:請始終下載並使用工具的最新版本。由於該工具經常增強,因此,當您使用較舊版本時,它可能會遺漏重要的檢查。
注意:此指令碼盡最大努力,可以自由使用,並且無法識別所有可能的問題。
步驟 1.從Python下載下載最新版本的Python
步驟 2.使用常規安裝過程並按一下Install Now(推薦的安裝)以下載安裝程式。
注意:確保選中Add Python to PATH。
步驟 3.導航到系統上安裝Python的目錄。
步驟 4.開啟命令提示符並鍵入命令Python以驗證python安裝。
步驟 5.從此處下載運行狀況檢查指令碼的最新版本,然後將其儲存到資料夾中。現在,提取壓縮檔案,如圖所示。
步驟 6.下載最新UCSM技術支援日誌並將其儲存到建立的資料夾,如下圖所示。按一下此連結可查詢下載UCSM日誌捆綁包的步驟;生成UCSM技術支援。
步驟 7.開啟CMD和cd,找到UCSMTool.py所在的資料夾,然後運行UCSMTool.py,如下圖所示。
步驟 8.輸入UCSM技術支援檔案所在的檔案路徑並選擇所需選項。
1. UCSM運行狀況檢查
2.升級前檢查
步驟 1.MacOS隨附預設的python安裝,驗證已安裝的python版本,如下所示:
註:如果python版本低於3.6,請升級到3.6及更高版本。
注意:如果python版本是3.6或更高版本,請跳至步驟5,否則跳至步驟2。
步驟 2.從https://www.python.org/downloads/macos/下載最新版本的Python。
步驟 3.使用正常安裝過程完成/升級python安裝。
步驟 4.從此處下載運行狀況檢查指令碼的最新版本,並將其保存到資料夾中。現在,提取壓縮檔案,如下圖所示。
步驟 5.下載最新的UCSM技術支援日誌並將其儲存到建立的資料夾,如下圖所示。按一下連結查詢下載UCSM日誌捆綁包的步驟;生成UCSM技術支援。
步驟 6.開啟終端,瀏覽至下載健康檢查指令碼的目錄,運行python UCSMTool.py或python3UCSMTool.py,如下圖所示。
步驟 7.輸入UCSM技術支援檔案所在的檔案路徑,然後選擇所需選項執行指令碼。
1. UCSM運行狀況檢查
這些檢查由UCSM-Healthchecktool執行:
UCSM HA集群 狀態: 顯示交換矩陣互聯的群集狀態。
PMON進程 狀態: 顯示Cisco UCS Manager中所有進程的狀態。
檔案系統裝載:顯示裝載表。
檢查/var/sysmgr大小問題:檢查/var/sysmgr使用情況。
檢查/var/tmp大小問題:檢查/var/tmp用途情況。
6296 FI在電源週期後無響應,硬體版本更新:驗證交換矩陣互聯模組及其硬體版本號。
嚴重性為嚴重或嚴重性為嚴重的故障:在UCS Manager中有任何嚴重或嚴重預警時報告。
選中Backup Available:驗證UCS Manager中是否有可用備份。
Keyring證書 檢查: 檢查金鑰環是否過期或有效。
需要還是不需要安全修整解決方法:通過驗證FI模型及其版本來檢查是否需要或不需要安全修整解決方法。
Cisco UCS Manager 4.x版本中已棄用的硬體:在Cisco UCS Manager 4.x版本中檢查是否有任何已棄用的硬體。
從3.1.x 開始找到不推薦使用的硬體:在Cisco UCS Manager 3.x版本中檢查所有不推薦使用的硬體
檢查B200M4是否由於空白MRAID12G欄位而重新啟動:檢查B200M4伺服器是否具有空白S/N的MRAID12G RAID控制器。
UCSM 3.1最大功率分配更改會導致刀片發現失敗:驗證UCS Manager中配置的電源策略。
bootflash損壞故障代碼F1219:檢查是否存在bootflash損壞。
檢查httpd在刪除預設金鑰環時是否無法啟動:檢查是否刪除了預設金鑰環。
第3代FI具有不清理的檔案系統狀態 — 「Filesystem state: clean with errors」:檢查檔案系統錯誤。
檢查伺服器自動安裝至4.0(4b)無法啟用SAS控制器:驗證主機韌體版本和SAS擴展器版本
檢查C系列韌體升級是否持續較長的過程「執行伺服器清單」 PNU作業系統清單:它驗證伺服器型號及其版本,以確定您是否遇到此問題。
檢查使用句點或連字元的UCSM身份驗證域:驗證身份驗證域名是否配置了句點或連字元。
本地或回退身份驗證失敗:檢查為特定FI模型配置的身份驗證方法並驗證其版本。
UCSM和UCS Central之間的運行狀況檢查:驗證UCSManager是否已向UCS Central註冊
LAN和SAN引腳組:檢查集群中的lan/san固定配置,突出顯示以在升級之前檢視配置/任何MW活動
檢查UCS Manager域中存在掛起的活動:驗證UCS Manager域中是否存在任何掛起的活動。
IOM運行狀況檢查:檢查IO模組的整體運行狀況。
Core Files available in UCSM Check:驗證在60天內是否發現了任何Core File。
脫節L2可能配置錯誤:在配置脫節L2的情況下,驗證是否存在任何配置錯誤。
VIC 1400和6400連結翻動問題:檢查此缺陷中是否存在條件
在韌體更新期間檢查2304個IOM斷開連線並重新連線:驗證交換矩陣互聯和IO模組型號並確定是否存在任何潛在問題。
DME運行狀況檢查:驗證資料管理引擎(DME)資料庫的運行狀況。
FI上介面和浮動匹配數:驗證介面和浮動會話的數量
Jumbo或標準MTU檢查:確定MTU配置。
afrahmad@AFRAHMAD-M-C3RS ucsm_health_check-master $ python UCSMTool.py
UCS Health Check Tool 1.1
Enter the UCSM file path: /Users/afrahmad/Desktop/20190328180425_fabric-5410-1k08_UCSM.tar
Press 1 for UCSM Health Check
Press 2 for PreUpgrade Check
Enter your choice (1/2): 2
Enter the UCS Target Version [Ex:4.1(1x)]: 4.2(1i)
Log Extraction: [########################] COMPLETED
UCSM Version: 3.2(3h)A
Target Version: 4.2(1i)
Upgrade Path: 3.2(3) ==> 4.2(1i)
Summary Result:
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| SlNo | Name | Status | Comments |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 1 | UCSM HA Cluster State | PASS | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 2 | PMON Process State | PASS | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 3 | File System Mount | PASS | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 4 | Check for /var/sysmgr size issue | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 5 | Check for /var/tmp size issue | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 6 | 6296 FI unresponsive after power cycle, HW revision update | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 7 | Faults with Severity Major or Severity Critical | Found | Review the faults and Contact TAC, if needed |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 8 | Check Backup Available | No Backup | Please ensure to take backup, |
| | | | Refer this link: |
| | | | http://go2.cisco.com/UCSBackup |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 9 | Keyring Cert Check | PASS | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 10 | Safeshut Workaround Needed or Not | Not Needed | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 11 | Deprecated Hardware in Cisco UCS Manager Release 4.x | Found | Review the release notes to verify the hardware compatibility. |
| | | | Refer this link: |
| | | | http://go2.cisco.com/RN-4 |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 12 | Deprecated HW found for 3.1.x onwards | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 13 | Check for B200M4 reboot due to blank MRAID12G fields | Found | Contact TAC |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 14 | UCSM 3.1 Change in max power allocation causes blade discovery | Not Found | |
| | failure | | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 15 | Existence of bootflash corruption fault code F1219 | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 16 | Check for httpd fail to start when default keyring is deleted | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 17 | 3rd GEN FIs has unclean file system states-"Filesystem state: | Not Found | |
| | clean with errors" | | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 18 | Check for Server Auto-Install to 4.0(4b) Fails to Activate SAS | Not Found | |
| | Controller | | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 19 | Check for C-Series firmware upgrade stays long in process | Not Found | |
| | "perform inventory of server" PNU OS Inventory | | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 20 | Check UCSM Authentication Domain using a Period or Hyphen | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 21 | Local or fallback Authentication failure | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 22 | Health check between UCSM and UCS central | Not Found | UCS Manager is Not Registered |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 23 | LAN and SAN Pin Groups | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 24 | Checking Pending Activities Present in UCSM | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 25 | Health Check for IOM | PASS | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 26 | Core Files available in UCSM Check | Not Found | No core files were found in last 60 days |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 27 | Disjoint L2 potential misconfiguration | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 28 | VIC 1400 and 6400 Link Flap Issue | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 29 | Check 2304 IOMs disconnect and re-connect during firmware update | Not Found | |
| | step | | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 30 | Number of Interface up and Flogi Matching on FI | --- | Primary: |
| | | | FC Port Trunking Count: 0, |
| | | | Eth up Port: 5, |
| | | | Flogi Count: 12 |
| | | | Secondary: |
| | | | FC Port Trunking Count: 0, |
| | | | Eth up Port: 5, |
| | | | Flogi Count: 12 |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 31 | Jumbo or Standard MTU Check | NOT_FOUND | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
Faults with Severity Major:
F0207: Adapter ether host interface 3/3/1/2 link state: down
F0207: Adapter ether host interface 3/3/1/4 link state: down
F0207: Adapter ether host interface 3/3/1/3 link state: down
F0283: ether VIF 1153 on server 3 / 3 of switch B down, reason: Admin config change
F0479: Virtual interface 1153 link state is down
We would recommend Customers should complete the below prior to an upgrade:
a. Review firmware release notes
b. Review compatibility
c. Upload required images
d. Generate/Review UCSM show tech
e. Determine vulnerable upgrade bugs and complete pro-active workaround
f. Verify FI HA and UCSM PMON status
g. Generate all configuration and full state backups (right before upgrade)
h. Verify data path is ready (right before upgrade)
i. Disable call home (right before upgrade)
NOTE:
a. All reports and logs will be saved in the same location from where the script was executed.
b. Please visit the Summary Report/ Main Report to view all the Major and Critical Fault alerts.
提示:對於您的UCS環境的常規運行狀況檢查,Cisco TAC不提供此服務。思科的CX客戶交付團隊(以前稱為「高級服務」)提供錯誤清理/風險分析。如果您需要此類服務,請與您的銷售/客戶團隊聯絡。
到兩個交換矩陣互聯的SSH:
# show cluster extended-state, verify HA status is ready.
# connect local-mgmt ; # show pmon state, Verify the services are in running status.
# connect nxos ; # show system internal flash, Verify free size in /var/sysmgr and /var/tmp
# connect nxos ; # show module, verify HW revision number for 6296 fabric interconnects.
# show fault detail | include F1219, verify this fault code for bootflash corruption
# show iom health status, displays health of IOM
# show server status, verify the status of server.
# scope monitoring; # scope sysdebug; # show cores , verify if there are any core files.
# scope security; # scope keyring default; #show detail, verify details for default keyring, expiry etc.
# connect nxos; # show int br | grep -v down | wc –l, verify the number of active Ethernet interfaces.
# scope security; # show authentication, review the authentication type.
# connect nxos; # show flogi database, review the flogi database.
修訂 | 發佈日期 | 意見 |
---|---|---|
3.0 |
28-Mar-2023 |
地址為PII。
已更新標題、簡介、替代文本、機器翻譯、樣式要求、種語和格式。 |
2.0 |
20-Dec-2021 |
新增了有關「工具」使用情況的附加說明。 |
1.0 |
16-Dec-2021 |
初始版本 |