簡介
本文檔介紹如何排除大多數UCS伺服器型別都存在的伺服器無法訪問的常見故障。
必要條件
需求
思科建議您瞭解在統一計算系統管理器(UCSM)和Intersight託管模式(IMM)中管理伺服器的知識。
採用元件
本文件所述內容不限於特定軟體和硬體版本。
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路運作中,請確保您瞭解任何指令可能造成的影響。
背景資訊
使用者在其UCS域中可以接收到常見故障,即通知您伺服器無法訪問。這可能是由於多種原因,並且根據監控工具和UCSM/IMM版本的不同,故障看起來可能有些不同。
System Notification from [UCSM Domain Name] - diagnostic:GOLD-minor - 2023-05-25 01:56:41 GMT-04:00 Recovered : Server x/y (service profile: org-root/ls-[service_profile]) inaccessible
Serial number: [Server Serial]
Alert: System Name: [UCSM Domain Name]
Time of Event:2022-08-31 03:15:04 GMT-05:00 Event Description:Server x (service profile: org-root/ls-[service_profile]) inaccessible Severity Level:4
如果正在使用IMM,則在GUI中可能會看到Connection to Server was lost消息。還可以觀察到與Intersight故障的斷開。
與伺服器的連線已丟失IMM
當刀鋒上的思科整合式管理控制器(CIMC)遇到問題,重新啟動或嘗試重新啟動時,可以看到此警報。這將觸發「伺服器無法訪問」警報,因為當刀片的管理平面重新啟動時,UCSM/IMM無法與刀片通訊,因此它認為無法訪問。CIMC重新啟動後,刀片狀態將恢復正常。
這就是為什麼您可以收到此警報,然後當您檢查域時,伺服器會查詢並正常運行。
常見缺陷參考
思科錯誤ID CSCwe19822 — 適用於X系列4.2(2c)/5.0(1c)之後的M5/M6伺服器
思科錯誤ID CSCwa8567 — 適用於4.1(3e)- 4.2(2a)之間的M5/M6伺服器也包括5.0(1b)之後的X系列
思科漏洞ID CSCvz62711 — 適用於4.1(3d)- 4.2(2a)之間的M5/M6伺服器
思科錯誤ID CSCwi50991 — 適用於4.3(2e)之前代碼的M5/M6系列刀片
思科錯誤ID CSCvv79912 — 適用於4.0(4h)和4.2(1a)/4.1(3d)之間的M5/M6伺服器
思科錯誤ID CSCvh25786 — 適用於2.0(13f)和3.0(4a)之後的M4/M5伺服器
疑難排解
案例 1
第一個也是最常見的情況是收到警報,然後當檢查UCSM/IMM時,伺服器看起來是可操作、正常且沒有(新)故障。檢查作業系統時,它似乎已正常運行且沒有中斷。
UCSM中的正常伺服器
日誌捆綁包在可在CIMCx_TechSupport.tar.gz > obfl > obfl-log上找到的某個OBFL日誌中顯示此消息。
3:2022 Sep 8 10:54:33 UTC:+0000:(4.2(2d)):kernel:-:[watchdog_init]:976:BMC Watchdog resetted BMC.
這告訴我們CIMC崩潰並自行重新啟動。
在此場景中,由於CIMC成功重新啟動,因此不需要執行進一步的操作,並且伺服器沒有問題。
案例 2
下一個情況是收到警報,然後當檢查UCSM/IMM時,如果使用UCSM,伺服器仍顯示為無法訪問;如果使用IMM,伺服器仍顯示為已斷開連線。 檢查作業系統時,它似乎已啟動且運行正常,沒有中斷。
當OS啟動並運行,但UCSM/IMM無法與刀片進行通訊時,這意味著CIMC要麼沒有重新啟動,要麼在進程中停滯。
此場景中的第一步是使用SSH或控制檯連線到交換矩陣互聯(FI),然後運行此命令,用受影響的機箱/刀片替換x/y。有三種不同的結果。
1)成功連線到CIMC。
UCSM-A# connect cimc x (For C Series Rack Mount Server)
UCSM-A# connect cimc x/y (For B/X Series Blade Server)
Trying 127.5.1.1...
Connected to 127.5.1.1.
Escape character is '^]'.
CIMC Debug Firmware Utility Shell [ support ]
[ help ]#
如果顯示此輸出,則CIMC上仍有一些生命期,您可以嘗試重置CIMC以恢復刀片。
如果使用UCSM,請導航至Equipment > Chassis > Chassis Number > Servers > Server Number > Recover Server > Reset CIMC。
刀片恢復伺服器的位置
重置CIMC
如果正在使用IMM,請導航到受影響的伺服器,然後選擇Actions > System > Reboot Management Controller。
重新啟動管理控制器IMM
如果在重新啟動CIMC後伺服器恢復正常,則問題會得到解決並且不需要進一步的操作。
如果故障仍然存在,請繼續執行下一個connect cimc輸出的故障排除步驟。
2)無法連線到CIMC。
UCSM-A# connect cimc x (For C Series Rack Mount Server)
UCSM-A# connect cimc x/y (For B/X Series Blade Server)
Trying 127.5.1.8...
telnet: Unable to connect to remote host: No route to host
3)與CIMC攤位的連線。在這種情況下,執行完命令後不會發生任何操作,並且在嘗試轉義(Ctrl + C)時會顯示此情況。
UCSM-A# connect cimc x (For C Series Rack Mount Server)
UCSM-A# connect cimc x/y (For B/X Series Blade Server)
^C
Console escape. Commands are:
l go to line mode
c go to command mode
z suspend telnet
e exit telent
continuing...
後兩個輸出中任一輸出的故障排除相同。在這些情況下,CIMC完全關閉,無法與交換矩陣互聯通訊。需要重新啟動伺服器才能恢復CIMC。重新引導Blade時,始終建議選擇一個維護視窗。
如果正在使用UCSM,您可以模擬通過SSH連線到交換矩陣互聯並運行此命令來用受影響的機箱/伺服器替換x/y來物理重新拔插刀片。您必須輸入正確的機箱/伺服器,因為此命令不會提示您進行確認。
UCSM-A# reset slot x/y
註:reset slot命令會立即重新啟動指定插槽x/y中的刀片式伺服器。如果作業系統仍在運行,請確保伺服器可以安全重新啟動。
如果成功,此命令不會返回任何內容。如果命令無法執行,則會顯示一條消息。
如果IMM正在使用中,或者reset slot命令未解決無法訪問的問題,則唯一的其它選項是物理重新啟動刀片式伺服器。
如果在物理重新拔插刀片後,問題仍然存在,請聯絡TAC進行進一步的故障排除。
案例 3
最終情況是收到警報,然後當檢查UCSM/IMM時,如果使用UCSM,伺服器仍顯示為無法訪問;如果使用IMM,伺服器仍顯示為已斷開連線。 檢查作業系統時,該作業系統處於關閉狀態,也無法訪問。
在這種情況下,所能做的只是重新啟動伺服器。如果無法重新啟動,請實際重新拔插伺服器。
如果在物理重新拔插刀片後,問題仍然存在,請聯絡TAC進行進一步的故障排除。
結論
接收伺服器無法訪問的故障的原因有多種,有些故障比其他故障的影響更大。此處提供的步驟是一個很好的起點,可以開始評估是否需要進行任何故障排除,或者您的域是否正常且不需要執行任何操作。