簡介
本文檔介紹如何對無法與CIMC通訊的Cisco UCS C系列機架式服務器mLOM卡進行故障排除。
必要條件
需求
本文件沒有特定需求。
採用元件
本文中的資訊係根據以下軟體和硬體版本:
- 執行韌體版本4.0(4i)的Cisco整合運算系統(UCS)C220-M5
- 運行韌體版本4.3(3b)的Cisco UCS VIC 1387(這是模組化主機板區域網(mLOM)介面卡)
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路運作中,請確保您瞭解任何指令可能造成的影響。
背景資訊
mLOM安裝在Cisco UCS控制器、計算、對象存儲磁碟(OSD)計算和ceph節點中。
虛擬介面卡(VIC)是UCS伺服器中充當mLOM卡的介面卡。
mLOM VIC介面卡是一個現場可更換單元(FRU),根據Undercloud和Overcloud網路要求放置在控制器、計算和儲存伺服器中。
- 控制器伺服器有一個mLOM(帶2個10GigE埠)、一個LOM(帶2個1Gb埠)和1Gb思科整合管理控制器(CIMC)埠。
- 計算伺服器有一個mLOM(帶2x10GigE埠)、一個LOM(帶2x1Gb埠)、兩個插槽1和4中的PCIe卡(帶2x10GigE)和1個GigE CIMC。
- OSD計算伺服器有一個mLOM(帶2x10GigE埠)、一個LOM(帶2xGb埠)和兩個PCIe卡(位於插槽1和4中,帶2x10GigE埠(10GigE)和1xGb CIMC埠)。
- 儲存伺服器有一個mLOM(2個10GigE埠)、一個LOM(2個Gb埠)和1Gb CIMC埠。
mLOM介面通過為各種網路提供VIM網路介面,為超雲調配、VNF管理和協調提供服務。這些網路可以包括外部浮動IP網路、內部API網路、儲存網路、儲存管理網路和租戶網路。
排除mLOM和CIMC之間的通訊問題,以幫助維護這些網路中的功能。

症狀
症狀1. CIMC GUI顯示「無法與介面卡卡通訊 — mLOM」
在UCS CIMC中訪問網路/介面卡卡 — mLOM時,GUI顯示「無法與介面卡卡 — mLOM通訊」消息。重新載入WebUI以獲取最新資料。"

症狀2. mLOM未顯示在UCS介面卡清單中
在UCS技術支援檔案路徑<TMP > tech_support.frupids>中標籤為tech_support.frupids的UCS技術支援檔案的介面卡清單中沒有mLOM條目。
在正常情況下,mLOM將顯示在UCS技術支援tech_support_frupids介面卡清單中。
AdapterList:
…
Slot: MLOM
Description: Cisco UCS VIC1387 Virtual Interface Card - Dual Port 40Gb QSFP+ MLOM
PID: UCSC-MLOM-C40Q-03
CPN: xxxxx
powMin: xxxxx
powMax: xxxxx
Vendor: xxxxx
Device: xxxxx
SubVendor: xxxxx
SubDevice: xxxxx
症狀3. mLOM未顯示在「scope adapter mlom」的CIMC CLI範圍機箱輸出中
C220-node/chassis # scope adapter mlom
Error: Managed object does not exist, use show command to list valid targets
症狀4. IPMI感測器未檢測到mLOM
根據UCS技術支援檔案<UCS技術支援>tmp > tech_support>,智慧平台管理介面(IPMI)感測器未檢測到mLOM卡。
Running: dumpIPMISensors
Querying All IPMI Sensors:
Sensor Name | Reading | Unit | Status | LNR | LC | LNC | UNC | UC | UNR |
=================|=========|==============|========|=========|=========|=========|=========|=========|=========|
MLOM_PRSNT | disc -> | discrete | 0x0280 | na | na | na | na | na | na |
MLOM_TEMP | 38.000 | degrees C | OK | na | na | na | na | 90.000 | 95.000 |
mLOM卡部分檢測
CIMC通過伺服器主機板上的感測器和連線觀察伺服器清單,但伺服器作業系統通過伺服器資料通道觀察硬體。由於CIMC和伺服器作業系統清單使用不同的物理路徑來監視mLOM卡,因此可以部分檢測到mLOM卡,或者CIMC清單資料可以顯示與伺服器作業系統不同的結果。
- mLOM可能出現在現場可更換單元(FRU)記錄<UCS技術支援> TMP > tech_support.frupids>中。
====== Dumping IPMI FRU Records ======
…
FRU Device Description : FRU_MLOM (ID
Board Mfg : Cisco Systems Inc
Board Product : UCSC-MLOM-C40Q-03
Board Serial : FCH2328764C
Board Part Number : 73-17793-06
Board Extra : A03V04
Board Extra : 0000000000
OEM (0xUnknown (0x9)) Record
- mLOM存在似乎已在UCS技術支援SEL解碼<UCS技術支援>var > sel_decode>中確認。
Id: 757
severity: Normal
dateTime: 2023-12-29 11:08:15 EST
dateTimeOrder: 00028
description: "FRU_MLOM MLOM_PRSNT: Presence sensor for FRU_MLOM, Device Inserted / Device Present was asserted"
- BIOS技術日誌<UCS Tech Support > mnt > jffs2 > BIOS > bt > BiosTech.log>可顯示先前檢測到mLOM卡。
7:2023 Dec 29 11:04:33 EST:mLomPresent = TRUE
7:2023 Dec 29 11:04:33 EST:mLomSku = mLOM-x8
- mLOM可以在UCS技術支援庫存介面卡清單和FRU詳細資訊清單<UCS技術支援>var >清單 — all>中顯示。
Adapter List
slot-number: MLOM
serial-number: FCH2328764C
card-type: 81
asic-type: 1
product-id: UCSC-MLOM-C40Q-03
asic-name: cruz
hw-part-no: 73-17793-06
hw-revision: 3
i2cLogicalBus: 112
new-card: no
active: no
standby-power: no
overtemp-condition: no
fan-running: no
ncsiPackageId: 1
eth-interface: eth0
bmc-mac0: 2c:f8:9b:29:7d:de
bmc-mac1: 2c:f8:9b:29:7d:df
cruz-mac: 2c:f8:9b:29:7d:c2
ipAddress: 127.16.3.1
remoteIPAddress: 127.16.3.2
virtual-eth-if: eth0_m3.4043
actions-blocked: yes
capabilities: 0x1
diagnostic-mode: no
UCSM-mode: Standalone
description:
...
FRU Details
FRU_MLOM(ID8)
Board Mfg : Cisco Systems Inc
Board Product : UCSC-MLOM-C40Q-03
Board Serial : FCH2328764C
Board Part Number : 73-17793-06
Board Extra : A03V04
Board Extra : 0000000000
OEM (0xUnknown (0x9)) Record
- mLOM可以顯示在CIMC CLI mLOM介面卡範圍<show detail>輸出中顯示。
C220-WZP2204006C /chassis # scope adapter MLOM
C220-WZP2204006C /chassis/adapter # show detail
PCI Slot MLOM:
Product Name: N/A
Serial Number: FCH22127H6J
Product ID: UCSC-MLOM-C40Q-03
Adapter Hardware Revision: 3
Current FW Version: N/A
VNTAG: N/A
FIP: N/A
LLDP: N/A
PORT CHANNEL: N/A
Configuration Pending:
Cisco IMC Management Enabled: no
VID: N/A
Vendor: N/A
Description:
Bootloader Version: N/A
FW Image 1 Version: N/A
FW Image 1 State: N/A
FW Image 2 Version: N/A
FW Image 2 State: N/A
FW Update Status: N/A
FW Update Error: N/A
FW Update Stage: N/A
FW Update Overall Progress: N/A
疑難排解步驟
在每個步驟之間,檢查<show pci-adapter>的作用域機箱輸出中是否可以看到mLOM卡。
附註:「Not-Loaded」仍可能出現在這些輸出中,這是由於伺服器狀態,而非與mLOM卡通訊時出現的任何問題。
C220-node# scope chassis
C220-node /chassis # show pci-adapter
Slot Vendor ID Device ID SubVendor ID SubDevice ID Firmware Version Product Name Option ROM Status
---------- ---------- ---------- ------------- ------------- ------------- ------------------------- ----------
MLOM 0x1137 0x0042 0x1137 0x015d 4.3(3b) Cisco UCS VIC 1387 MLOM Not-Loaded <<<<<<<<<<<<
MRAID 0x1000 0x0014 0x1137 0x020e 51.10.0-3151 Cisco 12G Modular Raid... Not-Loaded
L 0x8086 0x1563 0x1137 0x01a3 0x80000EC9... Intel X550 LOM Not-Loaded
步驟1.檢查物理連線
跟蹤mLOM上兩個埠與其網路交換機之間的電纜,以確保它們未損壞。必要時更換電纜和小型可插拔(SFP)。
— 斷開並重新連線伺服器端的SFP,並評估mLOM連線。
— 斷開並重新連線mLOM卡上的SFP,並評估mLOM連線。
步驟2.確認BIOS是否已啟用所有埠。如果沒有啟用,則啟用埠。
步驟2.1.通過重新啟動伺服器並按一下F2進入Aptio設定實用程式來訪問伺服器上的BIOS。
步驟2.2.在BIOS選單中,導航至「高級LOM和PCI選項」,並確保啟用「所有板載LOM埠」。

步驟2.3.導航至PCIe插槽清單詳細資訊。必須在此處顯示插槽mLOM卡的詳細資訊。例如,缺少插槽mLOM。

步驟3.重新啟動CIMC
CIMC重新啟動只會重新啟動CIMC管理平面。伺服器資料平面不受影響。
步驟3.1.進入CIMC命令模式Server# scope cimc。
步驟3.2.使用Server /cimc # reboot重新啟動CIMC。
步驟4.運行Cisco UCS主機升級實用程式(HUU)以刷新UCS
步驟4.1.使用<show brief>命令收集韌體版本。
Running: showBrief
Fri Dec 29 11:13:29 EST 2023
BMC Version Info
ver: 4.0(4i) <<<<<<<< Firmware Version
步驟4.2.從Cisco軟體下載網站,下載適用於UCS韌體版本的相應Cisco UCS主機升級實用程式。
https://software.cisco.com/download/home
例如,對於版本為4.0(4i)的UCS C220 M5,正確的實用程式版本為ucs-c220m5-huu-4.0.4i.iso。
https://software.cisco.com/download/home/286318809/type/283850974/release/4.0(4i)
步驟4.3.使用同一型號Cisco UCS伺服器的「Cisco Host Upgrade Utility User Guide」中「Updating Firmware Using the Update All Option」一節中列出的步驟刷新UCS韌體。
例如,對於UCS C220 M5型號伺服器,更新韌體的指南位於:https://www.cisco.com/c/en/us/td/docs/unified_computing/ucs/c/sw/lomug/2-0-x/3_0/b_huu_3_0_1/b_huu_2_0_13_chapter_011.html。
- 如果HUU出現提示,指示「運行版本和打包版本相同,請跳過更新。」,在刷新過程中,正確的韌體已在此UCS伺服器上運行。

- 檢查Cisco HUU是否顯示mLOM卡存在。以下是未顯示mLOM卡的Cisco HUU實用程式的示例。

步驟5.物理重新拔插mLOM介面卡卡
使用同一型號Cisco UCS伺服器的《伺服器安裝和服務指南》中「更換mLOM卡」中描述的步驟,以物理方式重新拔插mLOM介面卡卡。
例如,對於UCS C220 M5型號伺服器,有關重新拔插mLOM的指南位於:https://www.cisco.com/c/en/us/td/docs/unified_computing/ucs/c/hw/C220M5/install/C220M5/C220M5_chapter_010.html#task_zz5_h1m_3z。

結論
如果物理連線和BIOS埠已經過驗證,並且在CIMC上進行了硬重啟,伺服器韌體已經用正確的韌體重新閃爍,並且已物理重放mLOM,但mLOM卡沒有出現在<show pci-adapter>的輸出中,可以得出mLOM硬體故障。在這種情況下,請更換mLOM卡。
相關資訊