简介
本文档介绍如何对Cisco UCS C系列机架式服务器mLOM卡进行故障排除,该卡无法与CIMC通信。
先决条件
要求
本文档没有任何特定的要求。
使用的组件
本文档中的信息基于以下软件和硬件版本:
- 运行固件版本4.0(4i)的思科统一计算系统(UCS)C220-M5
- 运行固件版本4.3(3b)的Cisco UCS VIC 1387(这是模块化板载局域网(mLOM)适配器)
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。
背景信息
mLOM安装在Cisco UCS控制器、计算、对象存储磁盘(OSD)计算和ceph节点中。
虚拟接口卡(VIC)是充当UCS服务器中的mLOM卡的适配器。
mLOM VIC适配器是一个现场可更换单元(FRU),根据Undercloud和Overcloud网络要求放置在控制器、计算和存储服务器中。
- 控制器服务器具有一个mLOM(带2个10GigE端口)、一个LOM(带2个1Gb端口)和1Gb思科集成管理控制器(CIMC)端口。
- 计算服务器有一个mLOM(带2x10GigE端口)、一个LOM(带2x1Gb端口)、两个插槽1和4中的PCIe卡(带2x10GigE)和1个GigE CIMC。
- OSD计算服务器具有一个mLOM(带2x10GigE端口)、一个LOM(带2xGb端口)和两个PCIe卡(位于插槽1和4中,带2x10GigE端口10GigE、1xGb CIMC端口)。
- 存储服务器有一个mLOM(带2个10GigE端口)、一个LOM(带2个Gb端口)和1Gb CIMC端口。
mLOM接口通过为各种网络提供VIM网络接口,为超云调配、VNF管理和协调提供服务。这些网络可以包括外部浮动IP网络、内部API网络、存储网络、存储管理网络和租户网络。
排除mLOM和CIMC之间的通信问题,以帮助维护这些网络中的功能。

症状
症状1. CIMC GUI显示“无法与适配器卡通信 — mLOM”
在UCS CIMC中访问网络/适配器卡 — mLOM时,GUI显示“无法与适配器卡 — mLOM通信”消息。重新加载WebUI以获取最新数据。"

症状2. mLOM未出现在UCS适配器列表中
在UCS技术支持文件路径<TMP > tech_support.frupids>中标记为tech_support.frupids的UCS技术支持文件的适配器列表中没有mLOM条目。
在正常情况下,mLOM显示在UCS技术支持tech_support_frupids适配器列表中。
AdapterList:
…
Slot: MLOM
Description: Cisco UCS VIC1387 Virtual Interface Card - Dual Port 40Gb QSFP+ MLOM
PID: UCSC-MLOM-C40Q-03
CPN: xxxxx
powMin: xxxxx
powMax: xxxxx
Vendor: xxxxx
Device: xxxxx
SubVendor: xxxxx
SubDevice: xxxxx
症状3. mLOM未出现在“scope adapter mlom”的CIMC CLI范围机箱输出中
C220-node/chassis # scope adapter mlom
Error: Managed object does not exist, use show command to list valid targets
症状4. IPMI传感器未检测到mLOM
根据UCS技术支持文件<UCS Tech support > tmp > tech_support>,智能平台管理接口(IPMI)传感器未检测到mLOM卡。
Running: dumpIPMISensors
Querying All IPMI Sensors:
Sensor Name | Reading | Unit | Status | LNR | LC | LNC | UNC | UC | UNR |
=================|=========|==============|========|=========|=========|=========|=========|=========|=========|
MLOM_PRSNT | disc -> | discrete | 0x0280 | na | na | na | na | na | na |
MLOM_TEMP | 38.000 | degrees C | OK | na | na | na | na | 90.000 | 95.000 |
mLOM卡部分检测
CIMC通过服务器主板上的传感器和连接观察服务器资产,但服务器操作系统通过服务器数据通道观察硬件。由于CIMC和服务器操作系统资产使用不同的物理路径来监视mLOM卡,因此可以部分检测mLOM卡,或者CIMC资产数据可以显示与服务器操作系统不同的结果。
- mLOM可显示在现场可更换单元(FRU)记录<UCS技术支持> TMP > tech_support.frupids>中。
====== Dumping IPMI FRU Records ======
…
FRU Device Description : FRU_MLOM (ID
Board Mfg : Cisco Systems Inc
Board Product : UCSC-MLOM-C40Q-03
Board Serial : FCH2328764C
Board Part Number : 73-17793-06
Board Extra : A03V04
Board Extra : 0000000000
OEM (0xUnknown (0x9)) Record
- 在UCS技术支持SEL解码<UCS技术支持>var > sel_decode>中,可以显示mLOM存在。
Id: 757
severity: Normal
dateTime: 2023-12-29 11:08:15 EST
dateTimeOrder: 00028
description: "FRU_MLOM MLOM_PRSNT: Presence sensor for FRU_MLOM, Device Inserted / Device Present was asserted"
- BIOS技术日志<UCS Tech Support > mnt > jffs2 > BIOS > bt > BiosTech.log>可以显示之前检测到mLOM卡。
7:2023 Dec 29 11:04:33 EST:mLomPresent = TRUE
7:2023 Dec 29 11:04:33 EST:mLomSku = mLOM-x8
- mLOM可以显示在UCS技术支持库存适配器列表和FRU详细信息列表<UCS技术支持>var >库存 — all>。
Adapter List
slot-number: MLOM
serial-number: FCH2328764C
card-type: 81
asic-type: 1
product-id: UCSC-MLOM-C40Q-03
asic-name: cruz
hw-part-no: 73-17793-06
hw-revision: 3
i2cLogicalBus: 112
new-card: no
active: no
standby-power: no
overtemp-condition: no
fan-running: no
ncsiPackageId: 1
eth-interface: eth0
bmc-mac0: 2c:f8:9b:29:7d:de
bmc-mac1: 2c:f8:9b:29:7d:df
cruz-mac: 2c:f8:9b:29:7d:c2
ipAddress: 127.16.3.1
remoteIPAddress: 127.16.3.2
virtual-eth-if: eth0_m3.4043
actions-blocked: yes
capabilities: 0x1
diagnostic-mode: no
UCSM-mode: Standalone
description:
...
FRU Details
FRU_MLOM(ID8)
Board Mfg : Cisco Systems Inc
Board Product : UCSC-MLOM-C40Q-03
Board Serial : FCH2328764C
Board Part Number : 73-17793-06
Board Extra : A03V04
Board Extra : 0000000000
OEM (0xUnknown (0x9)) Record
- mLOM可以显示在CIMC CLI mLOM适配器范围<show detail>输出中。
C220-WZP2204006C /chassis # scope adapter MLOM
C220-WZP2204006C /chassis/adapter # show detail
PCI Slot MLOM:
Product Name: N/A
Serial Number: FCH22127H6J
Product ID: UCSC-MLOM-C40Q-03
Adapter Hardware Revision: 3
Current FW Version: N/A
VNTAG: N/A
FIP: N/A
LLDP: N/A
PORT CHANNEL: N/A
Configuration Pending:
Cisco IMC Management Enabled: no
VID: N/A
Vendor: N/A
Description:
Bootloader Version: N/A
FW Image 1 Version: N/A
FW Image 1 State: N/A
FW Image 2 Version: N/A
FW Image 2 State: N/A
FW Update Status: N/A
FW Update Error: N/A
FW Update Stage: N/A
FW Update Overall Progress: N/A
故障排除步骤
在每个步骤之间,检查mLOM卡是否可在<show pci-adapter>的机箱输出范围中看到。
注意:“Not-Loaded”仍可能出现在这些输出中,原因在于服务器状态,而不是与mLOM卡通信时出现的任何问题。
C220-node# scope chassis
C220-node /chassis # show pci-adapter
Slot Vendor ID Device ID SubVendor ID SubDevice ID Firmware Version Product Name Option ROM Status
---------- ---------- ---------- ------------- ------------- ------------- ------------------------- ----------
MLOM 0x1137 0x0042 0x1137 0x015d 4.3(3b) Cisco UCS VIC 1387 MLOM Not-Loaded <<<<<<<<<<<<
MRAID 0x1000 0x0014 0x1137 0x020e 51.10.0-3151 Cisco 12G Modular Raid... Not-Loaded
L 0x8086 0x1563 0x1137 0x01a3 0x80000EC9... Intel X550 LOM Not-Loaded
步骤1.检查物理连接
跟踪mLOM上两个端口与其网络交换机之间的电缆,以确保它们未损坏。必要时更换电缆和小型可插拔(SFP)。
— 断开并重新连接服务器端的SFP,并评估mLOM连接。
— 断开并重新连接mLOM卡上的SFP并评估mLOM连接。
步骤2.确认BIOS已启用所有端口。如果未启用,则启用端口。
步骤2.1.通过重新启动服务器并单击F2进入Aptio设置实用程序来访问服务器上的BIOS。
第2.2步:在BIOS菜单中,导航至高级LOM和PCI选项,并确保启用所有板载LOM端口。

第2.3步:导航至PCIe插槽库存详细信息。插槽mLOM卡详细信息必须显示在此处。例如,缺少插槽mLOM。

步骤3.重新启动CIMC
CIMC重新启动仅重新启动CIMC管理平面。服务器数据平面不受影响。
步骤3.1.进入CIMC命令模式Server# scope cimc。
步骤3.2.使用Server /cimc # reboot重新启动CIMC。
步骤4.运行Cisco UCS主机升级实用程序(HUU)以刷新UCS
步骤4.1.使用<show brief>命令收集固件版本。
Running: showBrief
Fri Dec 29 11:13:29 EST 2023
BMC Version Info
ver: 4.0(4i) <<<<<<<< Firmware Version
第4.2步:从Cisco软件下载网站,下载适用于UCS固件版本的相应Cisco UCS主机升级实用程序。
https://software.cisco.com/download/home
例如,对于版本为4.0(4i)的UCS C220 M5,正确的实用程序版本为ucs-c220m5-huu-4.0.4i.iso。
https://software.cisco.com/download/home/286318809/type/283850974/release/4.0(4i)
第4.3步:使用同一型号Cisco UCS服务器的“Cisco Host Upgrade Utility User Guide”(Cisco主机升级实用程序用户指南)中“Updating Firmware Using the Update All Option”(使用更新所有选项更新固件)部分列出的步骤刷新UCS固件。
例如,对于UCS C220 M5型号服务器,更新固件的指南位于:https://www.cisco.com/c/en/us/td/docs/unified_computing/ucs/c/sw/lomug/2-0-x/3_0/b_huu_3_0_1/b_huu_2_0_13_chapter_011.html。
- 如果HUU出现提示“正在运行和打包的版本相同,请跳过更新。”,在刷新过程中,正确的固件已在此UCS服务器中运行。

- 检查Cisco HUU是否显示mLOM卡的存在。以下是不显示mLOM卡的Cisco HUU实用程序的示例。

步骤5.物理重新拔插mLOM适配器卡
按照同一型号Cisco UCS服务器的《服务器安装和服务指南》中“更换mLOM卡”中所述的步骤,实际重新拔插mLOM适配器卡。
例如,对于UCS C220 M5型号服务器,有关重新拔插mLOM的指南,请访问:https://www.cisco.com/c/en/us/td/docs/unified_computing/ucs/c/hw/C220M5/install/C220M5/C220M5_chapter_010.html#task_zz5_h1m_3z。

结论
如果已经验证物理连接和BIOS端口,已对CIMC执行硬重启,服务器固件已用正确的固件重新闪烁,并且已物理重新插拔mLOM,但mLOM卡未出现在<show pci-adapter>的输出中,则可以断定mLOM硬件故障。在这种情况下,请更换mLOM卡。
相关信息