简介
本文档介绍UCS M7和M8代服务器中引入的新内存功能,以及了解内存错误并对其进行故障排除的步骤
先决条件
要求
思科建议您先了解下列主题的相关知识:
使用的组件
本文档中的信息基于以下软件和硬件版本:
- UCS系列服务器M7和M8
- UCS 管理器
- 思科集成管理控制器(CIMC)
- Cisco Intersight管理模式(IMM)
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。
背景信息
内存错误概述
内存错误是现代服务器中最常见的错误类型之一。当尝试读取内存位置并且读取的值与上次写入的值不匹配时,通常会发现错误。
内存错误可以是软错误,也可以是硬错误。有些错误是可以纠正的,但单个内存访问中同时出现多个软错误或硬错误可能是无法纠正的。
Cisco UCS M7/M8内存RAS功能
Cisco UCS M7和M8服务器具有一组强大的RAS功能,详见此处。这些功能可最大程度降低内存错误对性能和系统正常运行时间的影响。
系统级ECC
所有Cisco UCS M7服务器都使用带有ECC代码的内存模块,这些内存模块可以纠正限制在单个x4 DRAM芯片上的任何错误,并在最多两台设备中检测任何双位错误。这现在称为系统级ECC,如旧一代服务器中的情况
.
虚拟锁步(VLS)/自适应双设备数据校正(ADDDC)备用
如果ADDDC备用位于同一区域,则它们可以更正两个连续的DRAM故障。此功能可跟踪可纠正的错误,并通过将备用复制(“备用”)内容动态映射到“伙伴”缓存行以找出故障位。此机制可以缓解可纠正的错误,如果不加以处理,这些错误可能会变成不可纠正的错误。此功能使用虚拟锁定步骤(VLS)在DRAM库级别使用库VLS分配同一内存通道内的缓存行伙伴对,或者在DRAM设备级别使用库VLS分配缓存行伙伴对,或者在DRAM设备级别使用列VLS分配缓存行伙伴对。
.
片内ECC
片内ECC是DDR5中的新功能。默认情况下启用此功能。所有单比特错误(硬错误和软错误)都通过DRAM进行纠正,然后才将数据传送到主机。但是,纠正后的数据不会写回DRAM。错误检查和擦除(ECS)是用于清理和纠正内存中一位错误的功能。
错误检查和清理(ECS)
ECS通过定期清理每个DRAM芯片(每24小时)、将数据写回阵列并提供清理期间发现的错误计数来检查后台错误。默认情况下启用此功能。
包装后修复(PPR)
包后修复是备用行用于替换DRAM设备中的坏单元或行的功能。
有三种类型:软PPR(可重新配置)、硬PPR(永久)和运行时PPR。
- 带Intel CPU的Cisco UCS M7服务器支持“硬”PPR。这是永久修复,在重新启动期间根据在上一个运行时期间收集的错误数据或EMT期间遇到任何行错误执行。
- 通常在热/冷重置或交流周期期间进行修复。
- 在UCS M8支持所有三种类型的PPR上,默认启用硬PPR,而禁用运行时PPR。
- 运行时PPR允许在系统操作期间进行修复,而不会影响正常运行时间。
- 如果同时启用硬和运行时PPR,则使用所有PPR功能。如果硬性PPR被禁用,但运行时PPR被启用,则系统默认为软性PPR。
- PPR与可更正的错误紧密关联,启用PPR时,每个可更正的错误都会生成一个SEL记录。
PMIC(电源管理集成电路)
DIMM上的PMIC是DDR5内存模块的关键功能。这种集成将电源管理功能从主板移至内存模块本身,提供了几个显着优势。
对于DDR5内存,已启用PMIC错误处理。
- PMIC故障在运行时和启动后都会生成CELL记录。
- 在内存培训期间,如果在内存通道中检测到PMIC故障,受影响的DIMM将被映射出来,系统继续使用减少的内存启动
日志分析
要签入技术支持的文件
UCSM_X_TechSupport > sam_techsupportinfo 提供有关DIMM和内存阵列的信息。
机箱/服务器技术支持
CIMCX_TechSupport\tmp\CICMX_TechSupport.txt ->有关服务器X的通用技术支持信息。
CIMCX_TechSupport\obfl\obfl-log -> OBFL日志提供有关服务器X的状态和引导的持续日志。
CIMCX_TechSupport\var\log\sel ->服务器X的SEL日志。
根据平台/版本,导航至技术支持捆绑包中的文件。
RAS -对于ECS(错误检查和清理)CE错误位置在运行时收集的每个清理等
/nv/etc/BIOS/bt/DDR5_CISCO_ECS
如果在DIMM上出现CE和UCE错误,AMT自动在下次启动时执行
nv/etc/BIOS/bt/MrcOut。
AMT_TEST_PATTERN:
ADV_MT_SAMSUNG
AMT_RESULT:通过。
PMIC错误:/nv/etc/DIMM-PMIC.txt
M8服务器包含:-
nv/etc/BIOS/bt >MrcOut
这些文件提供从BIOS级别看到的内存信息。
其中的信息可以再次与DIMM状态报告表交叉引用。
AMD服务器示例:-
nv/etc/BIOS/bt >MrcOut
它包含:
- BIOS版本、构建日期和时间
- PSP固件版本
- DIMM存在和状态(表示DIMM是否存在)
- DIMM配置详细信息。
2025/08/14 13:44:34
BIOS ID : C245M8.4.3.6b.0 Built 04/28/2025 14:15:22
=====================
PSP Firmware Versions
=====================
ABL Version: 100E8012
PSP: 0.29.0.9B
PFMW (SMU): 4.71.126.0
SEV: 1.1.37.28
PHY: 0.1.38.0
MPIO: 1.0.2D.C4
TF MPDMA: 0.47.3.0
PM MPDMA: 0.47.46.0
GMI: AB.1.27.0
RIB: 2.0.8.39
SEC: D.E.90.71
PMU: 0.0.90.4E
EMCR: 0.0.E0.4E
uCode B1: 0xA101154
DIMM Status:
|=======================|
| Memory | DIMM Status |
| Channel | |
|=======================|
| P1_A | 01 |
| P1_B | 01 |
| P1_C | 01 |
| P1_D | 01 |
| P1_E | 01 |
| P1_F | 00 |
| P1_G | 01 |
| P1_H | 01 |
| P1_I | 01 |
| P1_J | 01 |
| P1_K | 01 |
| P1_L | 00 |
| P2_A | 01 |
| P2_B | 01 |
| P2_C | 01 |
| P2_D | 01 |
| P2_E | 01 |
| P2_F | 00 |
| P2_G | 01 |
| P2_H | 01 |
| P2_I | 01 |
| P2_J | 01 |
| P2_K | 01 |
| P2_L | 00 |
|=======================|
DIMM Configuration:
=================================================
MbistTest = Disabled
MbistAggressor = Disabled
MbistPerBitSlaveDieReport = Enabled
DramTempControlledRefreshEn = Disabled
UserTimingMode = Disabled
UserTimingValue = Disabled
MemBusFreqLimit = Disabled
EnablePowerDown = Disabled
DramDoubleRefreshRate = Disabled
PmuTrainMode = 0x0000
EccSymbolSize = 0x0000
UEccRetry = Disabled
IgnoreSpdChecksum = Disabled
EnableBankGroupSwapAlt = Disabled
EnableBankGroupSwap = Disabled
DdrRouteBalancedTee = Disabled
OdtsCmdThrotEn = Disabled
OdtsCmdThrotCyc = Disabled
=================================================
Enhanced Memory Context Restore : APOB_SAVED
2025/08/14 13:44:34
MCA输出文件清单:-
此文件包含有关所有银行的MCA注册的信息。
(只要检测到UCE错误)
--- START OF MCA FILE ---
Timestamp H:M:S 13:44:15 D:M:Y 14:8:2025
--- Note ---
The legacy MCA registers include:
MCA_CTL - Enables error reporting via machine check exception.
MCA_STATUS - Logs information associated with errors.
MCA_ADDR - Logs address information associated with errors. The use of AMD Secure Memory Encryption may change the information logged in the address register.
MCA_MISC0 - Logs miscellaneous information associated with errors.
The MCA Extension registers include:
MCA_CONFIG - Provide configuration capabilities for this MCA bank.
MCA_IPID - Provides information on the block associated with this MCA bank.
MCA_SYND - Logs physical location information associated with a logged error.
MCA_DESTATUS - Logs status information associated with a deferred error.
MCA_DEADDR - Logs address information associated with a deferred error.
MCA_MISC[1:4] - Provides additional threshold counters within an MCA bank.
MCA_TRANSSYND - Logs location information associated with a transparent error.
MCA_TRANSADDR - Logs address information associated with a transparent error.
LS - Load-Store Unit -> Bank 0
IF - Instruction Fetch Unit -> Bank 1
L2 - L2 Cache Unit -> Bank 2
DE - Decode Unit -> Bank 3
Empty/Unused bank -> Bank 4
EX - Execution Unit -> Bank 5
FP - Floating Point Unit -> Bank 6
L3 - L3 Cache Unit -> Bank 7 to 14
MP5 - Microprocessor5 Management Controller -> Bank 15
PB - Parameter Block -> Bank 16
PCS-GMI - GMI Controller -> Bank 17 to 18
KPX-GMI - High Speed Interface Unit(GMI) -> Bank 19 to 20
UMC - Unified Memory Controller -> Bank 21 to 22
CS - Coherent Station -> Bank 23 to 24
NBIO - NorthBridge IO Unit -> Bank 25
PCIE - PCIe Root port -> Bank 26 to 27
PIE - Power Management, Interrupts, Etc -> Bank 28
SMU - System Management Controller Unit -> Bank 29
PCS_XGMI - XGMI Controller -> Bank 30
KPX_SERDES - High Speed Interface Unit(XGMI)-> Bank 31
Empty/Unused bank -> Bank 32 to 63
Total BankNumber = 32
MC Global Capability Value = 120
MC Global Status Value = 0
MC Global Control Value = 0
Number of processor = 64
ProcNum BankNum Socket CCD CCX Core Thread MCA Bank Status MCA Bank Address MCA Configuration MCA IPID MSR VAL MCA SYND MSR VAL MC MISC0 MSR VAL MC MISC1 MSR VAL MC DESTAT MSR VAL MC DEADDR MSR VAL MC SYND1 MSR VAL MC SYND2 MSR VAL
Timestamp H:M:S 13:44:32 D:M:Y 14:8:2025
--- END OF MCA FILE ---
Sel日志中的PMIC故障示例:-
当DIMM上出现运行时PMIC故障时,会按如下所示生成SEL日志,并关闭主机。
- 2024-06-11 20:26:36 IST(警告◆统软件事件:内存传感器,断言内存故障(检测到并隔离了PMIC故障),断言DIMM插槽1、通道A、CPU 2。

有故障的DIMM由BIOS在下一个主机开机时映射。我们看到下面的SEL

故障如下图所示。


排除RAS故障
通常,您会将UCS Manager中的这些故障视为RAS事件。


用于重置所有内存错误计数器的UCSM CLI命令:
UCS-A#范围服务器x/y
UCS-A /chassis/server # reset-all-memory-errors
UCS-A /chassis/server* # commit
要清除SPD数据,请执行以下操作:
关闭服务器电源
然后从UCSM CLI运行以下命令:
UCS-A#连接cimc x/y
UCS-A /chassis/server # reset-all-memory-errors
UCS-A /chassis/server* # commit
值得注意的Bug
1. Cisco Bug ID CSCwo62396
2. Cisco Bug ID CSCwq33148
3. Cisco Bug ID CSCwh73760