簡介
本文檔介紹UCS M7和M8代伺服器中引入的新記憶體功能以及瞭解記憶體錯誤和對其進行故障排除的步驟
必要條件
需求
思科建議您瞭解這些主題。
- 對UCS有基礎認識。
- 對記憶體體系結構有基礎認識。
採用元件
本文中的資訊係根據以下軟體和硬體版本:
- UCS系列伺服器M7和M8
- UCS管理器
- 思科整合式管理控制器(CIMC)
- Cisco Intersight託管模式(IMM)
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路運作中,請確保您瞭解任何指令可能造成的影響。
背景資訊
記憶體錯誤概述
記憶體錯誤是現代伺服器上最常見的錯誤型別之一。當嘗試讀取記憶體位置並且讀取的值與上次寫入的值不匹配時,通常會發現錯誤。
記憶體錯誤可以是軟錯誤,也可以是硬錯誤。有些錯誤是可更正的,但單個記憶體訪問中同時出現多個軟錯誤或硬錯誤可能是不可更正的。
Cisco UCS M7/M8記憶體RAS功能
思科UCS M7和M8伺服器具有一套強大的RAS功能,詳見此處。這些選項將記憶體錯誤對效能和系統正常運行時間的影響降至最低。
系統級ECC
所有Cisco UCS M7伺服器都使用帶有ECC代碼的記憶體模組,這些記憶體模組可以糾正僅限於x4 DRAM晶片的任何錯誤,並在最多兩台裝置中檢測任何雙位錯誤。這現在稱為系統級ECC,如舊一代伺服器中
.
虛擬鎖定步驟(VLS)/調適型雙裝置資料修正(ADDDC)備用
如果ADDDC備盤位於同一區域,則可以更正兩個連續的DRAM故障。此功能可跟蹤可糾正的錯誤,並通過將備用複製(「備用」)內容動態對映到「夥伴」快取記憶體行中來找出故障位。此機制可以緩解可糾正的錯誤,如果不加以處理,這些錯誤可能會變成不可糾正的錯誤。此功能使用虛擬鎖定步驟(VLS)來分配同一記憶體通道內的快取記憶體線夥伴對,該記憶體通道使用儲存體VLS在DRAM儲存體級別或使用rank VLS在DRAM裝置級別上。
.
片上ECC
片內ECC是DDR5的新功能。預設情況下啟用此功能。所有單位元錯誤(硬錯誤和軟錯誤)在資料傳輸到主機之前通過DRAM進行校正。但是,此糾正後的資料不會寫回DRAM。「錯誤檢查與擦除」(ECS)是用於擦除和更正記憶體中一位錯誤的功能。
錯誤檢查與清理(ECS)
ECS通過定期清洗每個DRAM晶片(每24小時)來檢查後台錯誤,通過將資料寫回陣列並提供在清洗過程中發現的錯誤計數來糾正錯誤。此功能已預設為啟用。
包裝後修復(PPR)
包後修復是一種功能,其中使用備用行替換DRAM裝置中的壞單元格或行。
可重構軟PPR(Soft PPR)、硬PPR(Hard PPR(permanent)和Runtime PPR。
- 採用Intel CPU的Cisco UCS M7伺服器支援「硬」PPR。這是一個永久修復,在重新引導期間根據上次運行時收集到的錯誤資料執行修復,或者在EMT期間遇到任何行錯誤。
- 通常在熱/冷復位或交流電週期期間進行修復。
- 在UCS M8支援所有三種型別的PPR上,預設啟用硬PPR,而禁用運行時PPR。
- 運行時PPR允許在系統操作期間進行修復,而不會影響正常運行時間。
- 如果同時啟用硬和運行時PPR,則使用所有PPR功能。如果禁用「硬PPR」,但啟用「運行時PPR」,則系統預設為「軟PPR」。
- PPR與可更正錯誤緊密關聯,並且啟用PPR時,每個可更正錯誤都會生成一個SEL記錄。
PMIC(電源管理積體電路)
DIMM上的PMIC是DDR5記憶體模組的關鍵功能。這種整合將電源管理功能從主機板轉移到記憶體模組本身,提供了幾個顯著優勢。
對於DDR5記憶體,啟用PMIC錯誤處理。
- PMIC故障在運行時和啟動後都會生成CELL記錄。
- 在記憶體培訓期間,如果在記憶體通道中檢測到PMIC故障,受影響的DIMM將被對映出來,系統將繼續啟動,但記憶體會減少
日誌分析
要簽入技術支援的檔案
UCSM_X_TechSupport > sam_techsupportinfo 提供有關DIMM和記憶體陣列的資訊。
機箱/伺服器技術支援
CIMCX_TechSupport\tmp\CICMX_TechSupport.txt ->有關伺服器X的通用技術支援資訊。
CIMCX_TechSupport\obfl\obfl-log -> OBFL日誌提供有關伺服器X的狀態和引導的持續日誌。
CIMCX_TechSupport\var\log\sel ->伺服器X的SEL日誌。
根據平台/版本,導航至技術支援捆綁包中的檔案。
RAS -對於ECS(錯誤檢查與清理)CE錯誤位置在運行期間收集的每個清理等
/nv/etc/BIOS/bt/DDR5_CISCO_ECS
如果DIMM上出現CE和UCE錯誤,AMT Auto Executions in next boot
nv/etc/BIOS/bt/MrcOut。
AMT_TEST_PATTERN:
ADV_MT_SAMSUNG
AMT_RESULT:通過。
PMIC錯誤: /nv/etc/DIMM-PMIC.txt
M8伺服器包含:-
nv/etc/BIOS/bt >MrcOut
這些檔案提供從BIOS級別看到的記憶體資訊。
資訊可以再次與DIMM狀態報告表交叉引用。
AMD伺服器示例:-
nv/etc/BIOS/bt >MrcOut
它包含:
- BIOS版本、生成日期和時間
- PSP韌體版本
- DIMM存在和狀態(表示DIMM存在與否)
- DIMM配置詳細資訊。
2025/08/14 13:44:34
BIOS ID : C245M8.4.3.6b.0 Built 04/28/2025 14:15:22
=====================
PSP Firmware Versions
=====================
ABL Version: 100E8012
PSP: 0.29.0.9B
PFMW (SMU): 4.71.126.0
SEV: 1.1.37.28
PHY: 0.1.38.0
MPIO: 1.0.2D.C4
TF MPDMA: 0.47.3.0
PM MPDMA: 0.47.46.0
GMI: AB.1.27.0
RIB: 2.0.8.39
SEC: D.E.90.71
PMU: 0.0.90.4E
EMCR: 0.0.E0.4E
uCode B1: 0xA101154
DIMM Status:
|=======================|
| Memory | DIMM Status |
| Channel | |
|=======================|
| P1_A | 01 |
| P1_B | 01 |
| P1_C | 01 |
| P1_D | 01 |
| P1_E | 01 |
| P1_F | 00 |
| P1_G | 01 |
| P1_H | 01 |
| P1_I | 01 |
| P1_J | 01 |
| P1_K | 01 |
| P1_L | 00 |
| P2_A | 01 |
| P2_B | 01 |
| P2_C | 01 |
| P2_D | 01 |
| P2_E | 01 |
| P2_F | 00 |
| P2_G | 01 |
| P2_H | 01 |
| P2_I | 01 |
| P2_J | 01 |
| P2_K | 01 |
| P2_L | 00 |
|=======================|
DIMM Configuration:
=================================================
MbistTest = Disabled
MbistAggressor = Disabled
MbistPerBitSlaveDieReport = Enabled
DramTempControlledRefreshEn = Disabled
UserTimingMode = Disabled
UserTimingValue = Disabled
MemBusFreqLimit = Disabled
EnablePowerDown = Disabled
DramDoubleRefreshRate = Disabled
PmuTrainMode = 0x0000
EccSymbolSize = 0x0000
UEccRetry = Disabled
IgnoreSpdChecksum = Disabled
EnableBankGroupSwapAlt = Disabled
EnableBankGroupSwap = Disabled
DdrRouteBalancedTee = Disabled
OdtsCmdThrotEn = Disabled
OdtsCmdThrotCyc = Disabled
=================================================
Enhanced Memory Context Restore : APOB_SAVED
2025/08/14 13:44:34
MCA輸出檔案清單:-
此檔案包含有關所有銀行的MCA註冊的資訊。
(只要檢測到UCE錯誤)
--- START OF MCA FILE ---
Timestamp H:M:S 13:44:15 D:M:Y 14:8:2025
--- Note ---
The legacy MCA registers include:
MCA_CTL - Enables error reporting via machine check exception.
MCA_STATUS - Logs information associated with errors.
MCA_ADDR - Logs address information associated with errors. The use of AMD Secure Memory Encryption may change the information logged in the address register.
MCA_MISC0 - Logs miscellaneous information associated with errors.
The MCA Extension registers include:
MCA_CONFIG - Provide configuration capabilities for this MCA bank.
MCA_IPID - Provides information on the block associated with this MCA bank.
MCA_SYND - Logs physical location information associated with a logged error.
MCA_DESTATUS - Logs status information associated with a deferred error.
MCA_DEADDR - Logs address information associated with a deferred error.
MCA_MISC[1:4] - Provides additional threshold counters within an MCA bank.
MCA_TRANSSYND - Logs location information associated with a transparent error.
MCA_TRANSADDR - Logs address information associated with a transparent error.
LS - Load-Store Unit -> Bank 0
IF - Instruction Fetch Unit -> Bank 1
L2 - L2 Cache Unit -> Bank 2
DE - Decode Unit -> Bank 3
Empty/Unused bank -> Bank 4
EX - Execution Unit -> Bank 5
FP - Floating Point Unit -> Bank 6
L3 - L3 Cache Unit -> Bank 7 to 14
MP5 - Microprocessor5 Management Controller -> Bank 15
PB - Parameter Block -> Bank 16
PCS-GMI - GMI Controller -> Bank 17 to 18
KPX-GMI - High Speed Interface Unit(GMI) -> Bank 19 to 20
UMC - Unified Memory Controller -> Bank 21 to 22
CS - Coherent Station -> Bank 23 to 24
NBIO - NorthBridge IO Unit -> Bank 25
PCIE - PCIe Root port -> Bank 26 to 27
PIE - Power Management, Interrupts, Etc -> Bank 28
SMU - System Management Controller Unit -> Bank 29
PCS_XGMI - XGMI Controller -> Bank 30
KPX_SERDES - High Speed Interface Unit(XGMI)-> Bank 31
Empty/Unused bank -> Bank 32 to 63
Total BankNumber = 32
MC Global Capability Value = 120
MC Global Status Value = 0
MC Global Control Value = 0
Number of processor = 64
ProcNum BankNum Socket CCD CCX Core Thread MCA Bank Status MCA Bank Address MCA Configuration MCA IPID MSR VAL MCA SYND MSR VAL MC MISC0 MSR VAL MC MISC1 MSR VAL MC DESTAT MSR VAL MC DEADDR MSR VAL MC SYND1 MSR VAL MC SYND2 MSR VAL
Timestamp H:M:S 13:44:32 D:M:Y 14:8:2025
--- END OF MCA FILE ---
Sel日誌中的PMIC故障示例:-
當DIMM出現運行時PMIC故障時,會生成SEL日誌,如下所示,並且主機關閉。
- 2024-06-11 20:26:36 IST(警告◆統軟體事件:記憶體感測器,斷言記憶體故障(檢測到並隔離了PMIC故障),斷言DIMM插槽1,通道A,CPU 2。

有故障的DIMM由下次主機通電時的BIOS對映。我們看到下面的SEL

故障如下圖所示。


排除RAS故障
通常,您會將UCS Manager中的這些故障視為RAS事件。


UCSM CLI命令重置所有記憶體錯誤計數器:
UCS-A#範圍伺服器x/y
UCS-A /chassis/server # reset-all-memory-errors
UCS-A /chassis/server* #提交
要清除SPD資料,請執行以下操作:
關閉伺服器電源
然後從UCSM CLI運行以下命令:
UCS-A#連線cimc x/y
UCS-A /chassis/server # reset-all-memory-errors
UCS-A /chassis/server* #提交
值得注意的錯誤
1.思科錯誤ID CSCwo62396
2.思科錯誤ID CSCwq33148
3.思科錯誤ID CSCwh73760