簡介
本文檔介紹處理UCS伺服器上的記憶體錯誤的故障排除步驟。
必要條件
需求
思科建議您瞭解這些主題。
- 對UCS有基礎認識。
- 對記憶體體系結構有基礎認識。
採用元件
本文中的資訊係根據以下軟體和硬體版本:
- UCS系列伺服器M5、M6、M7及更高版本。
- UCS管理器
- 思科整合式管理控制器(CIMC)
- Cisco Intersight託管模式(IMM)
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路運作中,請確保您瞭解任何指令可能造成的影響。
背景資訊
記憶體錯誤
嘗試讀取記憶體位置時遇到記憶體錯誤。從記憶體讀取的值與應該存在的值不匹配。這些錯誤分為兩種型別:
1.軟錯誤
軟錯誤是暫時的,不會繼續重複。這些都是暫時性的,通常可以通過重試讀取或重寫記憶體位置來糾正。
2.硬錯誤
永久性的物理缺陷會導致這些症狀。 重寫記憶體位置並重試讀訪問不會消除硬錯誤。因此,此記憶體錯誤不可糾正,在錯誤繼續重複時需要更換記憶體。
可更正的錯誤
如果檢測到錯誤並已更正,則認為這些錯誤是可更正的。這可以通過重試讀取或者使用糾錯碼(ECC)資料計算正確的記憶體內容並將正確的資料寫回記憶體來完成。在檢測到錯誤並對其進行更正後,思科整合管理控制器(IMC)會將事件記錄在系統事件日誌中。
通常,可糾正的錯誤是軟錯誤的結果。如果可更正錯誤在同一記憶體位置持續較長時間,則可能表示存在潛在的硬錯誤。
調適型雙裝置資料校正(ADDDC)
如果ADDDC備盤位於同一區域,則可以更正兩個連續的DRAM故障。ADDDC將資料從故障位動態移動到備用記憶體,防止可糾正的錯誤變得不可糾正。需要可糾正的ECC錯誤閾值來觸發該機制。
ADDDC在某些可糾正的ECC錯誤先於不可糾正的ECC錯誤的情況下提供幫助。
包裝後修復(PPR)
封裝後修復(PPR)可通過利用冗餘DRAM行永久修復DIMM中的故障記憶體區域。這種永久性現場修復功能允許從硬錯誤中快速恢復,而無需更換DIMM。要執行修復,系統必須遇到ADDDC事件並經歷至少一個重新啟動週期。此修復活動不影響效能或作業系統可用的記憶體總量。
PPR和ADDDC預設啟用,但可以配置。PPR要求同時啟用ADDDC備用RAS模式。如果RAS設定不是「ADDDC備用」或「平台預設值」,則PPR無法運行。唯一支援的PPR模式是硬PPR,這意味著修復是永久性的。
部分快取記憶體行備用(PCLS)
記憶體控制器中有一個錯誤預防機制。它通過識別記憶體中資料有缺陷的小部分而起作用。這些故障位置與可以替換它們的備份資料一起記錄在一個特殊的目錄中。當存取記憶體時,如果那些錯誤位置有錯誤,控制器就會使用來自目錄的備份資料,以確保一切順利執行。
註:這些功能可用取決於CPU架構和伺服器上運行的韌體版本。確保您處於最後建議的版本,以便更好地處理記憶體錯誤。
排除RAS故障
UCS管理器
通常,您會將UCS Manager中的這些故障視為RAS事件。

在運行狀況摘要中,可以找到有關錯誤的詳細資訊,無論是PCLS還是PPR已觸發。
PCLS示例
在M6伺服器及更高版本上,您可以選擇啟用部分快取記憶體行備用(PCLS)作為BIOS選項,這是一種錯誤預防機制。必須儘快重新啟動伺服器,以便PPR可以啟動並修復DIMM。重新啟動伺服器後,監控相同DIMM的其他UCS Manager故障。
正如警報所述,建議儘早重新啟動伺服器,因為存在遇到無法糾正的錯誤以及由此導致意外的伺服器停機時間的相關風險。

PPR示例
伺服器已啟用ADDDC和PPR,並且發生了RAS事件。該故障建議重新啟動PPR以修復DIMM。 伺服器需要儘快重新啟動,PPR才能啟動並修復DIMM。
重新啟動伺服器後,監控相同DIMM的其他UCS Manager故障。
正如警報所述,建議儘早重新啟動伺服器,因為存在遇到無法糾正的錯誤以及由此導致意外的伺服器停機時間的相關風險。

Intersight管理模式
伺服器啟用了ADDDC,並且發生了BANK VLS事件,從而建立了您看到的故障。在此案例中,下一步是儘快執行伺服器重新啟動,以執行PPR。

思科整合式管理控制器(CIMC)
使用思科整合管理控制器時會顯示故障,如圖所示。如果伺服器具有ADDDC並且發生了VLS事件,則此命令按設計運行,以防止出現不可糾正的錯誤。

疑難排解步驟
- 驗證不存在其他DIMM故障(例如不可糾正的錯誤)。
- 計畫維護視窗。
- 將主機置於維護模式,並重新啟動伺服器,以嘗試使用後軟體包修復(PPR)永久修復DIMM。
UCSM重新啟動步驟
註:您也可以從作業系統重新啟動伺服器。此示例使用來自伺服器UI的reboot選項。
導航到UCS Manager Web介面。
刀鋒伺服器
導航至Equipment > Chassis > Server X。
整合式伺服器
導航到Equipment > Rack-Mounts > Server X。
按一下KVM控制檯。

在KVM視窗上,按一下server actions,選擇Reset,然後按一下OK。

在KVM中監控重新啟動過程,並確保作業系統正確啟動。
IMM重新啟動步驟
導航到Servers頁籤,確定伺服器,然後按一下Action(三個點)選單。

接下來,選擇Power選單,然後選擇Power Cycle選項。

按一下Power Cycle按鈕以確認操作。

在Requests選單下驗證進度。

CIMC重新啟動步驟
導航到Host Power選項,然後選擇Power Cycle。

啟動KVM以監視重新啟動過程,並確保作業系統正確啟動。
監控新故障
如果在重新引導後沒有發生錯誤,表示沒有與DIMM相關的其他RAS事件或故障,則PPR成功,伺服器可以重新投入使用。
如果發生新的ADDDC事件,請重複上述步驟中概述的重新啟動過程,以便使用PPR執行額外的永久修復。
如果重新啟動後出現「Uncorrectable Error(無法糾正錯誤)」或「inoperational fault(無法運行)」 ,則該故障表示需要更換記憶體。
注意:如果您遇到任何上述故障,請使用Cisco TAC建立一個案例來更換DIMM。
UCS Manager不可糾正的記憶體錯誤


IMM記憶體無法更正的錯誤
不可糾正的錯誤故障。此故障表示DIMM有無法糾正的錯誤,需要更換。

CIMC無法糾正的記憶體錯誤

相關資訊