简介
本文档介绍处理UCS服务器上的内存错误的故障排除步骤。
先决条件
要求
思科建议您先了解下列主题的相关知识:
使用的组件
本文档中的信息基于以下软件和硬件版本:
- UCS系列服务器M5、M6、M7及更高版本。
- UCS 管理器
- 思科集成管理控制器(CIMC)
- Cisco Intersight管理模式(IMM)
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。
背景信息
内存错误
尝试读取内存位置时遇到内存错误。从内存读取的值与应存在的值不匹配。这些错误分为两种类型:
1.软错误
软错误是暂时的,不再重复。这些都是临时性的,通常可以通过重试读取或重写内存位置来纠正。
2.硬错误
永久性的物理缺陷会导致这些症状。 重写内存位置并重试读取访问不会消除硬错误。因此,此内存错误不可纠正,在继续出现此错误时需要更换内存。
可更正的错误
如果检测到错误并已纠正错误,则认为这些错误是可纠正的。这可以通过重试读取或者使用纠错码(ECC)数据计算正确的内存内容并将正确的数据写回内存中来实现。检测到错误并纠正错误后,思科集成管理控制器(IMC)会将事件记录在系统事件日志中。
通常,可纠正的错误是软错误的结果。如果可更正错误在同一内存位置持续较长时间,则可能表示存在潜在的硬错误。
自适应双设备数据校正(ADDDC)
如果ADDDC备用位于同一区域,则它们可以更正两个连续的DRAM故障。ADDDC将数据从故障位动态移动到备用内存,防止可纠正的错误变为不可纠正的错误。触发机制需要可更正的ECC错误阈值。
在某些可纠正的ECC错误先于不可纠正的ECC错误的情况下,ADDDC会有所帮助。
包装后修复(PPR)
封装后修复(PPR)可通过利用冗余DRAM行永久修复DIMM中的故障内存区域。这种永久性的现场修复功能可实现硬错误的快速恢复,而无需更换DIMM。要执行修复,系统必须遇到ADDDC事件并经历至少一个重新启动周期。此修复活动不影响性能或操作系统可用的总内存。
PPR和ADDDC默认启用,但可以配置。PPR要求也启用ADDDC备用RAS模式。如果RAS设置不是ADDDC备用或平台默认值,则PPR不运行。唯一支持的PPR模式是硬PPR,这意味着修复是永久性的。
部分缓存线路备用(PCLS)
内存控制器中有一个错误预防机制。它的工作原理是识别内存中数据有缺陷的小部分。这些故障位置与可以替换它们的备份数据一起被记录在一个特殊的目录中。当访问内存时,如果故障位置出错,控制器将使用来自目录的备份数据以确保一切顺利运行。
注:可用功能取决于CPU架构和服务器上运行的固件版本。确保您处于上次推荐的版本,以便更好地处理内存错误。
排除RAS故障
UCS 管理器
通常,您会将UCS Manager中的这些故障视为RAS事件。

在运行状况摘要中,您可以找到有关错误的详细信息(无论是PCLS还是PPR已触发)。
PCLS示例
在M6服务器及更高版本上,您可以选择启用部分缓存线路备用(PCLS)作为BIOS选项,这是一种错误预防机制。必须尽快重新启动服务器,以便PPR可以启动并修复DIMM。重新启动服务器后,监控同一DIMM的其他UCS Manager故障。
正如警报中所述,由于存在遇到无法纠正的错误以及由此导致的意外服务器停机风险,因此建议尽快重新启动服务器。

PPR示例
服务器启用了ADDDC和PPR,并且发生了RAS事件。此故障建议重新启动PPR以修复DIMM。 需要尽快重新启动服务器,PPR才能启动并修复DIMM。
重新启动服务器后,监控同一DIMM的其他UCS Manager故障。
正如警报中所述,由于存在遇到无法纠正的错误以及由此导致的意外服务器停机风险,因此建议尽快重新启动服务器。

Intersight管理模式
服务器启用了ADDDC,并且发生了BANK VLS事件,从而产生了您所看到的故障。在此场景中,下一步是尽快执行服务器重启,以允许执行PPR。

思科集成管理控制器(CIMC)
使用思科集成管理控制器时,故障会如图所示。如果服务器有ADDDC并且发生VLS事件,则此命令会按设计防止无法纠正的错误。

故障排除步骤
- 验证不存在其他DIMM故障(例如不可纠正的错误)。
- 计划维护窗口。
- 将主机置于维护模式,然后重新启动服务器以尝试使用包后修复(PPR)永久修复DIMM。
UCSM重新启动步骤
注:您也可以从操作系统重新启动服务器。此示例使用服务器UI中的reboot选项。
导航到UCS Manager Web界面。
刀片式服务器
导航到设备>机箱>服务器X。
集成服务器
导航到Equipment > Rack-Mounts > Server X。
单击KVM控制台。

在KVM窗口中,单击server actions,选择Reset,然后单击OK。

在KVM中监控重新启动过程,并确保操作系统正确启动。
IMM重新启动步骤
导航到Servers选项卡,确定服务器,然后单击Action(三个点)菜单。

然后,选择Power菜单,然后选择Power Cycle 选项。

单击Power Cycle按钮确认操作。

在Requests菜单下验证进度。

CIMC重新启动步骤
导航到主机电源选项,然后选择重新通电。

启动KVM以监控重新启动过程,并确保操作系统正确启动。
监控新故障
如果在重新启动后没有发生错误,这意味着没有其他RAS事件或与DIMM相关的故障,则PPR成功,服务器可以重新投入使用。
如果发生新的ADDDC事件,请重复上述步骤中概述的重新启动过程,以便使用PPR执行额外的永久修复。
如果重新启动后出现“Uncorrectable Error(无法纠正的错误)”或无法运行的故障,则该故障表示需要更换内存。
注意:如果您遇到任何此类故障,请向Cisco TAC提交案例以更换DIMM。
UCS Manager不可纠正的内存错误


IMM内存无法更正的错误
无法纠正的错误故障。此故障表示DIMM有无法纠正的错误,需要更换。

CIMC不可纠正的内存错误

相关信息