简介
 
  本文档介绍处理UCS服务器内存错误的故障排除步骤。
 
  先决条件
 
   
  要求
 
  Cisco建议您了解这些主题。
 
   
  使用的组件
 
  本文档中的信息基于以下软件和硬件版本:
 
   
   - UCS系列服务器M5、M6、M7及更高版本。
- UCS 管理器
- 思科集成管理控制器(CIMC)
- Cisco Intersight管理模式(IMM)
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。
 
  背景信息
 
  
内存错误
 
  
尝试读取内存位置时遇到内存错误。从内存中读取的值与应存在的值不匹配。这些错误分为两种类型:
 
  1. 软错误
 
  
软错误是暂时的,不会继续重复。这些都是临时的,通常可以通过重试读取或重写内存位置来纠正。
 
  
2. 硬错误 
 
  永久性的物理缺陷会导致这些症状。  重写内存位置并重试读取访问不能消除硬错误。因此,此内存错误无法纠正,在错误继续重复时需要更换内存。
 
  可更正的错误
 
  如果检测到错误并纠正错误,则认为它们是可纠正的。这可以通过重试读取或者使用纠错码(ECC)数据计算正确的内存内容并将正确的数据写回内存中来实现。检测到错误并纠正后,思科集成管理控制器(IMC)会在系统事件日志中记录该事件。
 
  通常,可纠正的错误是软错误的结果。如果可更正错误在较长的时间段内存在于同一内存位置内,则可能表示存在潜在的硬错误。
 
  自适应双设备数据校正(ADDDC)
 
  ADDDC备用可更正两个连续的DRAM故障(如果它们位于同一区域)。ADDDC将数据从发生故障的位动态移动到备用内存,以防无法纠正错误。触发该机制需要可纠正的ECC错误阈值。
 
  在某些可纠正ECC错误优先于不可纠正ECC错误的情况下,ADDDC会有所帮助。
 
  包装后修复(PPR)
 
  封装后修复(PPR)可通过利用冗余DRAM行永久修复DIMM中的故障内存区域。这种永久性现场修复可以从硬错误中快速恢复,而无需更换DIMM。要执行修复,系统必须遇到ADDDC事件并经历至少一个重新引导循环。此修复活动不会影响操作系统的性能或可用内存总量。
 
  默认情况下,PPR和ADDDC处于启用状态,但是可以进行配置。PPR要求同时启用ADDDC备用RAS模式。如果RAS设置不是ADDDC备用或平台默认值,则PPR不运行。唯一支持的PPR模式是硬PPR,这意味着修复是永久性的。
 
  部分缓存行备用(PCLS)
 
  内存控制器中有一个错误预防机制。它通过识别内存中故障小部分数据来工作。这些有故障的位置与备份数据一起被记录在一个特殊的目录中,可以替换它们。访问内存时,如果故障点出错,控制器将使用来自目录的备份数据,以确保所有数据都能顺利运行。
 
  注意:具体功能取决于CPU架构和服务器上运行的固件版本。确保您使用的是最新推荐的版本,以便更好地处理内存错误。
 
   
  排除RAS故障
 
   UCS 管理器
 
  通常,您会将UCS Manager中的这些故障视为RAS事件。
 
  
 
  在运行状况摘要中,您可以找到有关错误的详细信息(无论是PCLS还是PPR已触发)。
 
  PCLS示例
 
  在M6及更高版本服务器上,您可以选择启用部分缓存线路备用(PCLS)作为BIOS选项,这是一种错误预防机制。必须尽快重新启动服务器,以便PPR可以启动并修复DIMM。服务器重新启动后,监控同一DIMM的其他UCS Manager故障。
 
  正如警报所提到的,建议尽早重新启动服务器,因为存在发生无法纠正的错误的相关风险,进而会导致服务器意外停机。
 
  
 
  PPR示例
 
  服务器启用了ADDDC和PPR,并且发生了RAS事件。此故障建议重新启动PPR以修复DIMM。服务器需要尽快重新启动,PPR才能启动并修复DIMM。
 
  服务器重新启动后,监控同一DIMM的其他UCS Manager故障。
 
  正如警报所提到的,建议尽早重新启动服务器,因为存在发生无法纠正的错误的相关风险,进而会导致服务器意外停机。
 
  
 
   Intersight管理模式
 
  服务器已启用ADDDC,并且发生BANK VLS事件,创建您所看到的故障。在此场景中,下一步是尽快执行服务器重新启动,以允许执行PPR。
 
  
 
   
  思科集成管理控制器(CIMC)
 
  使用思科集成管理控制器时,故障会如图所示。如果服务器有ADDDC并且发生了VLS事件,则按设计运行,以防止发生无法纠正的错误。
 
  
 
  
故障排除步骤
 
   
   - 验证是否存在其它DIMM故障(例如不可纠正的错误)。
- 计划维护窗口。
- 将主机置于维护模式,然后重新启动服务器以尝试使用包后修复(PPR)永久修复DIMM。
UCSM重新启动步骤
 
  注意:您也可以从操作系统重新启动服务器。本示例使用服务器UI中的reboot选项。
 
  导航到UCS Manager Web界面。
刀片式服务器 
 
  导航到设备>机箱>服务器X。
 
  集成服务器 
 
  导航到设备>机架安装>服务器X。
 
  
单击KVM控制台。
 
  
 
  
在KVM窗口中,点击服务器操作,选择重置,然后点击确定。
 
  
 
  在KVM中监控重新启动过程,并确保操作系统正确启动。
 
  IMM重新启动步骤
 
  导航到Servers 选项卡,找到server,然后单击Action(三点)菜单。
 
  

 
  然后,选择Power菜单,然后选择Power Cycle选项。
 
  
 
  单击Power Cycle按钮以确认操作。
 
  
 
  在Requests菜单下验证进度。
 
  
 
  
CIMC重新启动步骤 
 
  导航到主机电源选项,然后选择重新通电。
 
  
 
  启动KVM以监控重新启动过程,并确保操作系统正确启动。
 
  
监控新故障
 
  如果在重新启动后没有发生错误,意味着没有其他RAS事件或与DIMM相关的故障,则PPR成功,服务器可以重新投入使用。
 
  如果发生新的ADDDC事件,请重复上述步骤中概述的重新启动过程,以便使用PPR执行额外的永久修复。
 
  如果重新启动后出现“Uncorrectable Error(无法纠正的错误)”或“Unoperational fault(无法操作)” ,则该故障表示需要更换内存。
 
  注意:如果您遇到任何此类故障,请向思科TAC提交支持请求以更换DIMM。
 
   
  UCS Manager不可纠正的内存错误
 
  
 
  
 
   
   
  IMM内存无法纠正的错误
 
  无法纠正的错误故障。此故障指示DIMM出现无法纠正的错误,需要更换。
 
  
 
  
CIMC无法纠正的内存错误

 
  相关信息