简介
奇偶校验错误是内存中的位翻转。 在电子和计算中,来自内部或外部源的电或磁干扰可能导致单个位或内存自发地翻转到相反状态。 此事件使原始数据位无效,称为奇偶校验错误。

通常,这些错误分为软错误和硬错误两类。
软奇偶校验错误,这些事件是瞬时和随机的。 它们通常只在特定内存库中看到一次。
硬奇偶校验错误,是由存储器硬件的物理故障或由用于读取和写入存储单元的电路引起的。 这些设备通常会反复出现,需要更换。
大多数奇偶校验错误是由静电或磁相关环境条件引起的。 内存芯片中的大多数单事件错误是由以下因素引起的:背景辐射(如宇宙射线中的中子、核设施)、电磁干扰(EMI)和静电放电。 这些事件可以随机改变一个或多个存储单元的电状态或可能干扰用于读取和写入存储单元的电路。
问题
奇偶校验错误是ASR9k线卡中使用的高密度内存的一个现实。 因此,我们如何处理这些问题是我们所能控制的。某些ASR9k(xmen/thouthon)线卡在极少数情况下可能会遇到第1层缓存错误。 这些错误在数据缓存或指令缓存(DCPERR或ICPERR)中显示为内核死机。另一个观察到的错误在线卡上NP(网络处理器)使用的各种内存组中。 这些错误日志通常从以下类型开始:
%PLATFORM-NP-0-NON_RECOVERABLE_SOFT_ERROR
%PLATFORM-NP-3-ECC
%PLATFORM-PFM-0-CARD_RESET_REQ
此处的问题是DCPERR/ICPERR导致全线卡重新加载。 绝大多数NP内存库也是如此。 由于大多数线卡有多个NP,因此这显然不是理想的。 如果只有1 NP出现问题,为什么会影响线卡上的所有NP。
解决方案
对于台风LC CPU缓存中出现的DCPERR和ICPERR错误,我们提供了一种解决方案,以避免出现死机并重新加载线卡。 这在CSCux30405上完成,目前集成在5.3.3及更高版本中。
对于新党的记忆来说,这变得复杂多了。 我们已经花了很大的力气去清理各种记忆,看看我们可以安全地忽略哪些记忆,或者用一种影响较小的恢复方法。 其中大部分已集成到5.3.3及以上版本,并且在大多数流行版本的基础上构建了伞形SMU。
注意: 这也导致了CSCvc69282的宣传品
我们可能会看到由于持续中断而导致的内核崩溃。
NP软错误处理改进
在2015年上半年和2016年初,对台风和战斧号的NP软错误处理进行了大量改进。 对许多不同存储器的处理从需要重新加载线路卡的方法转换为更流畅的方法,例如修复内存中的错误或执行NP快速重置。 对于没有功能影响但无法清除(“粘滞”)的错误,处理也得到了改进,以便这些错误不会再次出现。 此外,还修复了多个错误,特别是NP指令存储器或内部TCAM中发生的错误。 大约80-90%以前不可恢复的错误现在可恢复,不需要重新加载线路卡。
所有这些改进和修复都集成在5.3.3版及更高版本中。 所有主要维护版本的雨伞SMU中也提供这些修复:
434 - CSCux16975
512 - CSCux44633
513 - CSCux16975
531 - CSCux34531
532 - CSCux78563