交换机 : Cisco Catalyst 6500 系列交换机

奇偶校验错误故障排除指南

2015 年 8 月 28 日 - 机器翻译
其他版本: PDFpdf | 英语 (2015 年 4 月 23 日) | 反馈

简介

本文描述软奇和永久性奇偶校验错误,解释常见错误消息,并且推荐帮助您避免或最小化奇偶校验错误的方法。在硬件与软件设计的最近的改进减少奇偶校验问题。

贡献用Rahul Parameswaran, Cisco TAC工程师。

背景

什么是处理器或内存奇偶错误?

对称校验是一个额外的二进制数字(位)的存储设备为了代表奇偶校验(多甚至)少量的计算机数据(典型地一个字节),当该数据在内存时存储。从存储的数据计算的奇偶值然后与最终奇偶值比较。如果这两个值有所不同,这指示一个数据错误,并且至少一个位一定更改的归结于数据损坏。

在计算机系统内,从内因或外部的电子或磁性干扰能造成一位内存本能地翻转到相反的状态。此事件使原始数据数据位无效和是公认的奇偶校验错误。

这样内存错误,如果未被发现,可能有探测不到和无直接影响结果或可能导致存储的数据或计算机失败的永久性损坏。

有内存奇偶错误的许多原因,分类作为暂时性奇偶校验错误或永久性奇偶校验错误。

软件错误

多数奇偶校验错误是由静电或磁性相关环境状况造成的。

多数在存储器芯片的事件错误是由本底辐射(例如从宇宙射线的中子),电磁干扰(EMI),或者静电放电(ESD)造成的。这些事件可能随机地更改一个或更多存储单元的电子状态或可能干涉电路用于的读和write memory信元。

叫作暂时性奇偶校验错误,这些事件典型地瞬变或随机和一次通常发生。软件错误可以是较小或严重的:

  • 可以被更正,不用组分重置的较小软件错误是单个事件翻倒(SEUs)。
  • 要求组件或系统重新设置的严重软件错误是单个事件latchups (SELs)。

软件错误没有造成的是由硬件故障;他们是瞬变和不常见的,是主要可能的SEU和由内存数据的环境中断造成。

如果遇到暂时性奇偶校验错误,请分析在受影响的系统的位置发生的最近的环境更改。可能导致暂时性奇偶校验错误ESD和EMI的共源包括:

  • 电源电缆和用品
  • 功率分配单元
  • 通用电源
  • 光线系统
  • 发电器
  • 核设施(辐射)
  • 日晕(辐射)

硬错误

其他奇偶校验错误造成的由内存硬件的一个物理故障或是由电路用于的读和write memory信元。

硬件制造商采取广泛的措施防止和测试对于硬件缺陷。然而,缺陷是可能的;例如,如果过去常常的其中任一存储单元存储数据位是畸形的,他们可能无法拿着费用或可能是易受攻击对环境状况。

同样地,而内存可能通常操作,对电路的所有物理或电子损伤曾经读在转移期间,并且write memory信元可能也造成数据位更改,导致奇偶校验错误。

叫作永久性奇偶校验错误,这些事件是典型地非常常见和重复并且发生,每当使用受影响的内存或电路。确切的频率取决于故障的范围,并且多么频繁地使用被损坏的设备。

切记永久性奇偶校验错误是硬件故障的结果并且再发生,每当使用受影响的组件。

如果遇到永久性奇偶校验错误,请分析在受影响的系统的位置发生的物理更改。可能导致永久性奇偶校验错误硬件故障的共源包括:

  • 电源浪涌(没有接地)
  • ESD
  • 过度加热或冷却
  • 不正确或部分安装
  • 组分不兼容
  • 生产缺陷

常见错误消息

Cisco IOS软件提供各种各样的奇偶错误消息,随受影响的组件和其相对影响变化在系统。

处理器

检测的缓存错误!
 CP0_CAUSE (reg 13/0) :0x00000400
 CPO_ECC (reg 26/0) :0x000000B3
 CPO_BUSERRDPA (reg 26/1) :0x000000B3
 CPO_CACHERI (reg 27/0) :0x20000000

检测的实时缓存错误。 系统将止步不前。

Error:主要的Instr缓存,字段:数据,
实际物理地址0x00000000,
虚拟地址是不精确的。

 不精确的数据奇偶校验错误

说明这是一奇偶校验错误的结果在路由处理器(RP)或多层交换特性卡3 (MSFC3)的交换机处理器(SP) CPU (静态随机访问存储器或者SRAM内的)使用的2级(L2)缓存。
建议为重现有规律地监控系统。如果进一步事件没有被观察,它是软件错误。如果错误频繁地出现,请求退货授权(RMA)为了替换Supervisor引擎,并且标记设备故障分析的(EFA)模块。
%SYSTEM_CONTROLLER-3-ERROR :Error condition detected:SYSAD_PARITY_ERROR
说明这是一奇偶校验错误的结果在波段之内控制器(数据总线)的使用的系统地址(IBC) MSFC3。
建议为重现有规律地监控系统。如果进一步事件没有被观察,它是软件错误。如果错误频繁地出现,请求RMA为了替换Supervisor引擎,并且标记EFA的模块。
%SYSTEM_CONTROLLER-3-ERROR :Error condition detected:TM_DATA_PARITY_ERROR
说明这是一奇偶校验错误的结果在表管理器用于的由MSFC3的IBC。
建议为重现有规律地监控系统。如果进一步事件没有被观察,它是软件错误。如果错误频繁地出现,请求RMA为了替换Supervisor引擎,并且标记EFA的模块。
%SYSTEM_CONTROLLER-3-ERROR :Error condition detected:TM_NPP_PARITY_ERROR
说明这是一奇偶校验错误的结果在表管理器‘MSFC3的IBC’使用的Next页指示器的。
建议

为重现有规律地监控系统。如果进一步事件没有被观察,它是软件错误。如果错误频繁地出现,请求RMA为了替换Supervisor引擎,并且标记EFA的模块。

在12.1(8)E和12.2(33)SXI3之间的Cisco IOS软件版本中,以回应SYSTEM_CONTROLLER-3-ERROR事件的默认行为是重置IBC和记录错误消息。

然而,此纠正措施导致一些不再的IBC的描述的案件(和因而, CPU)能传送或接收数据。因此,行为在Cisco IOS软件版本比12.2(33)SXI4更改后记录错误消息和重置系统;参考的Cisco Bug ID CSCtf51541

中断例外, CPU信号20, PC = 0x[dec]
说明这是一一位奇偶校验错误的结果在Cisco Catalyst 6700系列模块(SRAM)使用的CPU L2缓存。
建议

为重现有规律地监控系统。如果进一步事件没有被观察,它是软件错误。如果错误频繁地出现,请求RMA为了替换6700模块,并且标记EFA的模块。

在Cisco IOS软件版本中早于12.2(33)SXI5,软件Bug (Cisco Bug ID CSCtj06411)将造成一位奇偶校验错误重置6700模块。这被解决了在Supervisor引擎的720版本12.2(33)SXI6和12.2(33)SXJ和在Supervisor引擎的2T版本15.0SY。

RAM

%SYSTEM_CONTROLLER-3-ERROR :Error condition detected:SYSDRAM_PARITY_ERROR
说明这是一不可能修正的奇偶校验错误的结果在MSFC3 (DIMM)的使用的同步DRAM (SDRAM)存储器模块。
建议为重现有规律地监控系统。如果进一步事件没有被观察,它是软件错误。如果错误频繁地出现,请清洗并且重新安装DIMM,并且继续监控。如果错误继续,请求RMA为了替换或升级DIMM。
%SYSTEM_CONTROLLER-3-COR_MEM_ERR :可校正DRAM内存错误。计数[dec],日志[hex]
说明这是一可校正奇偶校验错误的结果在MSFC3 (DIMM)的使用的SDRAM。
建议为重现有规律地监控系统。如果进一步事件没有被观察,它是软件错误。如果错误频繁地出现,请清洗并且重新安装DIMM,并且继续监控。如果错误继续,请求RMA为了替换或升级DIMM。
%MWAM-DFC[dec]-0-CORRECTABLE_ECC_ERR :一个可校正ECC错误出现, A_BUS_L2_ERRORS :0x10000, A_BUS_MEMIO_ERRORS :0x0, A_SCD_BUS_ERR_STATUS :0x80983000
说明

这是一一位奇偶校验错误的结果在6700系列模块使用的DRAM的。

建议

为重现有规律地监控系统。如果进一步事件没有被观察,它是软件错误。如果错误频繁地出现,请清洗并且重新安装DIMM,并且继续监控。如果错误继续,请求RMA为了替换或升级DIMM。

%PM_SCP-SP-2-LCP_FW_ERR_INFORM :模块[dec]经历以下错误:在卷# [dec]检测的LTL奇偶校验错误。
说明这是一奇偶校验错误的结果在Cisco Catalyst 6100和Cisco Catalyst 6300系列模块使用的SRAM的。
建议

为重现有规律地监控系统。如果进一步事件没有被观察,它是软件错误。如果错误频繁地出现,请求RMA为了替换6100或6300模块,并且标记EFA的模块。

%SYS-4-SYS_LCPERR4 :Module [dec]:在卷# [dec]检测的LTL奇偶校验错误
说明这是一奇偶校验错误的结果在6100和6300系列模块使用的SRAM的。
建议为重现有规律地监控系统。如果进一步事件没有被观察,它是软件错误。如果错误频繁地出现,请求RMA为了替换6100或6300模块,并且标记EFA的模块。

ASIC

%PM_SCP-SP-2-LCP_FW_ERR_INFORM :模块[dec]经历以下错误:端口ASIC ([name])在端口[dec]检测的数据包缓冲失败
说明这是一奇偶校验错误的结果在思科Catalyst 6148A系列以太网模块(SRAM)的使用的端口ASIC数据包缓冲。
建议

为重现有规律地监控系统。如果进一步事件没有被观察,它是软件错误。如果错误频繁地出现,请求RMA为了替换6148A模块,并且标记EFA的模块。

%LTL-SP-2-LTL_PARITY_CHECK :LTL 0x[hex]的奇偶校验请求
说明这是一奇偶校验错误的结果在Catalyst 6100-6500及6700系列模块(SRAM)里使用的端口ASIC端口索引索引表。
建议为重现有规律地监控系统。如果进一步事件没有被观察,它是软件错误。如果错误频繁地出现,请求RMA为了替换模块,并且标记EFA的模块。

参考错误消息全面列表的这些Cisco IOS软件文档:

命令输出解释程序工具仅限注册用户)支持某些 show 命令。请使用Output Interpreter Tool为了查看show命令输出分析。

最新的前进

研究到奇偶校验错误里字段是持续的,并且没有每个方案可以被针对,但是思科Catalyst 6500硬件与软件开发组织继续引入新建的方式,例如纠错码(ECC)保护,最小化和缓和奇偶校验错误出现。

当本文开始与第三代(WS-XSUP720和早期6700系列)的讨论时Catalyst 6500产品,此部分汇总改进介绍与第四代(VS-S720-10G及以后6700系列)和第五代(VS-SUP2T-10G和6900系列)。

处理器

运行在600Mhz其中每一个的VS-S720-10G模块功能一个更新的MSFC3子板,与一新的IBC和更新SR7010A精简的指令集计算(RISC) RP和SP CPU。1级(L1), L2和3级(L3)缓存有能力在奇偶校验检测上。更新的IBC有所有早期世代的功能并且添加ECC保护(一位更正,多位检测)到附加的SRAM。

6700系列模块支持CPU用ECC保护的L2缓存(L1缓存是有能力奇偶校验的检测),能更正一位奇偶校验错误,不用需要重置。然而,由于Cisco Bug ID CSCsz39222, Cisco IOS软件(Supervisor引擎720)的版本12.2SXI重置无论如何模块,如果一个一位CPU缓存奇偶校验错误出现。这在版本12.2SXJ (Supervisor引擎720)和15.0SY (Supervisor引擎2T)被解决Cisco IOS软件。

VS-SUP2T-10G以与一集成IBC的一个新的MSFC5子板为特色,并且运行在1.5Ghz每个核心的新单个, DUAL核心MPC8572 PPC RP CPU (用ECC保护的L2和L3缓存, L1缓存是有能力奇偶校验的检测)。它也以新,分开,带外连通性管理处理器(CMP) CPU和ECC保护的DRAM为特色,是可用的,即使RP CPU是目前不可用的。

新的IBC有所有早期世代的功能并且支持附加的SRAM的ECC在奇偶校验错误处理的保护和改进。新的MSFC5也以内置失败记录日志(OBFL) ROM为特色,存储所有模块初始化和诊断事件。新的单个CPU设计也降低奇偶错误事件统计可能性。

6900系列模块支持更新的CPU用ECC保护的L1和L2缓存,能更正一位奇偶校验错误,不用需要重置。新一代支持同样IBC,并且一位奇偶校验错误纠正的软件处理合并。

RAM

与MSFC3的VS-S720-10G以与ECC保护的Double Data Rate (DDR) SDRAM为特色,操作在266Mhz。

6700系列模块支持与ECC保护的DDR SDRAM,操作在266Mhz。

比较的单一数据速率(SDR) SDRAM, DDR SDRAM接口成为转发速率可能由电子数据和时钟信号的定时的更多严格的控制。(在时钟信号的上升的和落的边缘的数据传输)为了降低时钟频率的DDR接口用途双抽。更低时钟频率减少在连接内存到控制器的Circuit Board的信号完整性需求。

与MSFC5的VS-SUP2T-10G以DDR3与ECC保护的SDRAM为特色,操作在667Mhz。

6900系列模块支持DDR3与ECC保护的SDRAM,操作在667Mhz。

DDR3在其立即前辈的SDRAM主要优点(DDR2和DDR)是其能力两次传递数据以速率(八倍速度其内存阵列),启用高带宽或高峰数据速率。DDR3内存也减少功耗按30%,即使使用电信令标准和DDR和DDR2一样。

ASIC

与PFC3C的VS-S720-10G以有ECC保护的SRAM数据包缓冲为特色。这提供一位奇偶校验错误纠正,不用模块重置,以及多位奇偶校验错误错误检测。

6700系列与DFC3C显示功能有ECC保护的SRAM数据包缓冲。这提供一位奇偶校验错误纠正,不用模块重置,以及多位奇偶校验错误错误检测。

与PFC4的VS-SUP2T-10G以有ECC保护的SRAM数据包缓冲为特色。这提供一位奇偶校验错误纠正,不用模块重置,以及多位奇偶校验错误错误检测。

6900系列与DFC4显示功能有ECC保护的SRAM数据包缓冲。这提供一位奇偶校验错误纠正,不用模块重置,以及多位奇偶校验错误错误检测。

软件

Cisco IOS软件设计支持ECC保护。如果硬件组件支持ECC保护体验SEU,代码应该更正损坏的数据或重置受影响的组件和不要求受影响的模块的全双工硬件重启。 

然而,在Cisco IOS软件更早版本,有行为故意地更改或故障由于软件Bug的一些例外。这是两值得注意的例外。

MSFC IBC重置

在12.1(8)E和12.2(33)SXI3之间的Cisco IOS软件版本中,以回应SEU SYSTEM_CONTROLLER-3-ERROR事件的默认行为是重置IBC和记录错误消息。然而,此纠正措施导致一些不再的IBC的描述的案件(和因而, CPU)能传送或接收数据。

因此,行为在版本12.2(33)SXI4 (Cisco Bug ID CSCtf51541)以后更改记录错误消息和重置系统。当此回应可能似乎更加严重时,重置系统和更正存储器结构比有一个无答复的系统是更可取的。

一个功能在开发(Cisco Bug ID CSCtr89859)中当前将添加让您交换默认行为的一新的line interface (cli) command命令。此增强是最可适用的对使用单个Supervisor和没因而有Supervisor冗余的系统。

6700系列‘一位奇偶校验错误’重置

在Cisco IOS软件版本更早的than12.2(33)SXI5中,软件Bug (Cisco Bug ID CSCtj06411)将造成一位奇偶校验错误重置6700模块。这通常是一可校正奇偶校验错误和不会要求将重置的模块。

此bug被解决了在Supervisor引擎的720版本12.2(33)SXI6+和12.2SXJ和在Supervisor引擎的2T版本15.0SY。在对适当的版本的升级, 6700模块记录错误消息并且继续运行后。

建议

由此点,您很可能确定您是否遇到软奇或永久性奇偶校验错误。当这可能论及单个事件时,其他奇偶校验错误漏洞也许仍然存在,因此您应该采取对您的整个网络的更多全面的方法。

因此,思科和Catalyst 6500业务部门建议您查看这些缓解步骤并且采取适当的纠正措施为了排除或减少将来奇偶校验错误。

软件错误(SEU)

单个事件(软奇)奇偶校验错误是由环境状况造成的,并且可能只一次(SEU)或非常偶尔地,例如每月或逐年出现。虽然您不需要更换硬件,您要缓和将来出现。

这些最佳实践极大降低暂时性奇偶校验错误可能性。

环境审计

思科建议您执行您受影响的网络位置一环境审计。您可以执行此审计或与思科代表配合,与思科团队(例如思科高级服务),或者通过一位第三方顾问。

一环境审计的确切的覆盖和复杂性取决于许多不同的变量例如地理位置、建立和空间大小和设计、电子设计和布局和其他相关要素。

考虑ESD和EMI什么环境来源可能存在您的网络附近。这些是可能导致暂时性奇偶校验错误干扰的共源:

  • 电源电缆和用品
  • 功率分配单元
  • 通用电源
  • 光线系统
  • 发电器
  • 核设施(辐射)
  • 日晕(辐射)

机箱放置

SEUs能发生,如果功率分配单元、发电器或者光线系统是太接近机箱或,如果多个电源电缆是在或在机箱旁边。

提供Catalyst 6500机箱和这些电子和磁性来源之间的足够的距离是重要的。推荐的距离由组件变化并且从组分数据表是可得到。

一般来说,思科推荐您找出系统从电子和磁性干扰共源的至少三到六英寸。应该路由电源电缆在和远离机箱下,在任何可能的情况下,并且不应该放置在紧密地被包装的套件或在大量在或在机箱旁边间。

接地

电源波动和电源浪涌是比较普遍的,并且Catalyst 6500电源设计适应在电压当前上的较小变化。

然而,为机箱和货架提供适当的电子地面是关键的,因此所有超额电力电压被画远离系统。没有正确接地,电源浪涌可能导致损伤或故障以多种ASIC和存储器组件。参考Catalyst 6500系列交换机安装指南,安装交换机,设立系统接地,欲知更多信息。

ESD

ESD能容易地损坏关键组件,不用任何可视损坏。应该合并适当的预防措施到实验室营业方针里,但是这样测量经常和不幸地忽略的归结于权宜之计和被限制的失察。

思科建议您的实验室操作管理,与Cisco系统一起,执行所有网络区域一环境审计或,最少陈列了硬件故障或被选定了作为任务鉴定的,所有区域。一旦审计完成,思科建议您实现所有最近安装的系统的一个标准化的环境清单为了避免将来SEU奇偶校验事件。

最新的固件(Rommon)

Catalyst系列硬件硬件元件使用初始化的固件(亦称Rommon)代码,传达,并且运行诊断。一旦这些功能完成,系统操作被移交对Cisco IOS软件。遇到问题用固件是不常见的,但是可以有问题,如果使用另外固件版本代码Supervisor和模块。

因此,它是最佳实践保证所有组件使用最新的固件代码为了保证适当的模块初始化和通信。思科建议您的操作管理执行一个网络审计并且升级有最新的固件版本的所有硬件组件。

已知固件问题和升级程序描述在:

下载从Cisco网站的最新的固件版本:

翼形螺钉

所有模块化网络系统设计插入到有一套的一个机箱底板物理接口管脚。机箱底板根本是一系列的被互联的金属丝。在每机箱槽的管脚形成Supervisor和以太网模块之间的物理数据连接。因此,这些管脚的正确的插入和校准是关键。

Catalyst 6500提供在机箱的安装中协助解决的导轨和定位销。slot管脚(插槽)和模块连接器设计容易地从事和提供高带宽有能力电子连接。一旦插入到机箱,有完全占用底板引脚的翼形螺钉在模块的每一边。参考Catalyst 6500系列交换机模块安装注意

如果模块适当地插入到slot,并且正确地拧紧了翼形螺钉,通信问题没有预计。然而,几个情况在可能导致不正确甚至不完整管脚插入模块的每日插入可能发生:

  • 不足的插入强制-如果模块部分地插入,不用使用翼形螺钉,这可能导致总线停转,并且模块可能不能用其他模块通信。根据级别插入(例如,如果有被限制的体接触),模块可能能传送和接收数据,但是可能经历导致坏包的位错误。
  • 垂直不同心度-,当仅模块的一端在导轨,这发生。因为模块出现对角线,并且通常不连接底板引脚,这容易地识别。
  • 水平的不同心度-如果翼形螺钉在一端只使用,某些管脚不适当地从事。因为模块可能看上去适当地插入,这是常见问题。水平的不同心度实际上是不足的插入强制表。

思科建议您实现规定使用在所有Catalyst 6500模块的翼形螺钉在生产环境的操作管理进程。这保证适当和全双工底板引脚的插入和校准并且防止将来失败由于位错误和相关通信故障。

硬错误(故障)

常见或可重复的(硬)奇偶校验错误由用于的内存或电路的物理故障造成读和写入。在这类情况下,请更换硬件并且要求Cisco技术支持中心(TAC)或您的Cisco系统工程师执行在返回的硬件的EFA。

这些最佳实践极大降低永久性奇偶校验错误可能性。

硬件(MTBF和EOL)审计

思科建议您执行您受影响的网络位置网络审计。您可以执行此审计或与思科代表配合,与思科团队(例如思科高级服务),或者通过一位第三方顾问。

所有硬件(从所有供应商)是受物理完整性的最后的下降和它支配是重要跟踪生命周期在您的网络的所有硬件组件为了随着时间的推移充分地了解组件故障可能性。

硬件可靠性可以测量与平均故障间隔时间(MTBF)框架。因为MTBF是仅一统计平均值,这不意味着失败明确地将发生在MTBF时间结束时。然而,应该为刷新标记组件故障增加,因此这样硬件的可能性和漏洞。参考特定MTBF值的Cisco Catalyst 6500系列交换机数据表或宣传单页每种Catalyst 6500产品的。

聚集的计算的Catalyst 6500 ‘系统层’ MTBF值> 7年。

除MTBF框架之外,思科也提供到期(EOL)框架,定义了一种给的产品和提供预计生命周期可适用的通告为了帮助您刷新您的传统设备。参考多种传统Catalyst 6500产品的生命周期结束和销售终止公告

由于此硬件审计,思科建议您实现识别并且跟踪潜在的刷新的硬件的您自己的MTBF和EOL进程。这保证最新的硬件运行并且最小化硬件故障可能性。

硬件诊断

用于系统的所有硬件组件的Catalyst 6500系列和Cisco IOS软件提供通用的在线诊断(金牌服务)和健康监控(嗯)诊断。可以启用诊断的两种基本类型是根据要求和启动。参考在Cisco Catalyst 6500系列交换机的通用的在线诊断其他信息。

思科建议‘请完成’启动诊断为所有硬件组件启用为了保证所有诊断测试被执行和确认所有硬件组件作用正如所料在启动。

思科每天或每星期也建议您安排正常,关键结构组件根据要求诊断根据一个基本类型的。在初始化时仅发生的启动诊断之外,根据要求诊断保证硬件继续运行正如所料。参考Catalyst 6500版本12.2SX软件配置指南、接口和硬件组件,在线诊断欲知更多信息。

除默认根据要求诊断测试之外,思科建议您使这些根据要求诊断测试为了主动地识别也许发生故障的存储器组件:

  • TestLinecardMemory
  • TestAsicMemory

相关的思科支持社区讨论

思科支持社区是您提问、解答问题、分享建议以及与工作伙伴协作的论坛。


Document ID: 116135