路由器 : 思科 7200 系列路由器

Cisco 7200奇偶校验错误故障树

2015 年 8 月 28 日 - 机器翻译
其他版本: PDFpdf | 英语 (2015 年 4 月 22 日) | 反馈


目录


简介

本文解释步骤排除故障和隔离Cisco7200的哪个部分或组件失败,当您识别各种各样的奇偶错误消息。我们建议您读路由器崩溃故障排除处理器内存奇偶校验错误(PMPE),在您继续进行本文前。

注意: 本文档中的信息根据思科7200系列路由器。

先决条件

要求

本文档没有任何特定的前提条件。

使用的组件

本文档不限于特定的软件和硬件版本。

本文档中的信息都是基于特定实验室环境中的设备创建的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您使用的是真实网络,请确保您在使用任何命令前已经了解其潜在影响。

规则

有关文档规则的详细信息,请参阅 Cisco 技术提示规则

网络处理引擎 (NPE) 奇偶检验错误故障树分析

此图表描述步骤确定Cisco7200的哪个部分或组件失败,当您识别各种各样的奇偶错误消息。

/image/gif/paws/12763/c7200_faulttree1.gif

注意: 在奇偶错误事件期间,获取并且记录show tech-support输出并且控制日志,并且收集所有crashinfo文件

NPE 奇偶检验错误检测和消息

此部分包含NPE的结构图,并且这些系统检测奇偶校验错误的地方。您能找到下面每种错误信息类型的说明。

NPE-300 中的奇偶校验错误

c7200_faulttree2.gif

在共享内存(SDRAM), PCI总线和保护从发生故障的系统的CPU的外部接口的NPE-300用途对称校验由位错误。对称校验能够检测个别位错误通过使用简单方法;添加每八个位的一个校验位数据。如果它检测有点错误,当通过时在硬件组件之间的数据,系统丢弃错误的数据。在所有位置的个别位错误以上图表的造成路由器重置。

NPE-400 奇偶校验/ECC 检测

c7200_faulttree3.gif

NPE-400用途单bit错误更正和多位错误检测ECC (误码纠错)共享内存的(SDRAM)。要增加在NPE-400的系统可用性, ECC更正在SDRAM的个别位错误,允许系统正常运行,无需重置和,不用停工期。关于ECC如何的更多信息提高系统可用性,参考Increasing Network Availability页

在SDRAM的一个多位错误造成路由器重置与缓存错误异常或总线错误。内存的在系统的其余和BUS使用一位奇偶校验检测。在1和3的个别位错误在以上图表原因路由器重置。

C7200 路由器中的奇偶校验错误

数在C7200/NPE路由器的对称校验设备能报告数据以所有读或写操作的错误奇偶校验。这是在C7200/NPE system:报告的多种错误消息的说明

GT64010/GT64120 DRAM错误

此错误报告,当GT64120系统控制器检测奇偶校验错误时,当读SDRAM时:

%ERR-1GT64120 (PCI0):Fatal error, Memory parity error (external)
GT=0xB4000000, cause=0x0100E283, mask=0x0ED01F00, real_cause=0x00000200
Bus_err_high=0x00000000, bus_err_low=0x00000000,
addr_decode_err=0x1C000000

在第二个故障之后替换SDRAM。如果失败仍然存在,请替换NPE。

注意: 对于更旧的NPEs (NPE-100/150/200)使用的GT64010控制器,错误如下所示:

%ERR-1-GT64010: Fatal error, Memory parity error (external) 
cause=0x0300E283, mask=0x0CD01F00, real_cause=0x00000200 
bus_err_high=0x00000000, bus_err_low=0x00000000, addr_decode_err=0x00000000

GT64010控制器使用而不是动态RAM (DRAM) SDRAM。在这种情况下,请在第二个故障之后更换DRAM。如果失败仍然存在,请替换NPE。

GT64010/GT64120读的系统奇偶错误控制

一奇偶校验错误在万事达中读了是访问触发的奇偶校验错误外围部件互连(PCI)网桥。这是输出的奇偶校验错误示例:

%ERR-1-GT64120 (PCI0):Fatal error, Parity error on master read
GT=B4000000, cause=0x0110E083, mask=0x0ED01F00, real_cause=0x00100000
Bus_err_high=0x00000000, bus_err_low=0x00000000,
addr_decode_err=0x00000470

%ERR-1-SERR: PCI bus system/parity error
%ERR-1-FATAL: Fatal error interrupt, No reloading
Err_stat=0x81, err_enable=0xFF, mgmt_event=0x40

在第二个故障之后替换适当的组件。系统网桥转储指示替换的哪个组件。

System bridge dump:

Bridge 1, for PA bay 1, 3 and 5. Handle=1
DEC21150 bridge chip, config=0x0

(0x1C):sec status, io base =0x83A09141
                Detected Parity Error on secondary bus
                Data Parity Detected on secondary bus
(0x20):mem base & limit =0x4AF04880

这些表告诉您哪个组件有从错误信息输出的一个可能的问题。

NPE-100/150/200 :

网桥号 什么网桥是为 在主要的总线的奇偶校验错误 在附属总线的奇偶校验错误
网桥0 对MB1 0的下行MB0 替换NPE 替换NPE;如果现在,替换机箱
网桥1 对MB0的上行MB1 替换NPE;如果现在,替换机箱 替换NPE
网桥2 对MB2的下行MB0 替换NPE 替换NPE;如果现在,替换机箱
网桥3 对MB0的上行MB2 替换NPE;如果现在,替换机箱 替换NPE

NPE-175/225/300/400/NSE-1 :

网桥号 什么网桥是为 在主要的总线的奇偶校验错误 在附属总线的奇偶校验错误
网桥0 PA海湾0 (I/O卡, PCMCIA,接口 替换NPE 替换NPE;如果现在,替换I/O卡。如果现在,替换机箱
网桥1 PA海湾1, 3和5 替换NPE 替换NPE;如果现在,替换机箱
网桥2 PA海湾2, 4和6 替换NPE 替换NPE;如果现在,替换机箱

所有C7200s :

网桥号 什么网桥是为 在主要的总线的奇偶校验错误 在附属总线的奇偶校验错误
网桥4 端口适配器1 替换NPE;如果现在,替换机箱 替换PA 1;如果现在,替换机箱
网桥5 端口适配器2 替换NPE;如果现在,替换机箱 替换PA 2;如果现在,替换机箱
网桥6 端口适配器3 替换NPE;如果现在,替换机箱 替换PA 3;如果现在,替换机箱
网桥7 端口适配器4 替换NPE;如果现在,替换机箱 替换PA 4;如果现在,替换机箱
网桥8 端口适配器5 替换NPE;如果现在,替换机箱 替换PA 5;如果现在,替换机箱
网桥9 端口适配器6 替换NPE;如果现在,替换机箱 替换PA 6;如果现在,替换机箱

CPU奇偶校验错误

如同所有计算机和网络设备, NPE是易受奇偶校验错误少见的事件在处理器内存的。奇偶校验错误可能造成系统重置并且是一个瞬变单独事件干扰(SEU或软件错误)或能多次发生(经常指硬错误)由于损坏的硬件。关于SEUs的更多信息,参考Increasing Network Availability页。CPU奇偶校验错误报告,如果CPU检测奇偶校验错误,当访问其中任一个处理器的缓存时(L1, L2,或者,如果适合, L3)。

这是此种错误四示例:

示例 1:

Error: SysAD, data cache, fields: data, 1st dword
Physical addr(21:3) 0x195BE88,
Virtual address is imprecise.
    Imprecise Data Parity Error
    Imprecise Data Parity Error

NPE有一个R7K处理器用无阻塞缓冲存储器。无阻塞缓冲存储器含义,当执行一说明装载数据到寄存器,并且此数据不在L1缓存, CPU负载数据从一个更加低价位的缓存或从SDRAM数据。CPU不阻塞更加进一步的说明的执行,除非有另一缓存缺失或另一说明取决于装载的数据。这非常地加速处理器和改进性能,但是可能也导致是的奇偶校验错误不精确的。不准确的奇偶校验错误是,当CPU读信息,不用阻塞时,并且以后确定那里是在相关的缓存线路的一奇偶校验错误。R7K处理器无法告诉我们特别地哪说明被执行,当缓存线路装载和那是我们称它不准确的奇偶校验错误的原因。

即使系统使用误码纠错(ECC),发现一偶尔的奇偶校验错误是可能的,当更多比单一错误在64个位数据发生由于一个硬错误在缓存时。

奇偶校验错误出现,当信号比特值从其最初值时更改(0或1)对相反的值。此错误能生成由于软奇或永久性奇偶校验错误。

暂时性奇偶校验错误出现由于对设备的内存的外部影响,更改比特值在当前水平。此种问题瞬变,并且不再发生。当比特值由内存更改由于对内存时的损伤永久性奇偶校验错误出现。在那种情况下,问题每次发生使用内存区域,因此意味着问题能在几天之内多次重复到一周。

示例 2:

Error: SysAD, instr cache, fields: data, 1st dword
Physical addr(21:3) 0x000000,
virtual addr 0x6040BF60, vAddr(14:12) 0x3000
virtual address corresponds to main:text, cache word 0

          Low Data     High Data  Par  Low Data     High Data  Par
L1 Data:  0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01
          2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01
           Low Data     High Data  Par  Low Data     High Data  Par
DRAM Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01
           2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01

示例 3:

Cache Err Reg = 0xE4588D10
Data reference, Secondary/Sys intf cache, Data field error
Error on 1st doubleword on System interface
No errors in addition to instr error
Data phy addr that caused last parity or bus error: 0x1E84040C

示例4 (仅NPE-300和NPE-400) :

%CERF-3-RECOVER: PC=0x604F136C, Origin=L3 Data ,PhysAddr=0x013CEFD0

%SYS-2-CERF_ABORT: Reason=0xEE23, PC=0x604629C8, Origin=L3 Data, 
Phys Addr=0x0287A4E8

以上两个的消息由“缓存错误恢复功能(CERF)报告”伴随如下:

CERFa[1 ] 05:25:36 MET Tue Jul 9 2002: result=0xEE23; instr_pos=-2; rpl_off=1
CERFb[1 ] PC =604629C8; ORGN=L3 Data; PRID=00002710; PHYA=0287A4E8
CERFc[1 ] SREG=3400E105; CAUS=00000400; DEA0=0287A4E8; ECC =00000000 
CERFd[1 ] CERR=E447A4EA; EPC =606361F8; DEA1=02517058; INFO=00000000
CERFe[1 ] CACHE=28FF78B4 62B36D98 02020684 00000E17 00000030 00000001 61F2934C 3EDA025D
CERFe[1 ] SDRAM=28FF78B4 62B36D98 02020684 00000E17 00000030 00000001 61F2934C 3EDA025D
CERFg[1 ] CXT =00000000; XCXT=00000000; BVAD=00000008; PFCL=00000000
CERFh[1 ] ISeq: 0045182B; 1060000E; 2C4203E9; 92430028; 38420001; 30630005
CERFi[1 ] o0 $3 ....; beq....; sltiu $2 ....; lbu $3, 0x0028($18); xori $2....; andi $3 ....;*
CERFj[1 ]           ;        ;              ;            6287A4E8;            ;             ;
CERFk[1 ] ResumptionCode= 0x92430028; 0x0000000F; 0x42000018
CERFl[1 ] Instr's checked=4; diags=0x00000158,0x00040000,3600,1,0
CERFm[1 ] BaseRegLost later/off: 0/0 times; StoredValueLost: 0 times
CERFn[1 ] INFO=00000000; CNFG=5061F4BB; ICTL=00000000

Initial Register Values
CERFs00[1 ] $0=00000000 AT=61A30000 v0=00000001 v1=00000002
CERFs04[1 ] a0=28FF8728 a1=00003A98 a2=00000000 a3=00000007 
CERFs08[1 ] t0=00000000 t1=3400E101 t2=606381E0 t3=FFFF00FF
CERFs12[1 ] t4=606381C8 t5=000005D4 t6=00000008 t7=61C50000
CERFs16[1 ] s0=6189C188 s1=00000000 s2=6287A4C0 s3=00003A98
CERFs20[1 ] s4=61BD57B0 s5=00000006 s6=00000000 s7=61BD6C60
CERFs24[1 ] t8=60634788 t9=00000000 k0=621A8374 k1=6063EA40
CERFs28[1 ] gp=61A33B20 sp=61E28678 s8=00000000 ra=60462CA4

1 Cache error exceptions already reported

您看到上述日志,如果CERF在NPE-300启用或NPE-400和奇偶校验错误发生。关于CERF的更多信息,参考下面Solutions部分。

解决方案

以下措施,当您遇到这样错误时,推荐:

  1. 监控受影响的硬件发现同一问题是否再发生。如果它不,则它是瞬变单独事件干扰(SEU),并且您不需要采取任何行动。

  2. 在不太可能的情况问题再发生, cache L3 bypass/disable命令是可能帮助减少问题的影响的选项。此命令只是可用的在以下平台:

    • 7200与处理器引擎NPE-300、NPE-400或者NSE-1

    • 7400与处理器enginer NSE-1

    由于NPE-300不支持ECC内存,没有服务中断,此功能是特别重要增加系统可用性和处理这些奇偶校验错误。这解决许多暂时性奇偶校验错误。警告是有一轻微的性能影响到系统,当L3缓存禁用时。性能下降任何地方在1%和10%之间根据系统配置。语法为使用此命令依靠Cisco IOS软件版本。

    • cache L3 disable命令可以在Cisco IOS软件版本找到12.3(5a)及以后。它也将是可用的在12.1(22)E。默认情况下在这些版本中, L3缓存禁用,因此操作不是需要的利用此功能。L3缓存可以重新授权给与no cache L3 disable命令。

    • cache L3 bypass命令可以在Cisco IOS软件版本12.2(6)S、12.2(6)B、12.2(8)BC1b、12.0(20)SP、12.2(6)PB、12.2(2)DD2、12.0(20)ST3、12.0(21)S、12.1(11)EC, 12.2(7)T, 12.1(13)和12.2(7)或者以后和12.1(11)E找到通过12.1(21)E。默认情况下此命令禁用。

    要启用L3缓存旁路,请进入以下从配置模式:

    Router(config)#cache L3 bypass
    

    要禁用L3缓存旁路,请进入以下从配置模式:

    Router(config)#no cache L3 bypass
    

    新的缓存设置不生效,直到路由器重新加载。

    当路由器启动时,系统信息显示,包括关于L3缓存的信息。这是因为startup-config文件未由系统处理。在startup-config文件处理后, L3缓存被旁路过,如果cache L3 bypass命令在配置里。

    要验证L3缓存设置,您能发出show version命令。如果L3缓存被旁路过,没有参考到L3缓存在show version输出

  3. 帮助增加系统可用性的另一个功能是缓存错误恢复功能(CERF)。当此功能启用(这是仅默认在最新的Cisco IOS软件版本,但是自二月2004年, NPE-300和NPE-400的), Cisco IOS软件做出尝试解决奇偶校验错误和保持从失败的处理器。此功能解决大约75%暂时性奇偶校验错误特定类型。通过调用此命令,系统看到少于5%性能下降。

    NPE-300的CERF可以在Cisco IOS软件版本找到12.1(15), 12.1(12)EC, 12.0(22)S, 12.2(10)S, 12.2(10)T, 12.2(10), 12.2(2)XB4、12.2(11)BC1b和12.1(5)XM8或者以后。

    NPE-400的CERF可以在12.3(3)B、12.2(14)S3、12.1(20)E, 12.1(19)E1, 12.3(1a), 12.2(13)T5, 12.2(18)S, 12.3(2)T, 12.2(18), 12.3(3)和12.3(1)B1或者以后找到。

    NPE-300的CERF要求硬件修订版4.1或更加高。为了确定您的NPE-300硬件版本,请使用show c7200命令

    Router>show c7200
    ...
    C7206VXR CPU EEPROM:
    Hardware revision 4.1 Board revision A0
    
    	  ...

    NPE-400的CERF要求处理器R7K Revision 2.1或更加高。为了识别您的NPE-400处理器版本,请使用show version命令

    Router>show version
    ...
    cisco 7206VXR (NPE400) processor with 491520K/32768K bytes of memory.
    R7000 CPU at 350Mhz, Implementation 39, Rev 3.2, 256KB L2, 4096KB L3 
    Cache 6 slot VXR midplane, Version 2.1
    ...

    注意: 收集所有相关crashinfo文件为了确定错误的根本原因按照获取信息说明从Crashinfo文件是重要的。

如果以上的建议不解决问题,则替换NPE在案件可能帮助奇偶校验错误被重复的出现,因为永久性奇偶校验错误归结于损坏的硬件。硬件替换与原始NPE是相同的。替换NPE不保证进一步奇偶校验错误不会出现,因为单个事件翻倒(SEUs)在有内存的所有计算机设备是内在的。

相关的思科支持社区讨论

思科支持社区是您提问、解答问题、分享建议以及与工作伙伴协作的论坛。


相关信息


Document ID: 12763