本文解释步骤排除和查出Cisco7200的哪个故障部分或组件失败,当您识别各种各样的奇偶错误信息时。我们建议您读路由器崩溃故障排除和处理器内存奇偶校验错误(PMPE),在您继续进行本文前。
Note: 本文的信息根据Cisco 7200 Series Routers。
本文档没有任何特定的前提条件。
This document is not restricted to specific software and hardware versions.
本文档中的信息都是基于特定实验室环境中的设备创建的。All of the devices used in this document started with a cleared (default) configuration.如果您使用的是真实网络,请确保您在使用任何命令前已经了解其潜在影响。
有关文档规则的详细信息,请参阅 Cisco 技术提示规则。
此图表描述步骤确定Cisco7200的哪个部分或组件失败,当您识别各种各样的奇偶错误信息时。
Note: 在奇偶错误事件期间,获取并且记录show tech-support输出和控制台日志,并且收集所有崩溃信息文件。
此部分包含NPE的结构图,并且这些系统发现奇偶错误的地方。您能找到下面每种错误信息类型的说明。
NPE-300用途对称校验在共享内存(SDRAM), PCI总线和保护系统的CPU的外部接口免受发生故障由位错误。对称校验能够发现个别位错误通过使用简单方法;添加每八位的一个校验位数据。如果它发现有点错误,当通过时在硬件组件之间的数据,系统丢弃错误的数据。在所有位置的个别位错误以上图表的造成路由器重置。
共享内存的(SDRAM) NPE-400用途单bit错误更正和多位错误检测ECC (误码纠错)。要增加在NPE-400的系统可用性, ECC更正在SDRAM的个别位错误,允许系统正常运行,无需重置和,不用停工期。关于ECC如何的更多信息提高系统可用性,请参见Increasing Network Availability页。
在SDRAM的一个多位错误造成路由器重置与缓存错误异常或总线错误。内存的在系统的其余和BUS使用一位奇偶校验检测。在1和3的个别位错误在以上图表原因重置的路由器。
数在C7200/NPE路由器的对称校验设备能报告数据以所有读或写操作的错误奇偶校验。这是关于C7200/NPE系统报告的多种错误信息的说明:
此错误报告,当GT64120系统控制器发现一个奇偶错误时,当读SDRAM时:
%ERR-1GT64120 (PCI0):Fatal error, Memory parity error (external) GT=0xB4000000, cause=0x0100E283, mask=0x0ED01F00, real_cause=0x00000200 Bus_err_high=0x00000000, bus_err_low=0x00000000, addr_decode_err=0x1C000000
在第二个故障之后替换SDRAM。如果故障仍然存在,请替换NPE。
Note: 对于更旧的NPEs (NPE-100/150/200)使用的GT64010控制器,错误如下所示:
%ERR-1-GT64010: Fatal error, Memory parity error (external) cause=0x0300E283, mask=0x0CD01F00, real_cause=0x00000200 bus_err_high=0x00000000, bus_err_low=0x00000000, addr_decode_err=0x00000000
GT64010控制器使用动态RAM (DRAM)而不是SDRAM。在这种情况下,请在第二个故障之后更换DRAM。如果故障仍然存在,请替换NPE。
在读的主设备的一个奇偶错误是访问触发的奇偶错误一个外围部件互连(PCI)网桥。这是输出的奇偶错误示例:
%ERR-1-GT64120 (PCI0):Fatal error, Parity error on master read GT=B4000000, cause=0x0110E083, mask=0x0ED01F00, real_cause=0x00100000 Bus_err_high=0x00000000, bus_err_low=0x00000000, addr_decode_err=0x00000470 %ERR-1-SERR: PCI bus system/parity error %ERR-1-FATAL: Fatal error interrupt, No reloading Err_stat=0x81, err_enable=0xFF, mgmt_event=0x40
在第二个故障之后替换适当的组件。系统网桥转储指示替换的哪个组件。
System bridge dump: Bridge 1, for PA bay 1, 3 and 5. Handle=1 DEC21150 bridge chip, config=0x0 (0x1C):sec status, io base =0x83A09141 Detected Parity Error on secondary bus Data Parity Detected on secondary bus (0x20):mem base & limit =0x4AF04880
这些表告诉您哪个组件有从错误信息输出的一个可能的问题。
网桥号 | 什么网桥是为 | 在主要的总线的奇偶错误 | 在附属总线的奇偶错误 |
---|---|---|---|
网桥0 | 对MB1 0的下行MB0 | 替换NPE | 替换NPE;如果当前,替换机箱 |
网桥1 | 对MB0的上行MB1 | 替换NPE;如果当前,替换机箱 | 替换NPE |
网桥2 | 对MB2的下行MB0 | 替换NPE | 替换NPE;如果当前,替换机箱 |
网桥3 | 对MB0的上行MB2 | 替换NPE;如果当前,替换机箱 | 替换NPE |
网桥号 | 什么网桥是为 | 在主要的总线的奇偶错误 | 在附属总线的奇偶错误 |
---|---|---|---|
网桥0 | PA海湾0 (I/O卡, PCMCIA,接口 | 替换NPE | 替换NPE;如果当前,替换I/O卡。如果当前,替换机箱 |
网桥1 | PA海湾1, 3和5 | 替换NPE | 替换NPE;如果当前,替换机箱 |
网桥2 | PA海湾2, 4和6 | 替换NPE | 替换NPE;如果当前,替换机箱 |
网桥号 | 什么网桥是为 | 在主要的总线的奇偶错误 | 在附属总线的奇偶错误 |
---|---|---|---|
网桥4 | 端口适配器1 | 替换NPE;如果当前,替换机箱 | 替换PA 1;如果当前,替换机箱 |
网桥5 | 端口适配器2 | 替换NPE;如果当前,替换机箱 | 替换PA 2;如果当前,替换机箱 |
网桥6 | 端口适配器3 | 替换NPE;如果当前,替换机箱 | 替换PA 3;如果当前,替换机箱 |
网桥7 | 端口适配器4 | 替换NPE;如果当前,替换机箱 | 替换PA 4;如果当前,替换机箱 |
网桥8 | 端口适配器5 | 替换NPE;如果当前,替换机箱 | 替换PA 5;如果当前,替换机箱 |
网桥9 | 端口适配器6 | 替换NPE;如果当前,替换机箱 | 替换PA 6;如果当前,替换机箱 |
如同所有计算机和网络设备, NPE是易受奇偶错误少见的事件在处理器内存的。奇偶错误可能造成系统重置并且是生气的一个瞬变单个事件(SEU或软件错误)或能多次出现(经常指硬错误)由于损坏的硬件。关于SEUs的更多信息,请参见Increasing Network Availability页。CPU奇偶错误报告CPU是否发现一个奇偶错误,当访问其中任一个处理器的高速缓冲存储器时(L1, L2,或者,如果适合, L3)。
这是此种错误四个示例:
Error: SysAD, data cache, fields: data, 1st dword Physical addr(21:3) 0x195BE88, Virtual address is imprecise. Imprecise Data Parity Error Imprecise Data Parity Error
NPE有有无阻塞高速缓冲存储器的一个R7K处理器。无阻塞高速缓冲存储器意味着,当执行指令装载数据到寄存器,并且此数据不在L1高速缓冲存储器, CPU负载数据从一个更加低价位的高速缓冲存储器或从SDRAM数据。CPU不阻拦更加进一步的指令的执行,除非有另一缓存缺失或另一指令取决于被装载的数据。这非常地加速处理器和改进性能,但是可能也导致是的奇偶错误不精确的。一个不准确的奇偶校验错误是,当CPU读信息时,无需阻拦和以后确定那里是在相关的缓存线路的一个奇偶错误。R7K处理器无法告诉我们特别地哪指令被执行,当缓存线路被装载和那是我们称它一个不准确的奇偶校验错误的原因。
即使系统使用误码纠错(ECC),发现一个偶尔的奇偶错误是可能的,当更多比单一错误在64位发生了数据由于在高速缓冲存储器时的一个硬错误。
奇偶错误出现,当信号比特值从其最初值时更改(0或1)对相反的值。此错误能出现由于软奇或硬件奇偶错误。
软件奇偶校验错误出现由于对设备的内存的外部影响,更改比特值在当前水平。此种问题瞬变,并且不再发生。当内存更改比特值由于对内存时的损伤硬件奇偶错误出现。在那种情况下,问题每次发生使用内存区域,因此意味着问题能在几天之内多次重复到一个星期。
Error: SysAD, instr cache, fields: data, 1st dword Physical addr(21:3) 0x000000, virtual addr 0x6040BF60, vAddr(14:12) 0x3000 virtual address corresponds to main:text, cache word 0 Low Data High Data Par Low Data High Data Par L1 Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01 2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01 Low Data High Data Par Low Data High Data Par DRAM Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01 2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01
Cache Err Reg = 0xE4588D10 Data reference, Secondary/Sys intf cache, Data field error Error on 1st doubleword on System interface No errors in addition to instr error Data phy addr that caused last parity or bus error: 0x1E84040C
%CERF-3-RECOVER: PC=0x604F136C, Origin=L3 Data ,PhysAddr=0x013CEFD0
或
%SYS-2-CERF_ABORT: Reason=0xEE23, PC=0x604629C8, Origin=L3 Data, Phys Addr=0x0287A4E8
以上两个的消息由“缓存错误恢复功能(CERF)报告”伴随如下:
CERFa[1 ] 05:25:36 MET Tue Jul 9 2002: result=0xEE23; instr_pos=-2; rpl_off=1 CERFb[1 ] PC =604629C8; ORGN=L3 Data; PRID=00002710; PHYA=0287A4E8 CERFc[1 ] SREG=3400E105; CAUS=00000400; DEA0=0287A4E8; ECC =00000000 CERFd[1 ] CERR=E447A4EA; EPC =606361F8; DEA1=02517058; INFO=00000000 CERFe[1 ] CACHE=28FF78B4 62B36D98 02020684 00000E17 00000030 00000001 61F2934C 3EDA025D CERFe[1 ] SDRAM=28FF78B4 62B36D98 02020684 00000E17 00000030 00000001 61F2934C 3EDA025D CERFg[1 ] CXT =00000000; XCXT=00000000; BVAD=00000008; PFCL=00000000 CERFh[1 ] ISeq: 0045182B; 1060000E; 2C4203E9; 92430028; 38420001; 30630005 CERFi[1 ] o0 $3 ....; beq....; sltiu $2 ....; lbu $3, 0x0028($18); xori $2....; andi $3 ....;* CERFj[1 ] ; ; ; 6287A4E8; ; ; CERFk[1 ] ResumptionCode= 0x92430028; 0x0000000F; 0x42000018 CERFl[1 ] Instr's checked=4; diags=0x00000158,0x00040000,3600,1,0 CERFm[1 ] BaseRegLost later/off: 0/0 times; StoredValueLost: 0 times CERFn[1 ] INFO=00000000; CNFG=5061F4BB; ICTL=00000000 Initial Register Values CERFs00[1 ] $0=00000000 AT=61A30000 v0=00000001 v1=00000002 CERFs04[1 ] a0=28FF8728 a1=00003A98 a2=00000000 a3=00000007 CERFs08[1 ] t0=00000000 t1=3400E101 t2=606381E0 t3=FFFF00FF CERFs12[1 ] t4=606381C8 t5=000005D4 t6=00000008 t7=61C50000 CERFs16[1 ] s0=6189C188 s1=00000000 s2=6287A4C0 s3=00003A98 CERFs20[1 ] s4=61BD57B0 s5=00000006 s6=00000000 s7=61BD6C60 CERFs24[1 ] t8=60634788 t9=00000000 k0=621A8374 k1=6063EA40 CERFs28[1 ] gp=61A33B20 sp=61E28678 s8=00000000 ra=60462CA4 1 Cache error exceptions already reported
您看到上述日志,如果CERF在NPE-300允许或NPE-400和奇偶错误发生。关于CERF的更多信息,请参见下面Solutions部分。
当您遇到这样错误时,以下措施是推荐的:
监控受影响的硬件发现同一个问题是否再发生。如果它不,则它是瞬变单独事件干扰(SEU),并且您不需要采取任何行动。
在不太可能的情况问题再发生, cache L3 bypass/disable命令是可能帮助减少问题的影响的选项。此命令只是可用的在以下平台:
7200与处理器引擎NPE-300、NPE-400或者NSE-1
7400与处理器enginer NSE-1
由于NPE-300不支持ECC内存,没有服务中断,此功能是特别重要增加系统可用性和处理这些奇偶错误。这解决许多软件奇偶校验错误。警告是有轻微的性能命中率对系统,当L3高速缓冲存储器是失效的时。性能降低任何地方在1%和10%之间根据系统配置。语法为使用此命令依靠Cisco IOS软件版本。
cache L3 disable命令可以在Cisco IOS Software Releases 12.3(5a)找到及以后。它也将是可用的在12.1(22)E。默认情况下在这些版本中, L3高速缓冲存储器被禁用,因此动作不是需要的利用此功能。L3高速缓冲存储器可以重新授权给与no cache L3 disable命令。
cache L3 bypass命令可以在Cisco IOS Software Releases 12.2(6)S, 12 .2找到(6)B、12.2(8)BC1b、12.0(20)SP、12.2(6)PB、12.2(2)DD2、12.0(20)ST3、12.0(21)S、12.1(11)EC, 12.2(7)T, 12.1(13)和12.2(7)或者以后和12.1(11)E通过12.1(21)E。默认情况下此命令被禁用。
到enable (event) L3缓存旁路,从配置模式请进入以下:
Router(config)#cache L3 bypass
要禁用L3缓存旁路,从配置模式请进入以下:
Router(config)#no cache L3 bypass
新的缓存设置不生效,直到路由器被重新载入。
当路由器启动时,系统信息显示,包括关于L3高速缓冲存储器的信息。这是因为startup-config文件未由系统处理。在startup-config文件被处理后, L3高速缓冲存储器被旁路过,如果cache L3 bypass命令在配置。
要验证L3缓存设置,您能发出show version命令。如果L3高速缓冲存储器被旁路过,没有在L3高速缓冲存储器的参考在show version输出。
帮助增量系统可用性的另一个功能是缓存错误恢复功能(CERF)。当此功能是启用的(这是仅默认值在最新的Cisco IOS软件版本,但是在2004年2月, NPE-300和NPE-400的), Cisco IOS软件做出尝试解决奇偶错误和保持从失败的处理器。此功能解决大约75%软件奇偶校验错误特定类型。通过调用此命令,系统看到少于5%性能降低。
NPE-300的CERF可以在Cisco IOS Software Releases 12.1(15), 12 .1找到(12)EC、12.0(22)S、12.2(10)S, 12.2(10)T, 12.2(10), 12.2(2)XB4、12.2(11)BC1b和12.1(5)XM8或以上。
NPE-400的CERF可以在12.3(3)B、12.2(14)S3、12.1(20)E, 12.1(19)E1, 12.3(1a), 12.2(13)T5, 12.2(18)S, 12.3(2)T, 12.2(18), 12.3(3)和12.3(1)B1或以上找到。
NPE-300的CERF要求硬件Revision 4.1或更高。为了确定您的NPE-300的硬件版本,请使用show c7200命令。
Router>show c7200 ... C7206VXR CPU EEPROM: Hardware revision 4.1 Board revision A0 ...
NPE-400的CERF要求处理器R7K Revision 2.1或更高。为了识别您的NPE-400处理器版本,请使用show version命令。
Router>show version ... cisco 7206VXR (NPE400) processor with 491520K/32768K bytes of memory. R7000 CPU at 350Mhz, Implementation 39, Rev 3.2, 256KB L2, 4096KB L3 Cache 6 slot VXR midplane, Version 2.1 ...
Note: 收集所有相关崩溃信息文件为了确定错误的根本原因按照检索信息说明从崩溃信息文件是重要的。
如果以上的建议不解决问题,则替换NPE在奇偶错误被重复的出现时间案件可能帮助,因为硬件奇偶错误归结于损坏的硬件。硬件替换与原始NPE是相同的。替换NPE不保证进一步奇偶错误不会出现,因为单个事件翻倒(SEUs)在有内存的所有计算机设备是内在的。