本文档说明了在您识别各种奇偶校验错误消息时排除故障并隔离Cisco 7200的哪个部件或组件发生故障的步骤。我们建议您在继续本文档之前,先阅读排除路由器崩溃和处理器内存奇偶校验错误(PMPE)故障。
注意:本文档中的信息基于Cisco 7200系列路由器。
本文档没有任何特定的前提条件。
本文档不限于特定的软件和硬件版本。
本文档中的信息都是基于特定实验室环境中的设备创建的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您使用的是真实网络,请确保您在使用任何命令前已经了解其潜在影响。
有关文件规则的更多信息请参见“ Cisco技术提示规则”。
此图描述了确定Cisco 7200的哪个部件或组件在识别各种奇偶校验错误消息时发生故障的步骤。
注意:捕获并记录show tech-support输出和控制台日志,并在奇偶校验错误事件期间收集所有crashinfo文件。
本节包含NPE的框图,以及这些系统检测奇偶校验错误的地方。您可以找到以下每种错误消息类型的说明。
NPE-300使用共享内存(SDRAM)、PCI总线和CPU外部接口中的奇偶校验来保护系统不因位错误而发生故障。奇偶校验可以通过简单的方法检测单个比特错误;每8位数据添加一个检查位。如果在硬件组件之间传递数据时检测到位错误,则系统丢弃错误数据。在上图中任何位置出现单位错误都会导致路由器重置。
NPE-400使用单位纠错和多位错误检测ECC(错误代码纠正),用于共享内存(SDRAM)。 为了提高NPE-400中的系统可用性,ECC纠正了SDRAM中的单位错误,使系统能够正常运行,而无需复位和无停机时间。有关ECC如何增强系统可用性的详细信息,请参阅提高网络可用性页。
SDRAM中的多位错误导致路由器重置,出现缓存错误异常或总线错误。系统中其余的内存和总线使用单位奇偶校验检测。上图中1和3的单位错误会导致路由器重置。
C7200/NPE路由器上的多个奇偶校验设备可以报告奇偶校验错误的数据,以便执行任何读或写操作。以下是C7200/NPE系统上报告的各种错误消息的说明:
当GT64120系统控制器在读取SDRAM时检测到奇偶校验错误时,会报告此错误:
%ERR-1GT64120 (PCI0):Fatal error, Memory parity error (external) GT=0xB4000000, cause=0x0100E283, mask=0x0ED01F00, real_cause=0x00000200 Bus_err_high=0x00000000, bus_err_low=0x00000000, addr_decode_err=0x1C000000
再次出现故障后更换SDRAM。如果故障仍然存在,请更换NPE。
注意: 对于使用GT64010控制器的旧NPE(NPE-100/150/200),错误如下所示:
%ERR-1-GT64010: Fatal error, Memory parity error (external) cause=0x0300E283, mask=0x0CD01F00, real_cause=0x00000200 bus_err_high=0x00000000, bus_err_low=0x00000000, addr_decode_err=0x00000000
GT64010控制器使用动态RAM(DRAM),而不使用SDRAM。在这种情况下,在发生第二次故障后更换DRAM。如果故障仍然存在,请更换NPE。
主读取中的奇偶校验错误是访问外围组件互联(PCI)网桥触发的奇偶校验错误。以下是奇偶校验错误输出的示例:
%ERR-1-GT64120 (PCI0):Fatal error, Parity error on master read GT=B4000000, cause=0x0110E083, mask=0x0ED01F00, real_cause=0x00100000 Bus_err_high=0x00000000, bus_err_low=0x00000000, addr_decode_err=0x00000470 %ERR-1-SERR: PCI bus system/parity error %ERR-1-FATAL: Fatal error interrupt, No reloading Err_stat=0x81, err_enable=0xFF, mgmt_event=0x40
在发生第二次故障后更换适当的组件。系统网桥转储指示要更换的组件。
System bridge dump: Bridge 1, for PA bay 1, 3 and 5. Handle=1 DEC21150 bridge chip, config=0x0 (0x1C):sec status, io base =0x83A09141 Detected Parity Error on secondary bus Data Parity Detected on secondary bus (0x20):mem base & limit =0x4AF04880
这些表从错误消息输出中告诉您哪个组件可能存在问题。
网桥号 | 桥的用途 | 主总线上的奇偶校验错误 | 辅助总线上的奇偶校验错误 |
---|---|---|---|
网桥0 | 下行MB0到MB1 0 | 更换NPE | 更换NPE;如果仍然存在,请更换机箱 |
网桥1 | 上游MB1到MB0 | 更换NPE;如果仍然存在,请更换机箱 | 更换NPE |
网桥2 | 下行MB0到MB2 | 更换NPE | 更换NPE;如果仍然存在,请更换机箱 |
网桥3 | 上游MB2到MB0 | 更换NPE;如果仍然存在,请更换机箱 | 更换NPE |
网桥号 | 桥的用途 | 主总线上的奇偶校验错误 | 辅助总线上的奇偶校验错误 |
---|---|---|---|
网桥0 | 对于PA托架0(I/O卡、PCMCIA、接口 | 更换NPE | 更换NPE;如果仍然存在,请更换I/O卡。如果仍然存在,请更换机箱 |
网桥1 | 对于PA托架1、3和5 | 更换NPE | 更换NPE;如果仍然存在,请更换机箱 |
网桥2 | 对于PA托架2、4和6 | 更换NPE | 更换NPE;如果仍然存在,请更换机箱 |
网桥号 | 桥的用途 | 主总线上的奇偶校验错误 | 辅助总线上的奇偶校验错误 |
---|---|---|---|
网桥4 | 端口适配器1 | 更换NPE;如果仍然存在,请更换机箱 | 更换PA 1;如果仍然存在,请更换机箱 |
网桥5 | 端口适配器2 | 更换NPE;如果仍然存在,请更换机箱 | 更换PA 2;如果仍然存在,请更换机箱 |
网桥6 | 端口适配器3 | 更换NPE;如果仍然存在,请更换机箱 | 更换PA 3;如果仍然存在,请更换机箱 |
网桥7 | 端口适配器4 | 更换NPE;如果仍然存在,请更换机箱 | 更换PA 4;如果仍然存在,请更换机箱 |
网桥8 | 端口适配器5 | 更换NPE;如果仍然存在,请更换机箱 | 更换PA 5;如果仍然存在,请更换机箱 |
网桥9 | 端口适配器6 | 更换NPE;如果仍然存在,请更换机箱 | 更换PA 6;如果仍然存在,请更换机箱 |
与所有计算机和网络设备一样,NPE容易受到处理器内存中奇偶校验错误的罕见发生。奇偶校验错误可能导致系统重置,可能是暂时性单事件失调(SEU或软错误),也可能因硬件损坏而发生多次(通常称为硬错误)。有关SEU的详细信息,请参阅“提高网络可用性”页。如果CPU在访问处理器的任何高速缓存(L1、L2,或者如果适合,L3)时检测到奇偶校验错误,则报告CPU奇偶校验错误。
以下是此类错误的四个示例:
Error: SysAD, data cache, fields: data, 1st dword Physical addr(21:3) 0x195BE88, Virtual address is imprecise. Imprecise Data Parity Error Imprecise Data Parity Error
NPE具有带无阻塞缓存的R7K处理器。非阻塞高速缓冲存储器是指当它执行指令以将数据加载到寄存器中并且该数据不在L1高速缓冲存储器中时,CPU从较低级高速缓冲存储器或从SDRAM数据加载数据。除非存在另一高速缓存未命中或另一指令取决于正在加载的数据,否则CPU不阻止进一步指令的执行。这可以大大加快处理器速度并提高性能,但也可能导致奇偶校验错误不精确。不精确的奇偶校验错误是当CPU读取信息而不阻塞时,然后确定关联的高速缓存行中存在奇偶校验错误。R7K处理器无法明确告诉我们在加载缓存线时正在执行哪条指令,这就是我们称之为不精确奇偶校验错误的原因。
即使系统使用错误代码更正(ECC),在64位数据中由于缓存中的硬错误而出现多个错误时,仍然可能偶尔出现奇偶校验错误。
当信号位值从其原始值(0或1)改变为相反值时,会发生奇偶校验错误。此错误可能由软奇偶校验错误或硬奇偶校验错误引起。
软奇偶校验错误是由于外部对设备内存的影响而发生的,这会改变当前级别的位值。此类问题是暂时性的,不会再次发生。当内存本身因内存损坏而更改位值时,会发生硬奇偶校验错误。在这种情况下,每次使用内存区域时都会出现问题,这意味着问题可能在几天到一周内重复多次。
Error: SysAD, instr cache, fields: data, 1st dword Physical addr(21:3) 0x000000, virtual addr 0x6040BF60, vAddr(14:12) 0x3000 virtual address corresponds to main:text, cache word 0 Low Data High Data Par Low Data High Data Par L1 Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01 2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01 Low Data High Data Par Low Data High Data Par DRAM Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01 2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01
Cache Err Reg = 0xE4588D10 Data reference, Secondary/Sys intf cache, Data field error Error on 1st doubleword on System interface No errors in addition to instr error Data phy addr that caused last parity or bus error: 0x1E84040C
%CERF-3-RECOVER: PC=0x604F136C, Origin=L3 Data ,PhysAddr=0x013CEFD0
或
%SYS-2-CERF_ABORT: Reason=0xEE23, PC=0x604629C8, Origin=L3 Data, Phys Addr=0x0287A4E8
上述两条消息均附带“缓存错误恢复功能(CERF)报告”,如下所示:
CERFa[1 ] 05:25:36 MET Tue Jul 9 2002: result=0xEE23; instr_pos=-2; rpl_off=1 CERFb[1 ] PC =604629C8; ORGN=L3 Data; PRID=00002710; PHYA=0287A4E8 CERFc[1 ] SREG=3400E105; CAUS=00000400; DEA0=0287A4E8; ECC =00000000 CERFd[1 ] CERR=E447A4EA; EPC =606361F8; DEA1=02517058; INFO=00000000 CERFe[1 ] CACHE=28FF78B4 62B36D98 02020684 00000E17 00000030 00000001 61F2934C 3EDA025D CERFe[1 ] SDRAM=28FF78B4 62B36D98 02020684 00000E17 00000030 00000001 61F2934C 3EDA025D CERFg[1 ] CXT =00000000; XCXT=00000000; BVAD=00000008; PFCL=00000000 CERFh[1 ] ISeq: 0045182B; 1060000E; 2C4203E9; 92430028; 38420001; 30630005 CERFi[1 ] o0 $3 ....; beq....; sltiu $2 ....; lbu $3, 0x0028($18); xori $2....; andi $3 ....;* CERFj[1 ] ; ; ; 6287A4E8; ; ; CERFk[1 ] ResumptionCode= 0x92430028; 0x0000000F; 0x42000018 CERFl[1 ] Instr's checked=4; diags=0x00000158,0x00040000,3600,1,0 CERFm[1 ] BaseRegLost later/off: 0/0 times; StoredValueLost: 0 times CERFn[1 ] INFO=00000000; CNFG=5061F4BB; ICTL=00000000 Initial Register Values CERFs00[1 ] $0=00000000 AT=61A30000 v0=00000001 v1=00000002 CERFs04[1 ] a0=28FF8728 a1=00003A98 a2=00000000 a3=00000007 CERFs08[1 ] t0=00000000 t1=3400E101 t2=606381E0 t3=FFFF00FF CERFs12[1 ] t4=606381C8 t5=000005D4 t6=00000008 t7=61C50000 CERFs16[1 ] s0=6189C188 s1=00000000 s2=6287A4C0 s3=00003A98 CERFs20[1 ] s4=61BD57B0 s5=00000006 s6=00000000 s7=61BD6C60 CERFs24[1 ] t8=60634788 t9=00000000 k0=621A8374 k1=6063EA40 CERFs28[1 ] gp=61A33B20 sp=61E28678 s8=00000000 ra=60462CA4 1 Cache error exceptions already reported
如果NPE-300或NPE-400上启用了CERF,并且出现奇偶校验错误,您会看到上述日志。有关CERF的详细信息,请参阅下面的解决方案部分。
当您遇到此类错误时,建议执行以下操作:
监控受影响的硬件,查看是否再次出现相同的问题。如果没有,则是暂时的单一事件不安(SEU),您无需采取任何操作。
如果问题再次出现的可能性不大,则cache L3 bypass/disable命令是有助于降低问题影响的选项。此命令仅在以下平台上可用:
7200,带处理器引擎NPE-300、NPE-400或NSE-1
7400,带处理器引擎NSE-1
由于NPE-300不支持ECC内存,因此此功能对于提高系统可用性和处理这些奇偶校验错误而不中断服务尤为重要。这可解决许多软奇偶校验错误。警告是,禁用L3缓存时,系统性能略有下降。性能降级在1%到10%之间,具体取决于系统配置。使用此命令的语法取决于Cisco IOS软件版本。
可在Cisco IOS软件版本12.3(5a)及更高版本中找到cache L3 disable命令。它也将在12.1(22)E中提供。在这些版本中,L3缓存默认禁用,因此无需执行任何操作即可利用此功能。可以使用no cache L3 disable命令重新启用L3缓存。
可在Cisco IOS软件版本12.2(6)S、12.2(6)B、12.2(8)BC1b、12.0(20)SP、12.2(6)PB、12.2(2)DD中找到缓存L3 bypass命令2、12.0(20)ST3、12.0(21)S、12.1(11)EC、12.2(7)T、12.1(13)和12.2(7)或更高版本,以及12.1(11)E至12.1(2)1)E.此命令默认为禁用。
要启用L3缓存旁路,请在配置模式下输入以下命令:
Router(config)#cache L3 bypass
要禁用L3缓存旁路,请在配置模式下输入以下命令:
Router(config)#no cache L3 bypass
新缓存设置在重新加载路由器后才会生效。
路由器启动时,会显示系统信息,包括有关L3缓存的信息。这是因为系统尚未处理启动配置文件。处理启动配置文件后,如果配置中有cache L3 bypass命令,则会绕过L3缓存。
要验证L3缓存设置,可以发出show version命令。如果绕过L3缓存,则在show version输出中没有对L3缓存的引用。
另一个有助于提高系统可用性的功能是缓存错误恢复功能(CERF)。 启用此功能(这是最新Cisco IOS软件版本中的默认设置,但自2004年2月起,仅适用于NPE-300和NPE-400)后,Cisco IOS软件会尝试解决奇偶校验错误并防止处理器崩溃。此功能可解决某些类型的软奇偶校验错误的75%左右。通过调用此命令,系统发现性能降低不到5%。
NPE-300的CERF可在思科IOS软件版本12.1(15)、12.1(12)EC、12.0(22)S、12.2(10)S、12.2(10)T、12.2(12)EC中找到0)、12.2(2)XB4、12.2(11)BC1b和12.1(5)XM8或更高版本。
NPE-400的CERF可在12.3(3)B、12.2(14)S3、12.1(20)E、12.1(19)E1、12.3(1a)、12.2(13)T5、12.2中找到2(18)S、12.3(2)T、12.2(18)、12.3(3)和12.3(1)B1或更高版本。
NPE-300的CERF要求硬件版本4.1或更高版本。要识别NPE-300的硬件版本,请使用show c7200命令。
Router>show c7200 ... C7206VXR CPU EEPROM: Hardware revision 4.1 Board revision A0 ...
NPE-400的CERF要求处理器R7K修订版2.1或更高版本。要识别NPE-400的处理器版本,请使用show version命令。
Router>show version ... cisco 7206VXR (NPE400) processor with 491520K/32768K bytes of memory. R7000 CPU at 350Mhz, Implementation 39, Rev 3.2, 256KB L2, 4096KB L3 Cache 6 slot VXR midplane, Version 2.1 ...
注意:收集所有相关的crashinfo文件以确定错误的根本原因非常重要,如从Crashinfo文件检索信息中所述。
如果上述建议无法解决问题,则更换NPE可能会在奇偶校验错误重复出现时有所帮助,因为硬奇偶校验错误是由硬件损坏引起的。硬件更换与原始NPE相同。更换NPE并不保证不会发生其他奇偶校验错误,因为单事件更新(SEU)是任何具有内存的计算机设备固有的。
版本 | 发布日期 | 备注 |
---|---|---|
1.0 |
13-Apr-2009 |
初始版本 |