路由器 : ?? 10000 ?????

10000 ESR PRE1奇偶校验错误故障树

2015 年 8 月 28 日 - 机器翻译
其他版本: PDFpdf | 英语 (2015 年 4 月 22 日) | 反馈


目录


简介

本文解释Cisco 10000系列Edge Services路由器的步骤排除故障和隔离(ESR)和性能路由引擎(PRE1)部分或组件失败,当您识别各种各样的奇偶错误消息时。

先决条件

要求

Cisco 建议您了解以下主题:

使用的组件

本文档中的信息基于以下软件和硬件版本。

  • Cisco 10000系列Edge Services路由器(ESR)使用性能路由引擎(PRE1)

  • 思科IOS�软件所有版本

注意: 本文不适用于Cisco 10720系列互联网路由器。

本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您使用的是真实网络,请确保您已经了解所有命令的潜在影响。

规则

有关文档规则的详细信息,请参阅 Cisco 技术提示规则

PRE1 路由处理器奇偶检验误差树分析

Cisco 10000系列ESR PRE1包括两个电路卡:路由处理器(RP)和转发处理器(FP)卡。下面的流程图帮助您确定Cisco 10000系列ESR PRE1的哪个组件对奇偶校验/误码纠错(ECC)错误消息负责在路由处理器。

/image/gif/paws/25701/esr10000a.gif

注意: 在奇偶/ECC错误事件期间,获取并且记录show tech-support输出并且控制日志,并且收集所有Crash信息和pxf_crashinfo文件。

PRE1 奇偶/ECC 检测

以下图表描述能经历奇偶/ECC错误PRE1 RP体系结构的部分。

esr10000b.gif

PRE1 RP使用单bit错误更正和多位错误检测ECC (误码纠错)对共享内存(SDRAM)。自动地更正在SDRAM的个别位错误,并且系统继续运行作为正常。

在SDRAM的一个多位错误是致命事件,造成一个缓存错误异常或总线错误生成。内存的在系统的其余和BUS使用一位奇偶校验检测。在1和3的个别位错误在以上图表致命并且造成路由器重置。

Cisco 10000 系列 ESR 路由处理器中的奇偶/ECC 错误

使用PRE1,数据以错误奇偶校验可以由数所有读或写操作的parity-checking设备报告在Cisco 10000系列ESR。

下列是在与安装的PRE1的Cisco 10000系列ESR报告的多种RP错误消息的说明:

  • GT64120B SDRAM错误

    以下错误消息报告,当GT64120B系统控制器检测多位ECC错误时,当读SDRAM时:

    %ERR-1-GT64120 (PCI-0): Fatal error, Memory parity error (external)
     GT=0xB4000000, cause=0x0100E283, mask=0x0ED01F00, real_cause=0x00000200
     bus_err_high=0x00000000, bus_err_low=0x00000000, addr_decode_err=0x00000470
     %ERR-1-FATAL: Fatal error interrupt, reloading
     RP FPGA status 0x00000004
     EPC 0x6084116C Error EPC 0xBFC00C54 BadVA 0xD6E8B233
     Status 0x3400FF03
    

    在第二个故障之后替换SDRAM。如果失败仍然存在,请替换PRE1。

  • GT64120B读的系统奇偶错误控制

    访问PCI网桥之一在万事达中触发一奇偶校验错误读了。下列是奇偶错误消息的示例:

    %ERR-1-GT64120 (PCI0):Fatal error, Parity error on master read
    GT=B4000000, cause=0x0110E083, mask=0x0ED01F00, real_cause=0x00100000
    Bus_err_high=0x00000000, bus_err_low=0x00000000,
    addr_decode_err=0x00000470
     
    %ERR-1-SERR: PCI bus system/parity error
    %ERR-1-FATAL: Fatal error interrupt, No reloading
    Err_stat=0x81, err_enable=0xFF, mgmt_event=0x40
    

    替换PRE1当查出这些错误时。

  • CPU奇偶校验错误

    CPU奇偶错误消息报告,如果CPU检测CPU内部缓存高速缓存奇偶校验错误,当访问处理器的外部(在PRE1的L3)时缓存通过其SysAD总线或者之一(L1或L2)。表1显示为缓存奇偶校验错误的每种类型将打印出消息的示例:

    表 1:CPU奇偶错误位置

    奇偶校验错误的位置 错误消息
    L1说明缓存 Error:主要的, Instr缓存,字段:数据
    L1数据缓存 Error:主要的,数据缓存,字段:数据
    L2说明缓存 Error:SysAD, Instr缓存,字段:数据
    L2数据缓存 Error:SysAD,数据缓存,字段:数据
    L3说明缓存 Error:SysAD, Instr缓存,字段:第1 dword
    L3数据缓存 Error:SysAD,数据缓存,字段:第1 dword

    请使用表1识别奇偶校验错误的位置报告对Cisco 10000系列ESR的控制台。

示例 1:

错误消息的第一行指示奇偶校验错误的位置,并且可以是在表列出的所有位置1。在本例中,位置是L3数据缓存。

Error: SysAD, data cache, fields: data, 1st dword
Physical addr(21:3) 0x195BE88,
Virtual address is imprecise.
    Imprecise Data Parity Error
    Imprecise Data Parity Error

在第二个故障之后替换PRE1。

示例 2:

错误消息的第一行指示奇偶校验错误的位置,并且可以是在表列出的所有位置1。在本例中,位置是L3说明缓存。

Error: SysAD, instr cache, fields: data, 1st dword
Physical addr(21:3) 0x000000,
virtual addr 0x6040BF60, vAddr(14:12) 0x3000
virtual address corresponds to main:text, cache word 0
 
          Low Data     High Data  Par  Low Data     High Data  Par
L1 Data:  0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01
          2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01
           Low Data     High Data  Par  Low Data     High Data  Par
DRAM Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01
           2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01

正如在示例1,请在第二个故障之后替换PRE1。

  • 失败由于奇偶校验错误:

    Mar 14 10:32:01.029 UTC: %C10K_TOASTER-3-ERROR: TCAM0 has parity error
    Mar 14 10:32:01.033 UTC: %C10KEVENTMGR-1-MINOR_FAULT: PXF DMA ToasterFault
    Mar 14 10:32:01.033 UTC: %C10KEVENTMGR-1-MINOR_REOCCURRING: PXF DMAToaster Fault 

    TCAM奇偶校验错误将根据已知MTBF计算预计。错误消息是一瞬变硬件故障。

PRE1 快速分组 ECC 故障树分析

转发处理器(FP)电路卡是PRE1集合的高级板。包含三专用集成电路(ASIC),单个背板接口ASIC和两并行高速转发网络处理ASIC的FP板。每个ASIC访问外部存储系统。

以下图表帮助您确定Cisco 10000系列ESR PRE1 FP的哪个组件对ECC错误消息负责。

/image/gif/paws/25701/esr10000c.gif

背板接口ASIC SDRAM ECC错误

  • 背板接口ASIC SDRAM一位纠错码(ECC)错误

    背板接口ASIC访问ECC保护的SDRAM。个别位错误检测,并且提交更正的数据。个别位错误报告如下:

    %C10KEVENTMGR-1-MINOR_FAULT: PXF DMA Single Bit SDRAM Error
    %C10KEVENTMGR-1-SBE_DEBUG: Address: 0x01003C00, 
    Who: 0x02, Data With ECC: 0x6E453363 2843ADAC D4
    
    10769E 9773870C, Data w/o ECC: 0x6E453363 2843ADAC D410769E 9773870C

    使用show hardware pxf dma counters Cisco IOS软件命令,个别位错误计数并且可能显示。操作没有为个别位错误通常要求;然而,重复或请常去个别位错误实例是PRE1的更换的原因。

  • 背板接口ASIC SDRAM多位ECC错误

    当检测,背板接口ASIC SDRAM多位错误导致处理微码的PXF网络重新加载,并且创建在Bootflash的一个pxf_crashinfo文件。处理微码重载入的PXF网络促成背板接口ASIC重初始化,有效洗刷从SDRAM的多位错误。下列是消息的示例打印对控制台以回应在背板接口ASIC SDRAM的多位ECC错误:

    %C10KEVENTMGR-1-MAJOR_FAULT: PXF DMA Multi-bit SDRAM Error, Restarting PXF
     Downloading Microcode: file=system:pxf/c10k-1-ucode.3.1.0,
     version=3.1.0, description=Release Software created Tue 11-Sep-01 19:25
    

    在第二个故障之后替换PRE1。

PXF网络处理ASIC列内存ECC错误

处理ASIC的两PXF网络访问ECC保护的SDRAM列内存或者外部列存储器(XCM)。

  • PXF网络处理ASIC XCM一位ECC错误

    个别位错误检测,并且提交更正的数据。个别位错误计数,使用show hardware pxf xcm命令,并且PXF网络处理ASIC XCM个别位错误计数可以显示。

    当个别位错误计数器包裹时,个别位错误报告,并且RP洗刷由PXF网络处理ASIC检测第一个别位错误的地址。当个别位错误报告时,下列是报告的消息的示例:

    %TOASTER-2-FAULT: T0 XCM1 SDRAM-A: ECC Single bit error counter has wrapped

    多士炉(PXF网络处理ASIC)编号和SDRAM接口在上述消息反射个别位错误从包裹的计数器检测的XCM接口。操作没有为个别位错误计数器通常要求包裹;然而,重复或请常去这些错误实例是PRE1的更换的原因。

  • PXF网络处理ASIC XCM多位ECC错误

    XCM多位不可能更正ECC错误。在有冗余PRE1s的系统中, XCM多位错误导致失败和一PRE故障切换。在有单个PRE1的系统中, XCM多位错误的检测强制PXF网络处理ASIC微码重载入。微码重载入重初始化所有PXF网络处理ASIC XCM内存,有效洗刷从内存的ECC多位失败。下列信息在日志和pxf_crashinfo/crashinfo文件出现:

    %TOASTER-2-FAULT: T0 XCM1 SDRAM-A: Multi-bit ECC error
    %C10KEVENTMGR-1-MAJOR_FAULT: PXF DMA Toaster Fault, Restarting PXF
     Downloading Microcode: file=system:pxf/c10k-1-ucode.102.3.0.0, version=102.3.0.0,
    

    当这发生时,错误消息指定多士炉(T0或T1),适当的XCM编号(1至4)和SDRAM接口(遇到多位ECC错误的A或B)。

    在第二个故障之后替换PRE1。

相关的思科支持社区讨论

思科支持社区是您提问、解答问题、分享建议以及与工作伙伴协作的论坛。


相关信息


Document ID: 25701