路由器 : ?? 10000 ?????

10000 ESR PRE2奇偶错误故障树

2016 年 10 月 24 日 - 机器翻译
其他版本: PDFpdf | 英语 (2015 年 4 月 22 日) | 反馈


目录


简介

本文解释一个Cisco 10000系列Edge Services路由器的步骤排除故障和隔离(ESR)组件有性能路由引擎的(PRE2)失败,当您识别各种各样的奇偶错误消息时。

先决条件

要求

本文档的读者应具备以下方面的知识:

使用的组件

本文档中的信息基于下列软件和硬件版本:

  • Cisco 10000系列ESR使用PRE2

  • Cisco IOS软件所有版本

注意: 本文不适用于Cisco 10720系列互联网路由器。

本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您使用的是真实网络,请确保您已经了解所有命令的潜在影响。

规则

有关文档规则的详细信息,请参阅 Cisco 技术提示规则

PRE2路由处理器奇偶检验误差树分析

Cisco 10000系列ESR PRE2包括两个电路卡:路由处理器(RP)和转发处理器(FP)。下面流程图可帮助您确定ESR PRE2的哪个组件对奇偶校验或纠错码(ECC)错误消息负责在路由处理器。

/image/gif/paws/44228/esr10000a.gif

注意: 在奇偶校验或ECC错误事件期间,捕获并且记录show tech-support命令output并且控制日志,并且收集所有Crash信息和pxf_crashinfo文件。

PRE2奇偶校验和ECC检测

以下图表描述能经历奇偶校验或ECC错误PRE2 RP体系结构的部分。

esr10000b.gif

PRE2 RP使用一位错误(SBE)更正和多位错误(MBE)检测ECC对共享内存(SDRAM)。自动地更正在SDRAM的一SBE,并且系统继续运行作为正常。

在SDRAM的MBE是致命事件,造成一个缓存错误异常或总线错误生成。内存的在系统的其余和BUS使用一位奇偶校验检测。在1的SBEs和3在以上图表致命并且造成路由器重置。

奇偶校验和ECC错误在Cisco 10000系列ESR路由处理器

数据以错误奇偶校验可以由数所有读或写操作的parity-checking设备报告在Cisco ESR PRE2。

下列是在与安装的PRE2的ESR报告的多种RP错误消息的说明:

示例 1:

错误消息的第一行指示奇偶校验错误的位置,并且可以是在上表列出的所有位置。在本例中,位置是L3数据缓存。

Error: SysAD, data cache, fields: data, 1st dword
Physical addr(21:3) 0x195BE88,
Virtual address is imprecise.
    Imprecise Data Parity Error
    Imprecise Data Parity Error

在第二个故障之后替换PRE2。

示例 2:

错误消息的第一行指示奇偶校验错误的位置,并且可以是在上表列出的所有位置。在本例中,位置是L3说明缓存。

Error: SysAD, instr cache, fields: data, 1st dword
Physical addr(21:3) 0x000000,
virtual addr 0x6040BF60, vAddr(14:12) 0x3000
virtual address corresponds to main:text, cache word 0
 
          Low Data     High Data  Par  Low Data     High Data  Par
L1 Data:  0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01
          2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01
           Low Data     High Data  Par  Low Data     High Data  Par
DRAM Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01
           2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01

正如在示例1,请在第二个故障之后替换PRE2。

PRE2快速分组ECC故障树分析

FP电路卡是PRE2集合的高级板。包含五专用集成电路(ASIC),单个背板接口ASIC和四并行高速转发网络处理ASIC的FP板。每个ASIC访问外部存储系统。

以下图表帮助您确定Cisco 10000系列ESR PRE2 FP的哪个组件对ECC错误消息负责:

/image/gif/paws/44228/esr10000c.gif

背板接口ASIC DDR FCRAM ECC错误

背板接口ASIC访问两个不同ECC保护的Double Data Rate (DDR)快速周期RAM (FCRAM)内存、External Packet Memory (EPM)和External Control Memory (ECM)。

  • 背板接口ASIC DDR FCRAM一位ECC错误

    SBEs检测,并且提交更正的数据。

    一位EPM错误报告如下:

      %C10KEVENTMGR-1-MINOR_FAULT: PXF DMA Single Bit PMC (EPM) Error 
      %C10KEVENTMGR-1-PMC_SBE_DEBUG: Address: 0x0FFE4608, Who: 0x02
      Error taken in: Check bits, bit number: 0, Check byte value = 0x58
      Errant Data:    0x00008F00 80350000
      Corrected Data: 0x00008F00 80350000
    

    一位ECM错误报告如下:

      %C10KEVENTMGR-1-MINOR_FAULT: PXF DMA Error - Correctable ECM Error 
      %C10KEVENTMGR-1-ECM_SBE_DEBUG: Address: 0x013FD0A8, Who: 0x01
      Error taken in:  Data bits, bit number: 32, Check byte value = 0x67
      Errant Data:    0x67CFFE58 00000000
      Corrected Data: 0x00CFFE59 00000000
    

    SBEs计数并且可能通过发出show pxf dma counters命令显示。操作没有为SBEs通常要求;然而,重复或请常去这些错误实例是PRE2的更换的原因。

  • 背板接口ASIC DDR FCRAM多位ECC错误

    当检测的,背板接口ASIC DDR FCRAM MBEs原因处理微码的PXF网络重新加载,并且创建在Bootflash的一个pxf_crashinfo文件。处理微码重载入的PXF网络促成背板接口ASIC重初始化,有效洗刷从DDR FCRAM的MBE。

    下列是消息的示例打印对控制台以回应在背板接口ASIC DDR FCRAM的一个EPM多位ECC错误:

      %C10KEVENTMGR-1-MAJOR_FAULT: PXF DMA Multi-bit PMC (EPM) Error 
    Downloading Microcode: file=system:pxf/c10k2-11-ucode.106.1.0.0, version=106.1.0.0,
     description=Release Software created Tue 03-Jun-03 00:57
    

    在第二个故障之后替换PRE2。

    下列是消息的示例打印对控制台以回应在背板接口ASIC DDR FCRAM的一个ECM多位ECC错误:

      %C10KEVENTMGR-1-MAJOR_FAULT: PXF DMA Error - Uncorrectable ECM Error
    Downloading Microcode: file=system:pxf/c10k2-11-ucode.106.1.0.0, version=106.1.0.0,
     description=Release Software created Tue 03-Jun-03 00:57

    在第二个故障之后替换PRE2。

PXF网络处理ASIC列内存ECC错误

处理ASIC的四PXF网络访问ECC保护的DDR FCRAM列内存或者外部列存储器(XCM)。

  • PXF网络处理ASIC XCM一位ECC错误

    SBEs检测,并且提交更正的数据。SBEs计数,并且PXF网络处理ASIC XCM SBE计数可以通过发出show pxf xcm命令显示。

    当SBE计数器包裹时, SBEs报告,并且RP洗刷由PXF网络处理ASIC检测第一SBE的地址。当SBE报告时,下列是报告的消息的示例:

    %C10KEVENTMGR-1-MINOR_FAULT: T0 XCM1 FCRAM-A: Too many Toaster XCM ECC single bit errors

    多士炉(PXF网络处理ASIC)编号和DDR FCRAM接口在消息反射SBE从包裹的计数器检测的XCM接口。以上的错误消息表明在多士炉发生的错误0, XCM 1,接口A. Action没有为SBE计数器通常要求包裹;然而,重复或请常去这些错误实例是PRE2的更换的原因。

  • PXF网络处理ASIC XCM多位ECC错误

    XCM多位不可能更正ECC错误。在有冗余PRE2s, XCM MBEs原因失败和PRE故障切换的系统中。在有单个PRE2的系统中, XCM MBEs的检测强制PXF网络处理ASIC微码重载入。微码重载入重初始化所有PXF网络处理ASIC XCM内存,有效洗刷从内存的ECC MBE。下列信息在日志和Crash信息或者pxf_crashinfo文件出现:

      %PXF-2-FAULT: T3 XCM1 FCRAM-D: Multi-bit ECC error on bits [0:31]
    %C10KEVENTMGR-4-PXF_CRASHINFO: Writing PXF debug information to 
     bootflash:pxf_crashinfo_20030729-153845.
      %C10KEVENTMGR-1-MAJOR_FAULT: PXF DMA Toaster Fault, Restarting PXF
    00:08:01: Downloading Microcode: file=system:pxf/c10k2-11-ucode.6.1.0.0,
     version=6.1.0.0, description=Release Software created Mon 21-Jul-03 12:17
    

    当这发生时,错误消息指定多士炉(T0、T1, T2或者T3),适当的XCM编号(0或1)和DDR FCRAM接口(A、B、遇到多位ECC错误的C或者D)。以上的错误消息表明失败是在多士炉2, XCM 1,接口B。

    在第二个故障之后替换PRE2。


相关信息


Document ID: 44228