Roteadores : Roteadores Cisco 1000 Series

Árvore de falha de erro de paridade de 10000 ESR PRE2

14 Outubro 2016 - Tradução por Computador
Outras Versões: Versão em PDFpdf | Inglês (22 Abril 2015) | Feedback


Índice


Introdução

Este documento explica as etapas para pesquisar defeitos e isolar-se que o componente de um roteador dos serviços de ponta do Cisco 10000 Series (ESR) com o Performance Routing Engine (PRE2) está falhando quando você identifica uma variedade de mensagens de erro de paridade.

Pré-requisitos

Requisitos

Os leitores deste documento devem estar cientes da seguinte informação:

Componentes Utilizados

As informações deste documento são baseadas nas seguintes versões de software e de hardware:

  • Cisco 10000 Series ESR usando o PRE2

  • Todas as versões do Cisco IOS?? Software

Nota: Esse documento não se aplica ao roteador de Internet do Cisco 10720 Series.

As informações neste documento foram criadas a partir de dispositivos em um ambiente de laboratório específico. Todos os dispositivos utilizados neste documento foram iniciados com uma configuração (padrão) inicial. Se a sua rede estiver ativa, certifique-se de que entende o impacto potencial de qualquer comando.

Convenções

Para obter mais informações sobre convenções de documento, consulte as Convenções de dicas técnicas Cisco.

Análise da Árvore de Falha do Erro de Paridade do Processador de Rotas PRE2

O Cisco 10000 Series ESR PRE2 consiste em duas placas de circuito: o route processor (RP) e o Forwarding Processor (FP). O fluxograma abaixo pode ajudá-lo a determinar que componente de um ESR PRE2 é responsável para a paridade ou os Mensagens de Erro do código de correção do erro (ECC) no processador de rotas.

/image/gif/paws/44228/esr10000a.gif

Nota: Capture e grave o show tech-support command output e os logs do console, e recolha todos os arquivos do crashinfo e do pxf_crashinfo durante a paridade ou os eventos de erro de ECC.

Paridade PRE2 e detecção de ECC

O seguinte diagrama descreve a parcela da arquitetura PRE2 RP que pode experimentar a paridade ou os erros de ECC.

esr10000b.gif

O PRE2 RP usa a correção do erro de um bit (SBE) e a detecção ECC do erro de vários bits (MBE) à memória compartilhada (SDRAM). Um SBE no SDRAM é corrigido automaticamente, e o sistema continua a operar-se como o normal.

Um MBE no SDRAM é um evento fatal, que faça com que uma exceção de erro do cache ou um erro de barramento ocorram. O resto da memória e os barramentos no sistema usam a detecção de paridade do único-bit. Os SBE em 1 e em 3 no diagrama acima são fatais e fazem com que o roteador restaure.

Paridade e erros de ECC no processador de rotas do Cisco 10000 Series ESR

Os dados com paridade inválida podem ser relatados por diversos dos dispositivos da verificação de paridade para alguns lidos ou escrever a operação em Cisco ESR PRE2.

O seguinte é uma descrição dos vários Mensagens de Erro RP relatados em um ESR com um PRE2 instalado:

Exemplo 1:

A primeira linha do Mensagem de Erro indica o lugar do erro de paridade, e pode ser todo o lugar alistado na tabela acima. Neste exemplo, o lugar é o esconderijo dos dados L3.

Error: SysAD, data cache, fields: data, 1st dword
Physical addr(21:3) 0x195BE88,
Virtual address is imprecise.
    Imprecise Data Parity Error
    Imprecise Data Parity Error

Substitua o PRE2 após uma segunda falha.

Exemplo 2:

A primeira linha do Mensagem de Erro indica o lugar do erro de paridade, e pode ser todo o lugar alistado na tabela acima. Neste exemplo, o lugar é o esconderijo da instrução L3.

Error: SysAD, instr cache, fields: data, 1st dword
Physical addr(21:3) 0x000000,
virtual addr 0x6040BF60, vAddr(14:12) 0x3000
virtual address corresponds to main:text, cache word 0
 
          Low Data     High Data  Par  Low Data     High Data  Par
L1 Data:  0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01
          2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01
           Low Data     High Data  Par  Low Data     High Data  Par
DRAM Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01
           2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01

Como no exemplo 1, substitua o PRE2 após uma segunda falha.

PRE2 análise de árvore de falha do pacote rápido ECC

A placa de circuito FP é a placa superior do conjunto PRE2. A placa FP contém cinco circuitos integrados do aplicativo específicos (ASIC), uma única interface de placa mãe ASIC, e a rede do Parallel Express Forwarding quatro (PXF) que processa ASIC. Cada ASIC tem o acesso aos sistemas da memória externa.

O seguinte diagrama ajuda-o a determinar que componente de um Cisco 10000 Series ESR PRE2 FP é responsável para mensagens de erro de ECC:

/image/gif/paws/44228/esr10000c.gif

Erros DDR FCRAM ECC da interface de placa mãe ASIC

A interface de placa mãe ASIC tem o acesso a duas memórias rápidas dobro ECC-protegidas diferentes de RAM do ciclo da taxa de dados (DDR) (FCRAM), à memória de pacotes externo (EPM) e à memória do controle externo (ECM).

  • Erros de ECC do Único-bit da interface de placa mãe ASIC DDR FCRAM

    Os SBE são detectados e os dados corrigidos são apresentados.

    os erros EPM do Único-bit são relatados como segue:

      %C10KEVENTMGR-1-MINOR_FAULT: PXF DMA Single Bit PMC (EPM) Error 
      %C10KEVENTMGR-1-PMC_SBE_DEBUG: Address: 0x0FFE4608, Who: 0x02
      Error taken in: Check bits, bit number: 0, Check byte value = 0x58
      Errant Data:    0x00008F00 80350000
      Corrected Data: 0x00008F00 80350000
    

    os erros de ECM do Único-bit são relatados como segue:

      %C10KEVENTMGR-1-MINOR_FAULT: PXF DMA Error - Correctable ECM Error 
      %C10KEVENTMGR-1-ECM_SBE_DEBUG: Address: 0x013FD0A8, Who: 0x01
      Error taken in:  Data bits, bit number: 32, Check byte value = 0x67
      Errant Data:    0x67CFFE58 00000000
      Corrected Data: 0x00CFFE59 00000000
    

    Os SBE são contados e podem ser indicados emitindo o comando show pxf dma counters. A ação não é exigida geralmente para SBE; contudo, repetido ou frequente exemplos destes erros são causa para a substituição do PRE2.

  • Erros de ECC dos vários bits da interface de placa mãe ASIC DDR FCRAM

    Quando detectada, a interface de placa mãe ASIC DDR FCRAM MBE causa a rede PXF que processa o microcódigo para recarregar, e igualmente cria um arquivo do pxf_crashinfo no bootflash. A rede PXF que processa o reload do microcódigo faz com que a interface de placa mãe ASIC sido reinitialized, eficazmente esfregando o MBE do DDR FCRAM.

    O seguinte é um exemplo da mensagem impressa ao console em resposta a um erro de ECC dos vários bits EPM na interface de placa mãe ASIC DDR FCRAM:

      %C10KEVENTMGR-1-MAJOR_FAULT: PXF DMA Multi-bit PMC (EPM) Error 
    Downloading Microcode: file=system:pxf/c10k2-11-ucode.106.1.0.0, version=106.1.0.0,
     description=Release Software created Tue 03-Jun-03 00:57
    

    Substitua o PRE2 após uma segunda falha.

    O seguinte é um exemplo da mensagem impressa ao console em resposta a um erro de ECC dos vários bits ECM na interface de placa mãe ASIC DDR FCRAM:

      %C10KEVENTMGR-1-MAJOR_FAULT: PXF DMA Error - Uncorrectable ECM Error
    Downloading Microcode: file=system:pxf/c10k2-11-ucode.106.1.0.0, version=106.1.0.0,
     description=Release Software created Tue 03-Jun-03 00:57

    Substitua o PRE2 após uma segunda falha.

Rede PXF processando erros ECC da memória da coluna ASIC

A rede de quatro PXF que processa ASIC tem a memória da coluna ECC-protegida do acesso DDR FCRAM, ou o eXternal Column Memory (XCM).

  • Erros de ECC do Único-bit do PXF Network Processing ASIC XCM

    Os SBE são detectados e os dados corrigidos são apresentados. Os SBE são contados, e a contagem do PXF Network Processing ASIC XCM SBE pode ser indicada emitindo o comando show pxf xcm.

    Quando os envoltórios do contador SBE, SBE são relatados e o RP esfrega o endereço do primeiro SBE que foi detectado pelo PXF Network Processing ASIC. O seguinte é um exemplo de uma mensagem relatada quando um SBE é relatado:

    %C10KEVENTMGR-1-MINOR_FAULT: T0 XCM1 FCRAM-A: Too many Toaster XCM ECC single bit errors

    O número do torradeira (PXF Network Processing ASIC) e a relação DDR FCRAM na mensagem precedente refletem a relação XCM onde o SBE do contador envolvido foi detectado. O Mensagem de Erro acima indica que o erro ocorreu no torradeira 0, XCM 1, relação A. Ação não está exigido geralmente para envoltórios do contador SBE; contudo, repetido ou frequente exemplos destes erros são causa para a substituição do PRE2.

  • Erros ECC multibits XCM ASIC de processamento de rede PXF

    Erros ECC de múltiplos bits XCM não podem ser corrigidos. Nos sistemas com PRE2 redundantes, o XCM MBE causa um impacto e um failover PRE. Nos sistemas com um único PRE2, a detecção de XCM MBE força um reload do microcódigo do PXF Network Processing ASIC. O reload do microcódigo reinitializes todas as memórias de XCM do PXF Network Processing ASIC, esfregando eficazmente o ECC MBE da memória. Os seguintes mensagens aparecem no log e no arquivo do crashinfo ou do pxf_crashinfo:

      %PXF-2-FAULT: T3 XCM1 FCRAM-D: Multi-bit ECC error on bits [0:31]
    %C10KEVENTMGR-4-PXF_CRASHINFO: Writing PXF debug information to 
     bootflash:pxf_crashinfo_20030729-153845.
      %C10KEVENTMGR-1-MAJOR_FAULT: PXF DMA Toaster Fault, Restarting PXF
    00:08:01: Downloading Microcode: file=system:pxf/c10k2-11-ucode.6.1.0.0,
     version=6.1.0.0, description=Release Software created Mon 21-Jul-03 12:17
    

    Quando isto acontece, o Mensagem de Erro especifica o torradeira (T0, T1, T2, ou T3), o número apropriado XCM (0 ou 1), e a relação DDR FCRAM (A, B, C, ou D) de que encontrou o erro de ECC dos vários bits. O Mensagem de Erro acima indica que a falha estava no torradeira 2, XCM 1, a relação B.

    Substitua o PRE2 após uma segunda falha.


Informações Relacionadas


Document ID: 44228