Roteadores : Roteadores Cisco 7200 Series

Árvore de Falha de Erro de Paridade Cisco 7200

7 Abril 2008 - Tradução Manual
Outras Versões: Versão em PDFpdf | Tradução por Computador (29 Julho 2013) | Inglês (13 Abril 2009) | Feedback


Índice

Introdução
Pré-requisitos
     Requisitos
     Componentes Usados
     Convenções
Análise da Árvore de Falhas de Erros de Paridade do Network Processing Engine (NPE)
Detecção e Mensagens de Erro de Paridade do NPE
     Erros de Paridade no NPE-300
     Detecção de ParidadeECC do NPE-400
     Erros de Paridade no Roteador C7200
Soluções
Discussões relacionadas da comunidade de suporte da Cisco
Informações Relacionadas

Introdução

Este documento explica as etapas para solucionar problemas e isolar qual peça ou componente de um Cisco 7200 está com defeito quando você identifica uma série de mensagens de erro de paridade. Recomendamos que você leia Solucionando Problemas de Travamentos do Roteador e Erros de Paridade de Memória do Processor (PMPEs) antes de continuar com este documento.

Observação: As informações neste documento são baseadas nos Cisco 7200 Series Routers.

Pré-requisitos

Requisitos

Não existem pré-requisitos específicos para este documento.

Componentes Usados

Este documento não está restrito às versões específicas de software e de hardware.

As informações apresentadas neste documento foram criadas a partir de dispositivos em um ambiente de laboratório específico. Todos os dispositivos usados neste documento foram iniciados com uma configuração vazia (padrão). Caso trabalhe em uma rede ativa, certifique-se de ter compreendido o possível impacto dos comandos antes de utilizá-los.

Convenções

Para obter mais informações sobre convenções de documentos, consulte Convenções de Dicas Técnicas da Cisco.

Análise da Árvore de Falhas de Erros de Paridade do Network Processing Engine (NPE)

Este diagrama descreve as etapas para determinar qual peça ou componente de um Cisco 7200 está com defeito quando você identifica uma série de mensagens de erro de paridade.

c7200_faulttree1.gif

Observação: Capture e grave os logs de console e de saída show tech-support e todos os arquivos crashinfo durante eventos de erro de paridade.

Detecção e Mensagens de Erro de Paridade do NPE

Esta seção contém diagramas de bloco do NPE e o local onde estes sistemas detectam erros de paridade. Você pode localizar uma descrição de cada tipo de mensagem de erro a seguir.

Erros de Paridade no NPE-300

c7200_faulttree2.gif

O NPE-300 usa a verificação de paridade em memória compartilhada (SDRAM), Barramente de PCI e a interface externa da CPU para proteger o sistema de mau funcionamento por erros de bit. A verificação de paridade é capaz de detectar um único erro de bit usando um método simples, adicionando um bit de verificação por oito bits de dados. Se ela detectar um erro de bit ao transmitir os dados entre componentes de hardware, o sistema descartará os dados errôneos. Erros de bit único em qualquer local no diagrama acima fazem com que o roteador seja reinicializado.

Detecção de ParidadeECC do NPE-400

c7200_faulttree3.gif

O NPE-400 usa Correção de Erro de Bit Único e Detecção de Erro de Vários Bits, ECC (Correção de Código de Erro) para memória compartilhada (SDRAM). Para aumentar a disponibilidade do sistema no NPE-400, o ECC corrige erros de bit único na SDRAM, a fim de permitir que o sistema opere normalmente sem reinicializar e sem se tornar inativo. Para obter mais informações sobre como o ECC aumenta a disponibilidade do sistema, consulte a página Aumentando a Disponibilidade da Rede.

Um erro de vários bits na SDRAM faz com que o roteador reinicialize com uma exceção de erro de cache ou erro de barramento. O restante da memória e os barramentos no sistema usam detecção de paridade de bit único. Os erros de bit único em 1 e 3 no diagrama acima fazem com que o roteador seja reinicializado.

Erros de Paridade no Roteador C7200

Vários dos dispositivos de verificação de paridade no roteador C7200/NPE podem relatar dados com paridade inválida para qualquer operação de leitura ou gravação. Aqui está uma descrição das várias mensagens de erro relatadas em um sistema C7200/NPE:

Erro de DRAM GT64010/GT64120

Esse erro é relatado quando um controlador de sistema GT64120 detecta um erro de paridade ao ler a SDRAM:

%ERR-1GT64120 (PCI0):Fatal error, Erro de paridade de memória (externo)
GT=0xB4000000, cause=0x0100E283, mask=0x0ED01F00, real_cause=0x00000200
Bus_err_high=0x00000000, bus_err_low=0x00000000,
addr_decode_err=0x1C000000

Substitua a SDRAM após uma segunda falha. Se a falha persistir, substitua o NPE.

Observação:  Para NPEs mais antigos (NPE-100/150/200) que usam os controladores GT64010, o erro tem a seguinte aparência:

%ERR-1-GT64010: Fatal error, Memory parity error (external)
cause=0x0300E283, mask=0x0CD01F00, real_cause=0x00000200
bus_err_high=0x00000000, bus_err_low=0x00000000, addr_decode_err=0x00000000

O controlador GT64010 usa RAM Dinâmica (DRAM) e não SDRAM. Neste caso, substitua a DRAM após uma segunda falha. Se a falha persistir, substitua o NPE.

Leitura Mestre de Erro de Paridade do Sistema GT64010/GT64120

Um erro de paridade em Leitura Mestre é um erro de paridade acionado ao acessar uma ponte de Interconexão de Componente Periférico (PCI). Aqui está um exemplo de saída de erro de paridade:

%ERR-1-GT64120 (PCI0):Fatal error, Erro de paridade em leitura mestre
GT=B4000000, cause=0x0110E083, mask=0x0ED01F00, real_cause=0x00100000
Bus_err_high=0x00000000, bus_err_low=0x00000000,
addr_decode_err=0x00000470

%ERR-1-SERR: PCI bus system/parity error
%ERR-1-FATAL: Fatal error interrupt, No reloading
Err_stat=0x81, err_enable=0xFF, mgmt_event=0x40

Substitua o componente adequado após uma segunda falha. O dump de ponte do sistema indica qual componente substituir.

System bridge dump:

Ponte 1, for PA bay 1, 3 and 5. Handle=1
DEC21150 bridge chip, config=0x0

(0x1C):sec status, io base =0x83A09141
                Erro de Paridade Detectado no barramento secundário
                Paridade de Dados Detectada no barramento secundário
(0x20):mem base & limit =0x4AF04880

Estas tabelas informam qual componente tem um possível problema na saída de mensagem de erro.

NPE-100/150/200:

Número de pontes

Qual é a função da ponte

Erro de Paridade no Barramento Principal

Erro de Paridade no Barramento Secundário

Ponte 0

Downstream

MB0 a MB1

0

Substituir o NPE

Substitua o NPE; se ele ainda estiver presente, substitua o chassi

Ponte 1

Upstream MB1 a MB0

Substitua o NPE; se ele ainda estiver presente, substitua o chassi

Substituir o NPE

Ponte 2

Downstream MB0 a MB2

Substitua o NPE

Substitua o NPE; se ele ainda estiver presente, substitua o chassi

Ponte 3

Upstream MB2 a MB0

Substitua o NPE; se ele ainda estiver presente, substitua o chassi

Substitua o NPE

NPE-175/225/300/400/NSE-1:

Número de pontes

Qual é a função da ponte

Erro de Paridade no Barramento Principal

Erro de Paridade no Barramento Secundário

Ponte 0

Para compartimento PA 0 (placa de E/S, PCMCIA, interfaces

Substitua o NPE

Substitua o NPE; se ele ainda estiver presente, substitua a placa de E/S. Se ele ainda estiver presente, substitua o chassi

Ponte 1

Para compartimento PA 1, 3 e 5

Substitua o NPE

Substitua o NPE; se ele ainda estiver presente, substitua o chassi

Ponte 2

Para compartimento PA 2, 4 e 6

Substitua o NPE

Substitua o NPE; se ele ainda estiver presente, substitua o chassi

Todos os C7200s:

Número de pontes

Qual é a função da ponte

Erro de Paridade no Barramento Principal

Erro de Paridade no Barramento Secundário

Ponte 4

Adaptador de Porta 1

Substitua o NPE; se ele ainda estiver presente, substitua o chassi

Substitua o PA 1; se ele ainda estiver presente, substitua o chassi

Ponte 5

Adaptador de Porta 2

Substitua o NPE; se ele ainda estiver presente, substitua o chassi

Substitua o PA 2; se ele ainda estiver presente, substitua o chassi

Ponte 6

Adaptador de Porta 3

Substitua o NPE; se ele ainda estiver presente, substitua o chassi

Substitua o PA 3; se ele ainda estiver presente, substitua o chassi

Ponte 7

Adaptador de Porta 4

Substitua o NPE; se ele ainda estiver presente, substitua o chassi

Substitua o PA 4; se ele ainda estiver presente, substitua o chassi

Ponte 8

Adaptador de Porta 5

Substitua o NPE; se ele ainda estiver presente, substitua o chassi

Substitua o PA 5; se ele ainda estiver presente, substitua o chassi

Ponte 9

Adaptador de Porta 6

Substitua o NPE; se ele ainda estiver presente, substitua o chassi

Substitua o PA 6; se ele ainda estiver presente, substitua o chassi

Erro de Paridade de CPU

Assim como ocorre com todos os computadores e dispositivos de rede, o NPE é suscetível à rara ocorrência de erros de paridade na memória do processador. Os erros de paridade podem fazer com que o sistema reinicialize e podem ser um Single Event Upset (SEU ou erro der software) transitório ou ocorrer várias vezes (às vezes, chamados de erros de hardware) devido ao hardware danificado. Os SEUs ou erros de software são provocados por "ruído", mais freqüentemente devido a neutrons de alta energia gerados na atmosfera por raios cósmicos. Para obter mais informações sobre os SEUs, consulte a página Aumentando a Disponibilidade da Rede. Um erro de paridade da CPU será relatado se a CPU detectar um erro de paridade ao acessar qualquer um dos caches do processador (L1, L2 ou, se encaixado, L3).

Aqui são apresentados quatro exemplos deste tipo de erro:

Exemplo 1:

Error: SysAD, data cache, fields: data, 1st dword
Physical addr(21:3) 0x195BE88,
Virtual address is imprecise.
    Erro de Paridade de Dados Impreciso
    Erro de Paridade de Dados Impreciso
         

O NPE tem um processador R7K com cache não bloqueado. Cache não bloqueado significa que quando ele executa uma instrução para carregar dados em um registro e esses dados não estão no cache L1, a CPU carrega os dados de um cache de ordem inferior ou de dados de SDRAM. A CPU não bloqueia a execução de instruções adicionais, a menos que ocorra outra falha de cache ou que outra instrução dependa dos dados que estão sendo carregados. Isto pode aumentar bastante a velocidade do processador e melhorar o desempenho, mas também pode levar a erros de paridade imprecisos. Um erro de paridade impreciso é quando a CPU lê informações sem bloquear e, posteriormente, determina se houve um erro de paridade na linha de cache associada. O processador R7K não consegue nos informar especificamente qual instrução estava sendo executada durante o carregamento da linha de cache e, por este motivo, chamamos de erro de paridade impreciso.

Mesmo se os sistemas usam Correção de Código de Erro (ECC), ainda assim é possível ver um erro de paridade ocasional quando ocorreu mais de um erro único nos 64 bits de dados, devido a raios cósmicos que afetam mais de uma célula de memória, ou um erro de hardware no cache.

Exemplo 2:

Error: SysAD, instr cache, fields: data, 1st dword
Physical addr(21:3) 0x000000,
virtual addr 0x6040BF60, vAddr(14:12) 0x3000
virtual address corresponds to main:text, cache word 0

          Low Data     High Data  Par  Low Data     High Data  Par
L1 Data:  0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01
          2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01
           Low Data     High Data  Par  Low Data     High Data  Par
DRAM Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01
           2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01

Exemplo 3:

Cache Err Reg = 0xE4588D10
Data reference, Secondary/Sys intf cache, Data field error
Error on 1st doubleword on System interface
No errors in addition to instr error
Data phy addr that caused last parity or bus error: 0x1E84040C

Exemplo 4 (NPE-300 e NPE-400 apenas):

%CERF-3-RECOVER: PC=0x604F136C, Origin=L3 Data ,PhysAddr=0x013CEFD0

ou

%SYS-2-CERF_ABORT: Reason=0xEE23, PC=0x604629C8, Origin=L3 Data,
Phys Addr=0x0287A4E8

As duas mensagens anteriores vêm acompanhadas de um "relatório Cache Error Recovery Function (CERF)" como o seguinte:

CERFa[1 ] 05:25:36 MET Tue Jul 9 2002: result=0xEE23; instr_pos=-2; rpl_off=1
CERFb[1 ] PC =604629C8; ORGN=L3 Data; PRID=00002710; PHYA=0287A4E8
CERFc[1 ] SREG=3400E105; CAUS=00000400; DEA0=0287A4E8; ECC =00000000
CERFd[1 ] CERR=E447A4EA; EPC =606361F8; DEA1=02517058; INFO=00000000
CERFe[1 ] CACHE=28FF78B4 62B36D98 02020684 00000E17 00000030 00000001 61F2934C 3EDA025D
CERFe[1 ] SDRAM=28FF78B4 62B36D98 02020684 00000E17 00000030 00000001 61F2934C 3EDA025D
CERFg[1 ] CXT =00000000; XCXT=00000000; BVAD=00000008; PFCL=00000000
CERFh[1 ] ISeq: 0045182B; 1060000E; 2C4203E9; 92430028; 38420001; 30630005
CERFi[1 ] o0 $3 ....; beq....; sltiu $2 ....; lbu $3, 0x0028($18); xori $2....; andi $3 ....;*
CERFj[1 ]           ;        ;              ;            6287A4E8;            ;             ;
CERFk[1 ] ResumptionCode= 0x92430028; 0x0000000F; 0x42000018
CERFl[1 ] Instr's checked=4; diags=0x00000158,0x00040000,3600,1,0
CERFm[1 ] BaseRegLost later/off: 0/0 times; StoredValueLost: 0 times
CERFn[1 ] INFO=00000000; CNFG=5061F4BB; ICTL=00000000

Initial Register Values
CERFs00[1 ] $0=00000000 AT=61A30000 v0=00000001 v1=00000002
CERFs04[1 ] a0=28FF8728 a1=00003A98 a2=00000000 a3=00000007
CERFs08[1 ] t0=00000000 t1=3400E101 t2=606381E0 t3=FFFF00FF
CERFs12[1 ] t4=606381C8 t5=000005D4 t6=00000008 t7=61C50000
CERFs16[1 ] s0=6189C188 s1=00000000 s2=6287A4C0 s3=00003A98
CERFs20[1 ] s4=61BD57B0 s5=00000006 s6=00000000 s7=61BD6C60
CERFs24[1 ] t8=60634788 t9=00000000 k0=621A8374 k1=6063EA40
CERFs28[1 ] gp=61A33B20 sp=61E28678 s8=00000000 ra=60462CA4

1 Cache error exceptions already reported

Você verá os logs acima se a CERF estiver habilitada em um NPE-300 ou NPE-400 e ocorrer um erro de paridade. Para obter mais informações sobre a CERF, consulte a seção Soluções a seguir.

Soluções

O seguinte curso de ação é recomendado quando você encontra tais erros:

  1. Monitorar o hardware afetado para ver se o mesmo problema ocorre novamente. Se não ocorrer, ele era um Single Event Upset (SEU) transitório e não será necessário tomar nenhuma ação.

  2. No caso pouco provável de o problema ocorrer novamente, o comando cache L3 bypass/disable é uma opção que pode ajudar a reduzir o impacto do problema. Esse comando está disponível apenas nas seguintes plataformas:

    • 7200 com o engine de processador NPE-300, NPE-400 ou NSE-1

    • 7400 com o engine de processador NSE-1

    Como o NPE-300 não suporta memória ECC, este recurso é especialmente importante para aumentar a disponibilidade do sistema e processar os erros de paridade sem interromper o serviço. Isto resolve muitos erros de paridade de software. A advertência é que existe uma pequena variação de desempenho no sistema quando o cache L3 está desabilitado. A degradação do desempenho é em qualquer lugar entre 1% e 10%, dependendo da configuração do sistema. A sintaxe para usar este comando depende da versão do Cisco IOS Software.

    • O comando cache L3 disable pode ser encontrado no Cisco IOS Software Releases 12.3(5a) e posterior. Ele também estará disponível na versão 12.1(22)E. Nessas versões, o cache L3 está desabilitado por padrão, portanto, nenhuma ação é necessária para tirar proveito desse recurso. O cache L3 pode ser habilitado novamente com o comando no cache L3 disable.

    • O comando cache L3 bypass pode ser encontrado no Cisco IOS Software Releases 12.2(6)S, 12.2(6)B, 12.2(8)BC1b, 12.0(20)SP, 12.2(6)PB, 12.2(2)DD2, 12.0(20)ST3, 12.0(21)S, 12.1(11)EC, 12.2(7)T, 12.1(13) e 12.2(7) ou posterior e 12.1(11)E por meio da 12.1(21)E. Esse comando está desabilitado por padrão.

    Para habilitar o desvio de cache L3, insira o seguinte no modo de configuração:

    Router(config)#cache L3 bypass
                   

    Para desabilitar o desvio de cache L3, insira o seguinte no modo de configuração:

    Router(config)#no cache L3 bypass
                   

    A nova configuração de cache não entra em vigor enquanto o roteador não for recarregado.

    Quando o roteador inicializa, as informações do sistema são exibidas, incluindo informações sobre o cache L3. Isso ocorre porque o arquivo startup-config ainda não foi processado pelo sistema. Depois que o arquivo startup-config for processado, o cache L3 será ignorado se o comando cache L3 bypass estiver na configuração.

    Para verificar a configuração do cache L3, será possível executar o comando show version. Se o cache L3 for ignorado, não haverá referência ao cache L3 na saída show version.

  3. Outro recurso que ajuda a aumentar a disponibilidade do sistema é a Cache Error Recovery Function (CERF). Quando esse recurso está habilitado (este é o padrão nas versões do Cisco IOS Software mais recentes, mas a partir de fevereiro de 2004, apenas para NPE-300 e NPE-400), o Cisco IOS Software tenta resolver o erro de paridade e não deixa o processador travar. Esse recurso resolve em torno de 75% de determinados tipos de erros de paridade de software. Ao chamar esse comando, o sistema vê menos de 5% da degradação de desempenho.

    A CERF para o NPE-300 pode ser encontrada no Cisco IOS Software Releases 12.1(15), 12.1(12)EC, 12.0(22)S, 12.2(10)S, 12.2(10)T, 12.2(10), 12.2(2)XB4, 12.2(11)BC1b e 12.1(5)XM8 ou posterior.

    A CERF para o NPE-400 pode ser encontrada nas versões 12.3(3)B, 12.2(14)S3, 12.1(20)E, 12.1(19)E1, 12.3(1a), 12.2(13)T5, 12.2(18)S, 12.3(2)T, 12.2(18), 12.3(3) e 12.3(1)B1 ou posterior.

    A CERF para o NPE-300 exige a revisão de hardware 4.1 ou superior. Para identificar a versão de hardware do NPE-300, use o comando show c7200.

    Router>show c7200
    ...
    C7206VXR CPU EEPROM:
    Revisão 4.1 de hardware Board revision A0
    
    	  ...

    A CERF para o NPE-400 exige o processador R7K revisão 2.1 ou superior. Para identificar a revisão do processadshow version.

    Router>show version
    ...
    cisco 7206VXR (NPE400) processor with 491520K/32768K bytes of memory.
    R7000 CPU at 350Mhz, Implementation 39, Rev. 3.2, 256KB L2, 4096KB L3
    Cache 6 slot VXR midplane, Version 2.1
    ...

    Observação: É importante coletar todos os arquivos crashinfo relevantes para determinar a principal causa do erro, como explicado em Recuperando Informações do Arquivo Crashinfo.

Se as sugestões anteriores não resolverem o problema, a substituição do NPE poderá ajudar em casos de ocorrências repetidas de erros de paridade, uma vez que os erros de paridade são devido ao hardware danificado. As substituições de hardware são idênticas ao NPE original. A substituição do NPE não garante que nenhum erro de paridade posterior ocorrerá, pois os Single Event Upsets (SEUs) são inerentes a qualquer equipamento de computador com memória.


Discussões relacionadas da comunidade de suporte da Cisco

A Comunidade de Suporte da Cisco é um fórum onde você pode perguntar e responder, oferecer sugestões e colaborar com colegas.


Informações Relacionadas


Document ID: 12763