Introduction
Este documento explica as causas de erros de paridade em roteadores Cisco e como resolvê-los.
Prerequisites
Requirements
A Cisco recomenda que você saiba como solucionar problemas de travamentos de roteador.
Consulte Troubleshooting de Travamentos do Roteador para obter mais informações.
Componentes Utilizados
Este documento não se restringe a versões de software e hardware específicas.
The information in this document was created from the devices in a specific lab environment. All of the devices used in this document started with a cleared (default) configuration. If your network is live, make sure that you understand the potential impact of any command.
Conventions
Consulte as Convenções de Dicas Técnicas da Cisco para obter mais informações sobre convenções de documentos.
Identificar um erro de paridade
Os erros de paridade de memória ocorrem em produtos de processador baseados no MultiChannel Interface Processor (MIPS), como:
-
Roteadores Cisco 4500/4700 Series
-
Roteadores Cisco 7500 Series (RSP1, RSP2, RSP4, RSP8, VIP2-10, VIP2-15, VIP2-20, VIP2-40, VIP2-50)
-
Roteadores Cisco 7000 Series (RSP 7000)
-
Roteadores Cisco 7200 Series (NPE-100, NPE-150, NPE-175, NPE-200, NPE-225, NPE-300)
-
Cisco 12000 Series Internet Router
Aqui estão algumas mensagens, todas relacionadas à detecção de paridade ruim em algum lugar do sistema (a lista não é exaustiva, mas contém as mensagens mais comuns):
-
Na saída do comando show version:
System restarted by processor memory parity error at PC 0x6014F7C0,
address 0x0
or
System restarted by shared memory parity error at PC 0x60130F40
Se você tiver a saída de um comando show version de seu dispositivo Cisco, poderá usar o Cisco CLI Analyzer para exibir possíveis problemas e correções. Para usar o Cisco CLI Analyzer, você deve ser um cliente registrado, estar conectado e ter o JavaScript habilitado.
-
Nos console logs ou nos arquivos de informação de travamento:
- *** Cache Error Exception ***
Cache Err Reg = 0xa401a65a
data reference, primary cache, data field error , error on SysAD Bus
PC = 0xbfc17950, Cause = 0x0, Status Reg = 0x3040d007
- Error: primary data cache, fields: data,
virtual addr 0x6058A000, physical addr(21:3) 0x18A000, vAddr(14:12) 0x2000
virtual address corresponds to main:data, cache word 0
Low Data High Data Par Low Data High Data Par
L1 Data : 0:0xFEFFFEFE 0x65776179 0x13 1:0x20536572 0x76657220 0x89
2:0x646F6573 0x206E6F74 0x9C 3:0x20737570 0x706F7274 0xF8
Low Data High Data Par Low Data High Data Par
Mem Data : 0:0xFEFFFEFE 0x65776179 0x13 1:0x20536572 0x76657220 0x89
2:0x646F6573 0x206E6F74 0x9C 3:0x20737570 0x706F7274 0xF8
- *** Shared Memory Parity Error ***
shared memory control register= 0xffe3
error(s) reported for: CPU on byte(s): 0/1
- %PAR-1-FATAL: Shared memory parity error
shared memory status register= 0xFFEF
error(s) reported for: CPU on byte(s): 0/1 2/3
- %RSP-3-ERROR: MD error 0000008000000200
%RSP-3-ERROR: QA parity error (bytes 0:3) 02
%RSP-3-ERROR: MEMD parity error condition
%RSP-2-QAERROR: reused or zero link error, write at addr 0100 (QA)
log 22010000, data 00000000 00000000
%RSP-3-RESTART: cbus complex
- %RSP-3-ERROR: CyBus error 01
%RSP-3-ERROR: read data parity
%RSP-3-ERROR: read parity error (bytes 0:7) 20
%RSP-3-ERROR: physical address (bits 20:15) 000000
- %RSP-3-ERROR: MD error 00800080C000C000
%RSP-3-ERROR: SRAM parity error (bytes 0:7) F0
%RSP-3-RESTART: cbus complex
Erros de paridade de software x hardware
Há dois tipos de erros de paridade:
-
Erros de paridade suave
Esses erros ocorrem quando um nível de energia dentro do chip (por exemplo, um um ou zero) muda. Quando referenciados pela CPU, esses erros fazem com que o sistema falhe (se o erro estiver em uma área que não seja recuperável) ou recupere outros sistemas (por exemplo, um complexo CyBus é reiniciado se o erro estiver na memória do pacote (MEMD)). No caso de um erro de paridade suave, não há necessidade de trocar a placa ou qualquer um dos componentes. Consulte a seção Informações Relacionadas para obter informações adicionais sobre erros de paridade suave.
-
Erros de paridade de hardware
Esses erros ocorrem quando há uma falha de chip ou placa que corrompe os dados. Nesse caso, você precisa encaixar novamente ou substituir o componente afetado, que geralmente envolve uma troca de chip de memória ou uma troca de placa. Há um erro de paridade difícil quando vários erros de paridade ocorrem no mesmo endereço. Há casos mais complicados que são mais difíceis de identificar. Em geral, se você vir mais de um erro de paridade em uma região de memória específica em um período relativamente curto, poderá considerá-lo um erro de paridade difícil.
Estudos mostram que os erros de paridade suave são de 10 a 100 vezes mais freqüentes que os erros de paridade difícil. Portanto, a Cisco recomenda que você aguarde um segundo erro de paridade antes de substituir qualquer coisa. Isso reduz muito o impacto na sua rede.
Isole o problema
Um roteador tem memória em locais diferentes. Teoricamente, qualquer local da memória pode ser afetado pelo erro de paridade, mas a maioria dos problemas de memória ocorre na memória RAM dinâmica (DRAM) ou na RAM compartilhada (SRAM). Com base na plataforma, aqui está como você pode descobrir qual local da memória foi afetado e, se for um erro de paridade difícil, que parte você deve substituir:
Plataformas Cisco 4500 e 4700
Nas plataformas Cisco 4500 e 4700, o arquivo crashinfo não está disponível em versões anteriores ao Cisco IOS® Software Release 12.2(10) e 12.2(10)T.
Uma maneira de descobrir onde o erro ocorreu é observar a "razão de reinicialização" nos registros do console e na saída do comando show version:
-
Erro de paridade em DRAM:
Se você não recarregou manualmente o roteador após o travamento, a saída show version será semelhante a esta:
System restarted by processor memory parity error at PC 0x601799C4,
address 0x0
System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash
Se um arquivo crashinfo estiver disponível ou se os logs de console tiverem sido capturados, você também poderá ver algo como:
*** Cache Error Exception ***
Cache Err Reg = 0xa0255c61
data reference, primary cache, data field error , error on SysAD Bus
PC = 0xbfc0edc0, Cause = 0xb800, Status Reg = 0x34408007
A ocorrência repetida de erros de paridade na DRAM indica que a DRAM ou o chassi está com defeito. Se você removeu recentemente o chassi ou se realizou alguma alteração na configuração do hardware, recoloque os chips DRAM para resolver o problema. Caso contrário, substitua DRAM como um primeiro passo. Isso deve impedir os erros de paridade. Se o roteador ainda travar, substitua o chassi.
-
Erro de paridade em SRAM:
Se você não recarregou manualmente o roteador após o travamento, a saída do comando show version será semelhante a esta:
System restarted by shared memory parity error at PC 0x60130F40
System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash
Se um arquivo crashinfo estiver disponível ou se os logs de console tiverem sido capturados, você também poderá ver algo como:
*** Shared Memory Parity Error ***
shared memory control register= 0xffe3
error(s) reported for: CPU on byte(s): 0/1
or
%PAR-1-FATAL: Shared memory parity error
shared memory status register= 0xFFEF
error(s) reported for: CPU on byte(s): 0/1 2/3
or
*** Shared Memory Parity Error ***
shared memory control register= 0xffdf
error(s) reported for: NIM1 on byte(s): 0/1 2/3
Note:
-
Se o erro for relatado para a CPU, substitua a SRAM.
-
Se o erro for relatado para NIM(x), substitua o módulo da rede no slot (x). A SRAM alocada para o slot (x) também pode ser afetada. Nesse caso, substitua a SRAM.
Os erros de paridade repetidos na SRAM indicam chips SRAM defeituosos ou um módulo de rede defeituoso que gravou paridade incorreta na SRAM. Se você removeu o chassi recentemente ou se fez alguma alteração na configuração do hardware, recoloque os módulos de rede e os chips SRAM para resolver o problema. Caso contrário, verifique onde o erro é relatado nos registros do console (consulte o exemplo de saída acima).
Plataformas RSP (processador de rota/Switch), NPE (Network Processing Engine) e RP (processador de rota)
Assim como na série Cisco 4000, o problema pode ser devido a DRAM ou SRAM defeituosos para essas plataformas. O problema também pode ser devido a uma placa de processador defeituosa (RP, RSP ou NPE). O Cisco 7000 e 7500 também podem relatar erros de paridade gerados por um processador de interface defeituoso ou mal encaixado (xIP ou VIP legado).
Verifique se há uma destas mensagens de erro no arquivo crashinfo e nos registros do console:
Erro de paridade em DRAM ou SRAM (MEMD)
Para RP, RSP e NPE, você normalmente vê algo como:
Error: primary data cache, fields: data, (SysAD)
virtual addr 0x6058A000, physical addr(21:3) 0x18A000, vAddr(14:12) 0x2000
virtual address corresponds to main:data, cache word 0
ou simplesmente:
Error: primary data cache, fields: data, SysAD
phy21:3 0x201880, va14:12 0x1000, addr 63E01880
Isso indica um problema no próprio RSP. Se o problema ocorrer apenas uma vez, é provavelmente um problema transitório.
Erro de Paridade Proveniente de SRAM
Para o RSP, a mensagem pode ser semelhante a esta:
%RSP-3-ERROR: MD error 0000008000000200
%RSP-3-ERROR: QA parity error (bytes 0:3) 02
%RSP-3-ERROR: MEMD parity error condition
%RSP-2-QAERROR: reused or zero link error, write at addr 0100 (QA)
log 22010000, data 00000000 00000000
%RSP-3-RESTART: cbus complex
or
%RSP-3-ERROR: CyBus error 01
%RSP-3-ERROR: read data parity
%RSP-3-ERROR: read parity error (bytes 0:7) 20
%RSP-3-ERROR: physical address (bits 20:15) 000000
Se não houver indicação de outro processador de interface que grava paridade incorreta na SRAM (por exemplo, mensagens de erro VIP2-1-MSG), o motivo mais provável para o erro de paridade é a própria SRAM. Nesse caso, substitua o RSP.
Se outras mensagens de erro indicarem que um processador de interface grava paridade incorreta, pode ser uma placa com defeito ou mal encaixada.
Processador de interface versatile
Se você receber %VIP2-1-MSG: mensagens slot(x) nos registros ou no arquivo crashinfo, consulte Troubleshooting de Travamentos VIP.
Ações recomendadas
Na primeira ocorrência de um erro de paridade, não será possível diferenciar entre um erro de paridade temporário ou permanente. Por experiência própria, a maioria das ocorrências de paridade são erros de paridade suaves e você pode geralmente ignorá-los. Se você alterou algum hardware recentemente ou mudou a caixa, tente recolocar a peça afetada (DRAM, SRAM, NPE, RP, RSP ou VIP). Ocorrências frequentes de paridade múltipla significam hardware defeituoso. Substitua a peça afetada (DRAM, RSP, VIP ou placa-mãe) com a ajuda das instruções mencionadas neste documento.
Informações a serem coletadas se você abrir um pedido de serviço de TAC
Se você ainda precisar de ajuda depois de seguir as etapas de solução de problemas acima e desejar abrir uma solicitação de serviço com o Cisco TAC, inclua estas informações: |
- Solução de problemas executada antes de abrir a solicitação de serviço.
- saída do comando show technical-support (no modo de ativação, se possível).
- Saída do comando show log ou capturas do console, se disponível.
- arquivo crashinfo (se estiver presente e ainda não estiver incluído na saída do comando show technical-support. Se existirem vários arquivos crashinfo, inclua todos eles).
- Número de recargas devido a erros de paridade de memória do processador que você viu e quando ocorreram.
Anexe os dados coletados para o seu caso em um formato não compactado e texto simples (.txt). Para anexar informações à sua solicitação de serviço, faça o upload através da TAC Service Request Tool (somente clientes registrados) . Se você não puder acessar a Service Request Tool, anexe as informações relevantes à sua solicitação de serviço e envie-as para attach@cisco.com com o número da solicitação de serviço na linha de assunto da sua mensagem. Nota: Não recarregue ou desligue o roteador manualmente antes de coletar as informações acima, a menos que seja necessário para solucionar um erro de paridade de memória do processador, pois isso pode causar a perda de informações importantes necessárias para determinar a causa raiz do problema. |
Informações Relacionadas