Guia de Troubleshooting de Erros de Paridade

Opções de download

PDF (281.2 KB)
Ver no Adobe Reader em vários dispositivos

Atualizado:15 de novembro de 2023

ID do documento:116135

Linguagem imparcial

O conjunto de documentação deste produto faz o possível para usar uma linguagem imparcial. Para os fins deste conjunto de documentação, a imparcialidade é definida como uma linguagem que não implica em discriminação baseada em idade, deficiência, gênero, identidade racial, identidade étnica, orientação sexual, status socioeconômico e interseccionalidade. Pode haver exceções na documentação devido à linguagem codificada nas interfaces de usuário do software do produto, linguagem usada com base na documentação de RFP ou linguagem usada por um produto de terceiros referenciado. Saiba mais sobre como a Cisco está usando a linguagem inclusiva.

Sobre esta tradução

A Cisco traduziu este documento com a ajuda de tecnologias de tradução automática e humana para oferecer conteúdo de suporte aos seus usuários no seu próprio idioma, independentemente da localização. Observe que mesmo a melhor tradução automática não será tão precisa quanto as realizadas por um tradutor profissional. A Cisco Systems, Inc. não se responsabiliza pela precisão destas traduções e recomenda que o documento original em inglês (link fornecido) seja sempre consultado.

Introdução

Este documento descreve erros de paridade de software e hardware, explica mensagens de erro comuns e recomenda métodos que ajudam a evitar ou minimizar erros de paridade.

Informações de Apoio

As recentes melhorias no design de hardware e software também reduzem os problemas de paridade.

O que é um erro de paridade de processador ou de memória?

A verificação de paridade é o armazenamento de um dígito binário extra (bit), a fim de representar a paridade (ímpar ou par) de uma pequena quantidade de dados de computador (normalmente um byte) enquanto esses dados são armazenados na memória. O valor de paridade calculado a partir dos dados armazenados é então comparado ao valor de paridade final. Se esses dois valores forem diferentes, isso indica um erro de dados e pelo menos um bit deve ter sido alterado devido à corrupção de dados.

Dentro de um sistema de computador, a interferência elétrica ou magnética de causas internas ou externas pode fazer com que um único bit de memória mude espontaneamente para o estado oposto. Esse evento torna os bits de dados originais inválidos e é conhecido como erro de paridade.

Tais erros de memória, se não forem detectados, podem ter resultados indetectáveis e inconsequentes, ou podem causar corrupção permanente de dados armazenados ou um travamento da máquina.

Há muitas causas de erros de paridade de memória, que são classificadas como erros de paridade de software ou erros de paridade de hardware.

Erros de software

A maioria dos erros de paridade é causada por condições ambientais eletrostáticas ou relacionadas à magnética.

A maioria dos erros de evento único em chips de memória é causada pela radiação de fundo (como nêutrons de raios cósmicos), interferência eletromagnética (EMI) ou descarga eletrostática (ESD). Esses eventos podem alterar aleatoriamente o estado elétrico de uma ou mais células de memória ou podem interferir nos circuitos usados para ler e gravar células de memória.

Conhecidos como erros de paridade suave, esses eventos são geralmente transitórios ou aleatórios e geralmente ocorrem uma vez. Os erros de software podem ser pequenos ou graves:

Pequenos erros de software que podem ser corrigidos sem a redefinição de componentes são SEUs (single event upsets, conjuntos de eventos únicos).
Os erros graves de software que exigem uma reinicialização do componente ou do sistema são travamentos de evento único (SELs).

Erros de software não são causados por mau funcionamento de hardware; eles são transitórios e pouco frequentes, são provavelmente um SEU e são causados por uma interrupção ambiental dos dados de memória.

Se você encontrar erros de paridade suave, analise as alterações ambientais recentes que ocorreram no local do sistema afetado. As fontes comuns de ESD e EMI que podem causar erros de paridade de software incluem:

Cabos e fontes de alimentação
Unidades de distribuição de energia
Fontes de alimentação universais
Sistemas de iluminação
Geradores de energia
Instalações nucleares (radiação)
Explosões solares (radiação)

Erros de hardware

Outros erros de paridade são causados por um mau funcionamento físico do hardware de memória ou pelo circuito usado para ler e gravar células de memória.

Os fabricantes de hardware tomam medidas abrangentes para prevenir e testar defeitos de hardware. No entanto, ainda são possíveis defeitos. Por exemplo, se alguma das células de memória usadas para armazenar bits de dados for malformada, ela poderá ser incapaz de reter uma carga ou poderá ser mais vulnerável às condições ambientais.

Da mesma forma, enquanto a própria memória pode estar operando normalmente, qualquer dano físico ou elétrico ao circuito usado para ler e gravar células de memória também pode causar a alteração de bits de dados durante a transferência, o que resulta em um erro de paridade.

Conhecidos como erros de paridade de hardware, esses eventos são normalmente muito frequentes e repetidos, e ocorrem sempre que a memória ou o circuito afetados são usados. A frequência exata depende da extensão da anomalia e da frequência com que o equipamento danificado é utilizado.

Lembre-se de que os erros de paridade de hardware são o resultado de um mau funcionamento de hardware e ocorrem novamente sempre que o componente afetado é usado.

Se você encontrar erros de paridade de hardware, analise as alterações físicas que ocorreram no local do sistema afetado. As origens comuns de mau funcionamento de hardware que podem levar a erros de paridade de hardware incluem:

Surtos de energia (sem aterramento)
ESD
Superaquecimento ou arrefecimento
Instalação incorreta ou parcial
Incompatibilidade de componente
Defeito de fabricação

Mensagens de erro comuns

O software Cisco IOS^® fornece uma variedade de mensagens de erro de paridade, que variam com o componente afetado e seu impacto relativo no sistema.

Processador

Erro de cache detectado! CP0_CAUSE (reg 13/0): 0x00000400 CPO_ECC (reg 26/0): 0x000000B3 CPO_BUSERRDPA (reg 26/1): 0x000000B3 CPO_CACHERI (reg 27/0): 0x20000000 Erro de cache real detectado. O sistema pode ser interrompido. Erro: Cache instr primário, campos: dados, End físico real 0x00000000, o endereço virtual é impreciso. Erro de paridade de dados impreciso
Explicação	Este é o resultado de um erro de paridade dentro do cache de Nível 2 (L2) (memória estática de acesso aleatório, ou SRAM) usado pela CPU do processador de roteamento (RP) ou processador de switch (SP) da Multilayer Switch Feature Card 3 (MSFC3).
Recomendação	Monitore o sistema regularmente para verificar se há recorrência. Se nenhum outro evento for observado, é um erro de software. Se o erro ocorrer com frequência, solicite uma RMA (Return Material Authorization, Autorização para Devolução de Material) para substituir o Supervisor Engine e marque o módulo para EFA (análise de falha de equipamento).
%SYSTEM_CONTROLLER-3-ERROR: Error condition detected: SYSAD_PARITY_ERROR
Explicação	Este é o resultado de um erro de paridade no endereço do sistema (barramento de dados) usado pelo In-Band Controller (IBC) do MSFC3.
Recomendação	Monitore o sistema regularmente para verificar se há recorrência. Se nenhum outro evento for observado, é um erro de software. Se o erro ocorrer com frequência, solicite uma RMA para substituir o Supervisor Engine e marque o módulo para EFA.
%SYSTEM_CONTROLLER-3-ERROR: Error condition detected: TM_DATA_PARITY_ERROR
Explicação	Este é o resultado de um erro de paridade nos dados do gerenciador de tabelas usados pelo IBC do MSFC3.
Recomendação	Monitore o sistema regularmente para verificar se há recorrência. Se nenhum outro evento for observado, é um erro de software. Se o erro ocorrer com frequência, solicite uma RMA para substituir o Supervisor Engine e marque o módulo para EFA.
%SYSTEM_CONTROLLER-3-ERROR: Error condition detected: TM_NPP_PARITY_ERROR
Explicação	Este é o resultado de um erro de paridade no 'ponteiro da próxima página' do gerenciador de tabelas usado pelo IBC da MSFC3.
Recomendação	Monitore o sistema regularmente para verificar se há recorrência. Se nenhum outro evento for observado, é um erro de software. Se o erro ocorrer com frequência, solicite uma RMA para substituir o Supervisor Engine e marque o módulo para EFA.Nas versões do software Cisco IOS entre 12.1(8)E e 12.2(33)SXI3, o comportamento padrão em resposta aos eventos SYSTEM_CONTROLLER-3-ERROR era redefinir o IBC e registrar uma mensagem de erro.No entanto, essa ação corretiva resultou em alguns casos documentados do IBC (e, portanto, da CPU) não sendo mais capaz de transmitir ou receber dados. Assim, o comportamento foi alterado nas versões do software Cisco IOS posteriores à 12.2(33)SXI4 para registrar uma mensagem de erro e reiniciar o sistema; consulte o bug da Cisco ID CSCtf51541.
Exceção de interrupção, sinal de CPU 20, PC = 0x[dec]
Explicação	Este é o resultado de um erro de paridade de bit único no cache L2 da CPU (SRAM) usado pelos módulos Cisco Catalyst 6700 Series.
Recomendação	Monitore o sistema regularmente para verificar se há recorrência. Se nenhum outro evento for observado, é um erro de software. Se o erro ocorrer com frequência, solicite uma RMA para substituir o módulo 6700 e marque o módulo para EFA. Nas versões do Cisco IOS Software anteriores à 12.2(33)SXI5, um bug de software (ID de bug Cisco CSCtj06411) causaria até mesmo erros de paridade de bit único para redefinir o módulo 6700. Isso foi resolvido nas versões 12.2(33)SXI6 e 12.2(33)SXJ para o Supervisor Engine 720 e na versão 15.0SY para o Supervisor Engine 2T.

RAM

%SYSTEM_CONTROLLER-3-ERROR: Error condition detected: SYSDRAM_PARITY_ERROR
Explicação	Este é o resultado de um erro de paridade incorrigível nos módulos de memória DRAM síncrona (SDRAM) (DIMM) usados pelo MSFC3.
Recomendação	Monitore o sistema regularmente para verificar se há recorrência. Se nenhum outro evento for observado, é um erro de software. Se o erro ocorrer com frequência, limpe e recoloque o DIMM e continue a monitorar. Se o erro continuar, solicite uma RMA para substituir ou atualizar o DIMM.
%SYSTEM_CONTROLLER-3-COR_MEM_ERR: Erro de memória DRAM corrigível. Contagem [dec], log [hex]
Explicação	Este é o resultado de um erro de paridade corrigível no SDRAM (DIMM) usado pelo MSFC3.
Recomendação	Monitore o sistema regularmente para verificar se há recorrência. Se nenhum outro evento for observado, é um erro de software. Se o erro ocorrer com frequência, limpe e recoloque o DIMM e continue a monitorar. Se o erro continuar, solicite uma RMA para substituir ou atualizar o DIMM.
%MWAM-DFC[dec]-0-CORRECTABLE_ECC_ERR: Ocorreu um erro de ECC corrigível, A_BUS_L2_ERRORS: 0x10000, A_BUS_MEMIO_ERRORS: 0x0, A_SCD_BUS_ERR_STATUS: 0x80983000
Explicação	Este é o resultado de um erro de paridade de bit único na DRAM usada pelos módulos 6700 Series.
Recomendação	Monitore o sistema regularmente para verificar se há recorrência. Se nenhum outro evento for observado, é um erro de software. Se o erro ocorrer com frequência, limpe e recoloque o DIMM e continue a monitorar. Se o erro continuar, solicite uma RMA para substituir ou atualizar o DIMM.
%PM_SCP-SP-2-LCP_FW_ERR_INFORM: O módulo [dec] está apresentando este erro: Erro de paridade LTL detectado na bobina #[dec].
Explicação	Este é o resultado de um erro de paridade no SRAM usado pelos módulos Cisco Catalyst 6100 e Cisco Catalyst 6300 Series.
Recomendação	Monitore o sistema regularmente para verificar se há recorrência. Se nenhum outro evento for observado, é um erro de software. Se o erro ocorrer com frequência, solicite uma RMA para substituir o módulo 6100 ou 6300 e marque o módulo para EFA.
%SYS-4-SYS_LCPERR4: Module [dec]: Erro de paridade LTL detectado na bobina #[dec]
Explicação	Este é o resultado de um erro de paridade no SRAM usado pelos módulos das séries 6100 e 6300.
Recomendação	Monitore o sistema regularmente para verificar se há recorrência. Se nenhum outro evento for observado, é um erro de software. Se o erro ocorrer com frequência, solicite uma RMA para substituir o módulo 6100 ou 6300 e marque o módulo para EFA.

ASIC

%PM_SCP-SP-2-LCP_FW_ERR_INFORM: O módulo [dec] está apresentando este erro: Falha de buffer de pacote ASIC de porta ([name]) detectada nas portas [dec]
Explicação	Este é o resultado de um erro de paridade no buffer de pacote ASIC (SRAM) de porta usado pelos módulos Ethernet do Cisco Catalyst 6148A Series.
Recomendação	Monitore o sistema regularmente para verificar se há recorrência. Se nenhum outro evento for observado, é um erro de software. Se o erro ocorrer com frequência, solicite uma RMA para substituir o módulo 6148A e marque o módulo para EFA.
%LTL-SP-2-LTL_PARITY_CHECK: Solicitação de verificação de paridade LTL para 0x[hex]
Explicação	Este é o resultado de um erro de paridade na tabela de índice de porta ASIC (SRAM) da porta usada pelos módulos das séries Catalyst 6100-6500 e 6700.
Recomendação	Monitore o sistema regularmente para que ele ocorra novamente. Se nenhum outro evento for observado, é um erro de software. Se o erro ocorrer com frequência, solicite uma RMA para substituir o módulo e marque o módulo para EFA.

Consulte estes documentos do software Cisco IOS para obter uma lista abrangente de mensagens de erro:

A ferramenta Output Interpreter (exclusiva para clientes registrados) é compatível com alguns comandos de exibição.. Use a ferramenta Output Interpreter para visualizar uma análise do resultado gerado pelo comando show..

Últimos avanços

A pesquisa no campo de erros de paridade está em andamento e nem todos os cenários podem ser abordados, mas as organizações de desenvolvimento de hardware e software do Cisco Catalyst 6500 continuam a introduzir novas maneiras, como a proteção de código de correção de erros (ECC), para minimizar e mitigar a ocorrência de erros de paridade.

Embora este documento tenha começado com a discussão da terceira geração (WS-XSUP720 e início da série 6700) de produtos Catalyst 6500, esta seção resume as melhorias introduzidas com a quarta geração (VS-S720-10G e posteriores 6700 Series) e a quinta geração (VS-SUP2T-10G e 6900 Series).

Processador

O módulo VS-S720-10G apresenta uma placa-filha MSFC3 mais recente, com um novo IBC e atualizado SR7010A reduzido conjunto de instruções computação (RISC) RP e SP CPUs que operam a 600Mhz cada. Os caches de Nível 1 (L1), L2 e Nível 3 (L3) são capazes de detecção de paridade. O IBC mais recente tem toda a funcionalidade da geração anterior e adiciona a proteção ECC (correção de bit único, detecção de bit múltiplo) aos SRAMs conectados.

Os módulos 6700 Series suportam uma CPU com cache L2 protegido por ECC (o cache L1 tem capacidade de detecção de paridade), que pode corrigir erros de paridade de bit único sem a necessidade de reinicialização. No entanto, devido ao bug da Cisco ID CSCsz39222, a versão 12.2SXI do software Cisco IOS (Supervisor Engine 720) redefine o módulo de qualquer forma se ocorrer um erro de paridade de cache de CPU de bit único. Isso é resolvido nas versões 12.2SXJ (Supervisor Engine 720) e 15.0SY (Supervisor Engine 2T) do software Cisco IOS.

O VS-SUP2T-10G apresenta uma nova placa-filha MSFC5 com um IBC integrado e uma nova CPU MPC8572 PPC RP de núcleo duplo (com cache L2 e L3 protegido por ECC, cache L1 tem capacidade de detecção de paridade) que opera a 1,5 Ghz por núcleo. Ele também apresenta uma nova CPU do Processador de Gerenciamento de Conectividade (CMP - Connectivity Management Processor) fora de banda e DRAM protegida por ECC, que está disponível mesmo que a CPU do RP não esteja disponível no momento.

O novo IBC tem toda a funcionalidade das gerações anteriores e suporta a proteção ECC para os SRAMs anexados e melhorias no tratamento de erros de paridade. O novo MSFC5 também possui uma ROM de Onboard Failure Logging (OBFL), que armazena todos os eventos de inicialização e diagnóstico do módulo. O novo design de CPU única também reduz a probabilidade estatística de eventos de erro de paridade.

Os módulos da série 6900 suportam uma CPU mais nova com cache L1 e L2 protegido por ECC, que pode corrigir erros de paridade de bit único sem a necessidade de reinicialização. A nova geração suporta o mesmo IBC, e o tratamento de software para correção de erro de paridade de bit único foi incorporado.

RAM

O VS-S720-10G com MSFC3 apresenta SDRAM de taxa de dados dupla (DDR) com proteção ECC, operando a 266 MHz.

Os módulos da série 6700 suportam SDRAM DDR com proteção ECC, operando a 266 MHz.

Comparada à SDRAM de taxa de dados única (SDR), a interface SDRAM DDR torna possíveis taxas de transferência mais altas por um controle mais rígido da temporização dos dados elétricos e dos sinais de clock. A interface DDR usa o bombeamento duplo (transferência de dados nas bordas ascendente e descendente do sinal de clock) para reduzir a frequência do clock. A frequência de clock mais baixa reduz os requisitos de integridade do sinal na placa de circuito que conecta a memória ao controlador.

O VS-SUP2T-10G com MSFC5 apresenta SDRAM DDR3 com proteção ECC, operando a 667Mhz.

Os módulos da série 6900 suportam SDRAM DDR3 com proteção ECC, operando a 667 MHz.

A principal vantagem da SDRAM DDR3 em relação às suas predecessoras imediatas (DDR2 e DDR) é sua capacidade de transferir dados com o dobro da taxa (oito vezes a velocidade de seus arrays de memória internos), o que permite maior largura de banda ou taxas de dados de pico. A memória DDR3 também reduz o consumo de energia em 30%, embora use o mesmo padrão de sinalização elétrica que a DDR e a DDR2.

ASIC

O VS-S720-10G com PFC3C apresenta buffers de pacotes SRAM com proteção ECC. Isso fornece correção de erro de paridade de bit único sem reinicialização de módulo, bem como detecção de erro de paridade de bit múltiplo.

O 6700 Series com DFC3C apresenta buffers de pacotes SRAM com proteção ECC. Isso fornece correção de erro de paridade de bit único sem reinicialização de módulo, bem como detecção de erro de paridade de bit múltiplo.

O VS-SUP2T-10G com PFC4 apresenta buffers de pacotes SRAM com proteção ECC. Isso fornece correção de erro de paridade de bit único sem reinicialização de módulo, bem como detecção de erro de paridade de bit múltiplo.

A série 6900 com DFC4 apresenta buffers de pacotes SRAM com proteção ECC. Isso fornece correção de erro de paridade de bit único sem reinicialização de módulo, bem como detecção de erro de paridade de bit múltiplo.

Software

O software Cisco IOS foi projetado para suportar a proteção ECC. Se um componente de hardware que suporta a proteção ECC experimentar um SEU, o código pode corrigir os dados corrompidos ou redefinir o componente afetado e não exigir uma reinicialização completa do hardware do módulo afetado.

No entanto, em versões anteriores do software Cisco IOS, há algumas exceções em que o comportamento foi intencionalmente alterado ou apresenta mau funcionamento devido a um bug de software. Aqui estão duas exceções notáveis.

Redefinição de MSFC IBC

Nas versões do Cisco IOS Software entre 12.1(8)E e 12.2(33)SXI3, o comportamento padrão em resposta aos eventos SEU SYSTEM_CONTROLLER-3-ERROR era redefinir o IBC e registrar uma mensagem de erro. No entanto, essa ação corretiva resultou em alguns casos documentados do IBC (e, portanto, da CPU) não sendo mais capaz de transmitir ou receber dados.

Assim, o comportamento foi alterado após a Versão 12.2(33)SXI4 (ID do Cisco Bug CSCtf51541) para registrar uma mensagem de erro e reiniciar o sistema. Embora essa reação possa parecer mais grave, é preferível reiniciar o sistema e corrigir a estrutura da memória do que ter um sistema que não responde.

Um recurso que está em desenvolvimento (bug da Cisco ID CSCtr89859) adiciona um novo comando de interface de linha de comando (CLI) que permite que você alterne o comportamento padrão. Esse aprimoramento é mais aplicável a sistemas que usam um único supervisor e, portanto, não têm redundância de supervisor.

Redefinição de "Erro de paridade de bit único" do 6700 Series

Nas versões do Cisco IOS Software anteriores à 12.2(33)SXI5, um bug de software (ID de bug Cisco CSCtj06411) causaria até mesmo erros de paridade de bit único para redefinir o módulo 6700. Isso normalmente seria um erro de paridade corrigível e não exigiria que o módulo fosse redefinido.

Esse bug foi resolvido nas versões 12.2(33)SXI6+ e 12.2SXJ para o Supervisor Engine 720 e na versão 15.0SY para o Supervisor Engine 2T. Após uma atualização para a versão apropriada, o módulo 6700 simplesmente registra uma mensagem de erro e continua a operar.

Recomendações

Neste ponto, você provavelmente determinou se encontrou um erro de paridade de software ou de hardware. Embora isso possa resolver um único incidente, outras vulnerabilidades de erro de paridade ainda podem existir, para que você possa adotar uma abordagem mais abrangente para toda a sua rede.

Assim, a Cisco e a unidade de negócios do Catalyst 6500 recomendam que você analise esses procedimentos de mitigação e tome as medidas corretivas apropriadas para eliminar ou reduzir futuros erros de paridade.

Erros de software (SEU)

Os erros de paridade de evento único (software) são causados por condições ambientais e podem ocorrer apenas uma vez (SEU) ou com pouca frequência, como mensalmente ou anualmente. Embora não seja necessário substituir o hardware, você deseja reduzir as ocorrências futuras.

Essas práticas recomendadas reduzem significativamente a probabilidade de erros de paridade suave.

Auditoria ambiental

A Cisco recomenda que você faça uma auditoria ambiental dos locais de rede afetados. Você pode realizar essa auditoria sozinho ou em coordenação com um representante da Cisco, com uma equipe da Cisco (como o Cisco Advanced Services) ou por meio de um consultor terceirizado.

A cobertura exata e a complexidade de uma auditoria ambiental dependem de muitas variáveis diferentes, como localização geográfica, tamanho e design do edifício e da sala, design e layout elétricos e outros fatores relacionados.

Considere quais fontes ambientais de ESD e EMI podem existir na sua rede ou ao redor dela. Estas são fontes comuns de interferência que podem levar a um erro de paridade suave:

Cabos e fontes de alimentação
Unidades de distribuição de energia
Fontes de alimentação universais
Sistemas de iluminação
Geradores de energia
Instalações nucleares (radiação)
Explosões solares (radiação)

Posicionamento do chassi

Os SEUs podem ocorrer se as unidades de distribuição de energia, os geradores de energia ou os sistemas de iluminação estiverem muito próximos do chassi ou se vários cabos de energia estiverem sobre ou ao lado do chassi.

É importante fornecer uma distância adequada entre o chassi do Catalyst 6500 e essas fontes elétricas e magnéticas. As distâncias recomendadas variam de acordo com o componente e estão disponíveis nas fichas técnicas do componente.

Em geral, a Cisco recomenda que você localize os sistemas a pelo menos três a seis polegadas de fontes comuns de interferência elétrica e magnética. Os cabos de alimentação podem ser posicionados para baixo e para fora do chassi, sempre que possível, e não podem ser dispostos em pacotes com montagem firme ou em grande número ao longo ou ao lado do chassi.

Aterramento

As flutuações de energia e os surtos de energia são relativamente comuns, e as fontes de alimentação do Catalyst 6500 são projetadas para acomodar pequenas variações na corrente de tensão.

No entanto, é essencial fornecer aterramento elétrico adequado para o chassi e o rack, de forma que qualquer excesso de voltagem elétrica seja retirado do sistema. Sem o aterramento adequado, surtos de energia podem resultar em danos ou mau funcionamento em vários ASICs e componentes de memória. Consulte o Guia de Instalação do Catalyst 6500 Series Switch, Instalando o Switch, Estabelecendo o Aterramento do Sistema, para obter mais informações.

ESD

A ESD pode facilmente danificar componentes críticos sem qualquer defeito visível. Medidas preventivas apropriadas podem ser incorporadas nas políticas de operação do laboratório, mas tais medidas são muitas vezes e infelizmente ignoradas devido à conveniência e supervisão limitada.

A Cisco recomenda que o gerenciamento de operações do seu laboratório, juntamente com a Cisco Systems, execute uma auditoria ambiental de todas as áreas de rede ou, no mínimo, de todas as áreas que exibiram falhas de hardware ou que foram designadas como de missão crítica. Uma vez concluída a auditoria, a Cisco recomenda que você implemente uma lista de verificação ambiental padronizada para todos os sistemas recém-instalados a fim de evitar futuros eventos de paridade SEU.

Firmware Mais Recente (Rommon)

Os componentes de hardware do Catalyst usam o código de firmware (também conhecido como Rommon) para inicializar, comunicar e executar diagnósticos. Quando essas funções estiverem concluídas, a operação do sistema será transferida para o software Cisco IOS. Não é comum ter problemas com firmware, mas pode haver problemas se você usar versões diferentes do código de firmware para os Supervisores e os módulos.

Portanto, é uma prática recomendada garantir que todos os componentes usem o código de firmware mais recente para garantir a inicialização e a comunicação adequadas do módulo. A Cisco recomenda que o gerenciamento de operações execute uma auditoria de rede e atualize todos os componentes de hardware com a versão de firmware mais recente.

Os problemas de firmware conhecidos e os procedimentos de atualização estão documentados em:

Baixe as versões de firmware mais recentes no site da Cisco:

Parafusos de orelhas

Todos os sistemas de rede modulares são projetados para serem inseridos em um painel traseiro do chassi com um conjunto de pinos de interface física. O próprio painel traseiro do chassi é essencialmente uma série de fios interconectados. Os pinos em cada slot do chassi formam a conexão física de dados entre o Supervisor e os módulos Ethernet. Assim, a inserção e o alinhamento adequados desses pinos são críticos.

O Catalyst 6500 fornece trilhos guia e pinos de alinhamento que auxiliam na instalação no chassi. Os pinos do slot (soquetes) e os conectores do módulo são projetados para se conectar facilmente e fornecer conectividade elétrica com capacidade de alta largura de banda. Uma vez inseridos no chassi, há parafusos manuais em ambos os lados do módulo que prendem totalmente os pinos do backplane. Consulte a Nota de Instalação do Módulo Catalyst 6500 Series Switch.

Se um módulo foi inserido corretamente no slot e os parafusos manuais foram apertados corretamente, não são esperados problemas de comunicação. No entanto, várias condições podem ocorrer na inserção diária de módulos que podem levar à inserção incorreta ou até incompleta de pinos:

Força de inserção insuficiente - Se o módulo for parcialmente inserido sem o uso dos parafusos manuais, isso poderá causar paradas de barramento e o módulo não poderá se comunicar com outros módulos. Dependendo do nível de inserção (por exemplo, se houver contato físico limitado), o módulo pode ser capaz de transmitir e receber dados, mas pode experimentar erros de bit que resultam em pacotes corrompidos.
Desalinhamento vertical - Isso ocorre quando apenas um lado do módulo está nos trilhos guia. Isso é facilmente identificado porque o módulo aparece na diagonal e geralmente não se conecta com os pinos do backplane.
Desalinhamento horizontal - Se forem usados parafusos manuais em apenas um lado, alguns dos pinos não encaixam corretamente. Esse é um problema comum, pois o módulo pode parecer estar inserido corretamente. O desalinhamento horizontal é na verdade uma forma de força de inserção insuficiente.

A Cisco recomenda que você implemente um processo de gerenciamento de operações que exija o uso de parafusos manuais em todos os módulos Catalyst 6500 em ambientes de produção. Isso garante a inserção e o alinhamento completos e adequados dos pinos do painel traseiro e evita falhas futuras devido a erros de bit e falhas de comunicação relacionadas.

Erros Graves (Mau Funcionamento)

Os erros de paridade frequentes ou repetíveis (hard) são causados por um mau funcionamento físico da memória ou dos circuitos usados para ler e gravar. Nesses casos, substitua o hardware e peça ao Cisco Technical Assistance Center (TAC) ou ao seu engenheiro de sistemas da Cisco para realizar um EFA no hardware devolvido.

Essas práticas recomendadas reduzem significativamente a probabilidade de erros de paridade difícil.

Auditoria de hardware (MTBF e EOL)

A Cisco recomenda que você execute uma auditoria de rede nos locais de rede afetados. Você pode realizar essa auditoria sozinho ou em coordenação com um representante da Cisco, com uma equipe da Cisco (como o Cisco Advanced Services) ou por meio de um consultor terceirizado.

Todo o hardware (de todos os fornecedores) está sujeito a uma eventual degradação da integridade física, e é importante rastrear o ciclo de vida de todos os componentes de hardware na rede para compreender totalmente a probabilidade de falha de componentes ao longo do tempo.

A confiabilidade do hardware pode ser medida com a estrutura de tempo médio entre falhas (MTBF). Como o MTBF é apenas uma média estatística, isso não significa que uma falha possa ocorrer definitivamente no final do período de tempo do MTBF. No entanto, a probabilidade e a vulnerabilidade de falha de componentes aumentam, de modo que esse hardware pode ser sinalizado para atualização. Consulte as Fichas Técnicas dos Cisco Catalyst 6500 Series Switches para obter valores MTBF específicos para cada produto Catalyst 6500.

O valor de MTBF do nível do sistema do Catalyst 6500 calculado agregado é > 7 anos.

Além da estrutura MTBF, a Cisco também oferece uma estrutura EOL (end-of-life), que define o ciclo de vida esperado de um determinado produto e fornece anúncios aplicáveis para ajudá-lo a atualizar seu equipamento legado. Consulte os Avisos de Fim da Vida Útil e Fim das Vendas de vários produtos Catalyst 6500 legados.

Como resultado dessa auditoria de hardware, a Cisco recomenda que você implemente seu próprio processo de MTBF e EOL que identifique e monitore o hardware para uma possível atualização. Isso garante que o hardware mais recente esteja em execução e minimiza a probabilidade de mau funcionamento do hardware.

Diagnóstico de hardware

O Catalyst 6500 Series e o software Cisco IOS fornecem diagnósticos genéricos on-line (GOLD) e monitoramento de integridade (HM) para todos os componentes de hardware usados no sistema. Os dois tipos básicos de diagnósticos que podem ser ativados são sob demanda e inicialização. Consulte Generic Online Diagnostics on the Cisco Catalyst 6500 Series Switch para obter informações adicionais.

A Cisco recomenda que diagnósticos de inicialização completos sejam habilitados para todos os componentes de hardware para garantir que todos os testes de diagnóstico sejam executados e para confirmar que todos os componentes de hardware estejam funcionando conforme esperado na inicialização.

A Cisco também recomenda que você programe diagnósticos regulares e sob demanda de componentes críticos da infraestrutura, diária ou semanalmente. Além dos diagnósticos de inicialização que ocorrem apenas durante a inicialização, os diagnósticos sob demanda garantem que o hardware continue a operar conforme o esperado. Consulte Catalyst 6500 Release 12.2SX Software Configuration Guide, Interface and Hardware Components, Online Diagnostics para obter mais informações.

Além dos testes de diagnóstico por solicitação padrão, a Cisco recomenda que você habilite esses testes de diagnóstico por solicitação para identificar proativamente os componentes de memória que podem apresentar mau funcionamento:

TestLinecardMemory
TestAsicMemory

Informações Relacionadas

Histórico de revisões

Revisão	Data de publicação	Comentários
2.0	15-Nov-2023	Título atualizado, Introdução, SEO, Tradução automática, Requisitos de estilo, Requisitos de marca, Ortografia e Formatação.
1.0	26-Apr-2013	Versão inicial

Colaborado por engenheiros da Cisco

Engenheiros do Cisco TAC

Este documento lhe foi útil?

Feedback

Contate a Cisco

Abrir um caso de suporte
(É necessário um Contrato de Serviço da Cisco)

Este documento se refere a estes produtos

Catalyst 6500 Series Switches

Guia de Troubleshooting de Erros de Paridade

Opções de download

Linguagem imparcial

Sobre esta tradução

Contents

Introdução

Informações de Apoio

Erros de software

Erros de hardware

Mensagens de erro comuns

Processador

RAM

ASIC

Últimos avanços

Processador

RAM

ASIC

Software

Redefinição de MSFC IBC

Redefinição de "Erro de paridade de bit único" do 6700 Series

Recomendações

Erros de software (SEU)

Auditoria ambiental

Posicionamento do chassi

Aterramento

ESD

Firmware Mais Recente (Rommon)

Parafusos de orelhas

Erros Graves (Mau Funcionamento)

Auditoria de hardware (MTBF e EOL)

Diagnóstico de hardware

Informações Relacionadas

Histórico de revisões

Colaborado por engenheiros da Cisco

Este documento lhe foi útil?

Contate a Cisco

Este documento se refere a estes produtos