Switches : Switches Cisco Catalyst 6500 Series

Guia de Troubleshooting dos erros de paridade

18 Junho 2016 - Tradução por Computador
Outras Versões: Versão em PDFpdf | Feedback

Introdução

Este documento descreve o delicado e os erros de paridade difíciis, explica mensagens de erro comum, e recomenda os métodos que o ajudam a evitar ou minimizar erros de paridade. As melhorias recentes no projeto de hardware e software reduzem problemas da paridade também.

Contribuído por Shawn Wargo, planejamento de Cisco.

Background

Que é um processador ou um erro de paridade de memória?

A verificação de paridade é o armazenamento de um dígito binário extra (mordido) a fim representar a paridade (impar ou mesmo) de uma quantidade pequena de dados do computador (tipicamente um byte) quando esses dados forem armazenados na memória. O valor de paridade calculado dos dados armazenados é comparado então ao valor de paridade final. Se estes dois valores diferem, este indica um erro de dados, e pelo menos um bit deve ter sido mudado devido ao corrompimento de dados.

Dentro de um sistema de computador, a interferência elétrica ou magnética das causas internas ou externos pode fazer com que um único bit da memória lance espontaneamente ao estado oposto. Este evento faz os bit de dados originais inválidos e é sabido como um erro de paridade.

Tais erros de memória, se indetectados, podem ter resultados indetectáveis e inconsequentes ou podem causar a corrupção permanente de dados armazenados ou de um impacto da máquina.

Há muitas causas dos erros de paridade de memória, que são classificados como erros de paridade de software ou erros de paridade difíciis.

Erros de software

A maioria de erros de paridade são causados por condições ambientais eletrostáticas ou magnético-relacionadas.

A maioria de erros do único-evento nos chip de memória é causada pela radiação de fundo (tal como nêutrons dos raios cósmicos), pelas interferências eletromagnética (EMI), ou pela descarga eletrostática (ESD). Estes eventos podem aleatoriamente mudar o estado elétrico de umas ou várias células de memória ou podem interferir com os circuitos usados para ler e escrever células de memória.

Sabido como erros de paridade de software, estes eventos são tipicamente transientes ou aleatórios e ocorrem geralmente uma vez. Os erros de software podem ser menores ou severos:

  • Os erros de software menores que podem ser corrigidos sem restauração componente são os singles event upset (SEU).
  • Os erros de software severos que exigem um componente ou uma reinicialização de sistema são únicos latchups do evento (SELs).

Os erros de software não são causados pelo mal-funcionamento de hardware; são transientes e raros, são na maior parte prováveis um SEU, e são causados por um rompimento ambiental dos dados da memória.

Se você encontra erros de paridade de software, analise as mudanças ambientais recentes que ocorreram no lugar do sistema afetado. Os origens comuns do ESD e do EMI que podem causar erros de paridade de software incluem:

  • Cabos de potência e fontes
  • Unidades da distribuição de energia
  • Fontes de alimentação universais
  • Sistemas de iluminação
  • Geradores de potência
  • Facilidades nucleares (radiação)
  • Alargamentos solares (radiação)

Erros de hard

Outros erros de paridade são causados por um mau funcionamento físico do hardware da memória ou pelos circuitos usados para ler e escrever células de memória.

Os fabricantes de hardware tomam medidas extensivas impedir e testar para defeitos de hardware. Contudo, os defeitos são ainda possíveis; por exemplo, se algumas das células de memória usadas para armazenar bit de dados são deformados, podem ser incapazes de guardar uma carga ou podem ser mais vulneráveis às condições ambientais.

Similarmente, quando a memória própria puder se operar normalmente, algum dano físico ou elétrico aos circuitos usados para ler e escrever células de memória pode igualmente fazer com que os bit de dados sejam mudados durante transferência, que conduz a um erro de paridade.

Sabido como erros de paridade difíciis, estes eventos são tipicamente muito frequentes e repetidos e ocorrem sempre que a memória ou os circuitos afetados são usados. A frequência exata depende da extensão do mau funcionamento e como o equipamento danificado é usado frequentemente.

Recorde que os erros de paridade difíciis são o resultado de um mal-funcionamento de hardware e reoccur sempre que o componente afetado é usado.

Se você encontra erros de paridade difíciis, analise as mudanças físicas que ocorreram no lugar do sistema afetado. Os origens comuns do mal-funcionamento de hardware que podem conduzir aos erros de paridade difíciis incluem:

  • Oscilações de energia (nenhuma terra)
  • ESD
  • Superaquecimento ou refrigerar
  • A instalação incorreta ou parcial
  • Incompatibilidade componente
  • Defeito de fabricação

Mensagens de erro comum

O software do ® do Cisco IOS fornece uma variedade de mensagens de erro de paridade, que variam com o componente afetado e seu impacto relativo no sistema.

Processador

Erro do esconderijo detectado!
  CP0_CAUSE (registro 13/0): 0x00000400
  CPO_ECC (registro 26/0): 0x000000B3
  CPO_BUSERRDPA (registro 26/1): 0x000000B3
  CPO_CACHERI (registro 27/0): 0x20000000

Erro real do esconderijo detectado.  O sistema será parado.

Erro: Cache de instrução preliminar, campos: dados,
ADDR físico real 0x00000000,
o endereço virtual é imprecisa.

 Erro de paridade imprecisa dos dados

ExplicaçãoEste é o resultado de um erro de paridade dentro do esconderijo do nível 2 (L2) (memória estática de acesso aleatório, ou do SRAM) usados pelo route processor (RP) ou pelo switch processor (SP) CPU do Multilayer Switch Feature Card 3 (MSFC3).
RecomendaçãoMonitore o sistema regularmente para o recorrente. Se nenhum evento mais adicional é observado, é um erro de software. Se o erro ocorre frequentemente, peça uma autorização de material do retorno (RMA) a fim substituir o Supervisor Engine, e marque o módulo para a análise da falha de equipamento (EFA).
%SYSTEM_CONTROLLER-3-ERROR: Error condition detected: SYSAD_PARITY_ERROR
ExplicaçãoEste é o resultado de um erro de paridade no endereço de sistema (barramento de dados) usado pelo controlador da Em-faixa (IBC) do MSFC3.
RecomendaçãoMonitore o sistema regularmente para o recorrente. Se nenhum evento mais adicional é observado, é um erro de software. Se o erro ocorre frequentemente, peça um RMA a fim substituir o Supervisor Engine, e marque o módulo para o EFA.
%SYSTEM_CONTROLLER-3-ERROR: Error condition detected: TM_DATA_PARITY_ERROR
ExplicaçãoEste é o resultado de um erro de paridade nos dados do gerente da tabela usados pelo IBC do MSFC3.
RecomendaçãoMonitore o sistema regularmente para o recorrente. Se nenhum evento mais adicional é observado, é um erro de software. Se o erro ocorre frequentemente, peça um RMA a fim substituir o Supervisor Engine, e marque o módulo para o EFA.
%SYSTEM_CONTROLLER-3-ERROR: Error condition detected: TM_NPP_PARITY_ERROR
ExplicaçãoEste é o resultado de um erro de paridade no gerente “ponteiro seguinte da tabela da página” usado pelo IBC do MSFC3.
Recomendação

Monitore o sistema regularmente para o recorrente. Se nenhum evento mais adicional é observado, é um erro de software. Se o erro ocorre frequentemente, peça um RMA a fim substituir o Supervisor Engine, e marque o módulo para o EFA.

Em versões de Cisco IOS Software entre 12.1(8)E e 12.2(33)SXI3, o comportamento padrão em resposta aos eventos SYSTEM_CONTROLLER-3-ERROR era restaurar o IBC e registrar um Mensagem de Erro.

Contudo, esta ação corretiva conduziu a algum casos documentados do IBC (e assim, CPU) já não podendo transmitir ou receber dados. Assim, o comportamento foi mudado em versões de Cisco IOS Software mais tarde do que 12.2(33)SXI4 para registrar um Mensagem de Erro e para restaurar o sistema; refira a identificação de bug Cisco CSCtf51541.

Interrompa a exceção, o sinal 20 CPU, PC = 0x[dec]
ExplicaçãoEste é o resultado de um erro de paridade do único-bit no esconderijo CPU L2 (SRAM) usado pelos módulos do Cisco Catalyst 6700 Series.
Recomendação

Monitore o sistema regularmente para o recorrente. Se nenhum evento mais adicional é observado, é um erro de software. Se o erro ocorre frequentemente, peça um RMA a fim substituir o módulo 6700, e marque o módulo para o EFA.

Em versões de Cisco IOS Software mais cedo do que 12.2(33)SXI5, um Bug de Software (identificação de bug Cisco CSCtj06411) faria com que mesmo os erros de paridade do único-bit restaurassem o módulo 6700. Isto foi resolvido nas versões 12.2(33)SXI6 e 12.2(33)SXJ para o Supervisor Engine 720 e na versão 15.0SY para o Supervisor Engine 2T.

RAM

%SYSTEM_CONTROLLER-3-ERROR: Error condition detected: SYSDRAM_PARITY_ERROR
ExplicaçãoEste é o resultado de um erro de paridade do incorrigível nos módulos de memória do DRAM síncrono (SDRAM) (DIMM) usados pelo MSFC3.
RecomendaçãoMonitore o sistema regularmente para o recorrente. Se nenhum evento mais adicional é observado, é um erro de software. Se o erro ocorre frequentemente, limpe e assente o DIMM, e continue a monitorar. Se o erro continua, peça um RMA a fim substituir ou promover o DIMM.
%SYSTEM_CONTROLLER-3-COR_MEM_ERR: Erro de memória DRAM corrigível. [dec] da contagem, [hex] do log
ExplicaçãoEste é o resultado de um erro de paridade corrigível no SDRAM (DIMM) usado pelo MSFC3.
RecomendaçãoMonitore o sistema regularmente para o recorrente. Se nenhum evento mais adicional é observado, é um erro de software. Se o erro ocorre frequentemente, limpe e assente o DIMM, e continue a monitorar. Se o erro continua, peça um RMA a fim substituir ou promover o DIMM.
%MWAM-DFC[dec]-0-CORRECTABLE_ECC_ERR: Um erro de ECC corrigível ocorreu, A_BUS_L2_ERRORS: 0x10000, A_BUS_MEMIO_ERRORS: 0x0, A_SCD_BUS_ERR_STATUS: 0x80983000
Explicação

Este é o resultado de um erro de paridade do único-bit no DRAM usado pelos módulos do 6700 Series.

Recomendação

Monitore o sistema regularmente para o recorrente. Se nenhum evento mais adicional é observado, é um erro de software. Se o erro ocorre frequentemente, limpe e assente o DIMM, e continue a monitorar. Se o erro continua, peça um RMA a fim substituir ou promover o DIMM.

%PM_SCP-SP-2-LCP_FW_ERR_INFORM: O [dec] do módulo está experimentando o seguinte erro: Erro de paridade LTL detectado na bobina # no [dec].
ExplicaçãoEste é o resultado de um erro de paridade no SRAM usado pelos módulos do Cisco catalyst 6100 e do Cisco Catalyst 6300 Series.
Recomendação

Monitore o sistema regularmente para o recorrente. Se nenhum evento mais adicional é observado, é um erro de software. Se o erro ocorre frequentemente, peça um RMA a fim substituir o módulo 6100 ou 6300, e marque o módulo para o EFA.

%SYS-4-SYS_LCPERR4: Module [dec]: Erro de paridade LTL detectado na bobina # no [dec]
ExplicaçãoEste é o resultado de um erro de paridade no SRAM usado pelos módulos do 6100 e 6300 Series.
RecomendaçãoMonitore o sistema regularmente para o recorrente. Se nenhum evento mais adicional é observado, é um erro de software. Se o erro ocorre frequentemente, peça um RMA a fim substituir o módulo 6100 ou 6300, e marque o módulo para o EFA.

ASIC

%PM_SCP-SP-2-LCP_FW_ERR_INFORM: O [dec] do módulo está experimentando o seguinte erro: Mova a falha do buffers de pacotes ASIC ([name]) detectada no [dec] das portas
ExplicaçãoEste é o resultado de um erro de paridade no buffers de pacotes da porta ASIC (SRAM) usado pelos módulos de Ethernet do Cisco Catalyst 6148A Series.
Recomendação

Monitore o sistema regularmente para o recorrente. Se nenhum evento mais adicional é observado, é um erro de software. Se o erro ocorre frequentemente, peça um RMA a fim substituir o módulo 6148A, e marque o módulo para o EFA.

%LTL-SP-2-LTL_PARITY_CHECK: Pedido da verificação de paridade LTL para 0x[hex]
ExplicaçãoEste é o resultado de um erro de paridade na tabela de deslocamento predeterminado de porta da porta ASIC (SRAM) usada pelos módulos do Catalyst 6100-6500 e 6700 Series.
RecomendaçãoMonitore o sistema regularmente para o recorrente. Se nenhum evento mais adicional é observado, é um erro de software. Se o erro ocorre frequentemente, peça um RMA a fim substituir o módulo, e marque o módulo para o EFA.

Refira estes documentos do Cisco IOS Software para uma lista abrangente dos Mensagens de Erro:

Os determinados comandos de exibição dos apoios da ferramenta Output Interpreter (clientes registrados somente). Use a ferramenta Output Interpreter a fim ver uma análise do emissor de comando de execução.

Os avanços os mais atrasados

A pesquisa no campo dos erros de paridade é em curso, e não cada encenação pode ser endereçada, mas as organizações do desenvolvimento do hardware e software do Cisco catalyst 6500 continuam a introduzir maneiras novas, tais como a proteção do código de correção do erro (ECC), de minimizar e abrandar a ocorrência dos erros de paridade.

Quando este documento começou com o exame da terceira geração (WS-XSUP720 e 6700 Series adiantado) de Produtos do Catalyst 6500, esta seção resume as melhorias introduzidas com a quarta geração (VS-S720-10G e 6700 Series mais atrasado) e a quinta geração (VS-SUP2T-10G e 6900 Series).

Processador

Os recursos de módulo VS-S720-10G um daughterboard MSFC3 mais novo, com um IBC novo e uma computação do conjunto de instruções reduzida (RISC) actualizado RP e SP CPU SR7010A que se opere em 600Mhz cada um. Os esconderijos do nível 1 (L1), L2, e do nível 3 (L3) são capazes da detecção de paridade. O IBC mais novo tem toda a funcionalidade da geração mais adiantada e adiciona a proteção ECC (correção do único-bit, detecção dos vários bits) aos SRAM anexados.

Os módulos do 6700 Series apoiam um CPU com esconderijo L2 ECC-protegido (o esconderijo L1 é detecção de paridade capaz), que pode corrigir erros de paridade do único-bit sem a necessidade de restaurar. Contudo, devido à identificação de bug Cisco CSCsz39222, a versão 12.2SXI do Cisco IOS Software (Supervisor Engine 720) restaura o módulo de qualquer maneira se um erro de paridade de cache do único-bit CPU ocorre. Isto é resolvido nas versões 12.2SXJ (Supervisor Engine 720) e no 15.0SY (Supervisor Engine 2T) do Cisco IOS Software.

O VS-SUP2T-10G caracteriza um daughterboard MSFC5 novo com um IBC integrado e um novo escolhe, o duplo-núcleo MPC8572 PPC RP CPU (com esconderijo L2 e L3 ECC-protegido, o esconderijo L1 é detecção de paridade capaz) que se opera em 1.5Ghz pelo núcleo. Igualmente caracteriza um processador de gerenciamento novo, separado, da conectividade out-of-band (CMP) CPU e um DRAM ECC-protegido, que esteja disponível mesmo se o RP CPU é indisponível no momento.

O IBC novo tem toda a funcionalidade de umas gerações mais adiantadas e apoia a proteção ECC para os SRAM anexados e as melhorias na manipulação de erro de paridade. O MSFC5 novo igualmente caracteriza uma ROM a bordo do registo de falha (OBFL), que armazene toda a inicialização de módulo e eventos dos diagnósticos. O projeto novo do único CPU igualmente reduz a probabilidade estatística de eventos de erro de paridade.

Os módulos do 6900 Series apoiam um CPU mais novo com esconderijo L1 e L2 ECC-protegido, que pode corrigir erros de paridade do único-bit sem a necessidade de restaurar. A nova geração apoia o mesmo IBC, e o software que segura para a correção de erros da paridade do único-bit foi incorporado.

RAM

O VS-S720-10G com MSFC3 caracteriza a dobro-DATA-taxa (DDR) SDRAM com a proteção ECC, operando-se em 266Mhz.

Os módulos do 6700 Series apoiam DDR SDRAM com a proteção ECC, operando-se em 266Mhz.

A único-data-taxa comparada (SDR) SDRAM, a interface sdram DDR torna umas taxas de transferência mais altas possíveis por mais controle estrito do sincronismo dos dados e dos sinais do relógio elétricos. A interface DDR usa o bombeamento dobro (transferência de dados nas bordas de aumentação e de queda do sinal do relógio) a fim abaixar a frequência de relógio. Uma mais baixa frequência de relógio reduz as exigências da integridade de sinal na placa de circuito que conecta a memória ao controlador.

O VS-SUP2T-10G com MSFC5 caracteriza DDR3 SDRAM com a proteção ECC, operando-se em 667Mhz.

Os módulos do 6900 Series apoiam DDR3 SDRAM com a proteção ECC, operando-se em 667Mhz.

As vantagens principal de DDR3 SDRAM sobre seus antecessores imediatos (DDR2 e DDR) são sua capacidade para transferir duas vezes dados na taxa (oito vezes a velocidade de suas disposições da memória interna), que permite taxas de dados da largura de banda mais alta ou do pico. A memória DDR3 igualmente reduz o consumo de energia por 30%, mesmo que use o mesmo padrão de sinalização elétrico que o DDR e o DDR2.

ASIC

O VS-S720-10G com PFC3C caracteriza buffers de pacotes SRAM com proteção ECC. Isto fornece a correção de erros da paridade do único-bit sem a reinicialização de módulo, assim como a detecção de erro de paridade de vários bits.

O 6700 Series com DFC3C caracteriza buffers de pacotes SRAM com proteção ECC. Isto fornece a correção de erros da paridade do único-bit sem a reinicialização de módulo, assim como a detecção de erro de paridade de vários bits.

O VS-SUP2T-10G com PFC4 caracteriza buffers de pacotes SRAM com proteção ECC. Isto fornece a correção de erros da paridade do único-bit sem a reinicialização de módulo, assim como a detecção de erro de paridade de vários bits.

O 6900 Series com DFC4 caracteriza buffers de pacotes SRAM com proteção ECC. Isto fornece a correção de erros da paridade do único-bit sem a reinicialização de módulo, assim como a detecção de erro de paridade de vários bits.

Software

O Cisco IOS Software é projetado apoiar a proteção ECC. Se um componente de hardware que apoie a proteção ECC experimenta um SEU, o código deve corrigir os dados corrompidos ou restaurar o componente afetado e não exigir uma reinicialização de hardware completa do módulo afetado. 

Contudo, nas versões anterior do Cisco IOS Software, há algumas exceções onde o comportamento foi mudado intencionalmente ou os maus funcionamentos devido a um Bug de Software. Estão aqui duas exceções notável.

Restauração MSFC IBC

Em versões de Cisco IOS Software entre 12.1(8)E e 12.2(33)SXI3, o comportamento padrão em resposta aos eventos SEU SYSTEM_CONTROLLER-3-ERROR era restaurar o IBC e registrar um Mensagem de Erro. Contudo, esta ação corretiva conduziu a algum casos documentados do IBC (e assim, CPU) já não podendo transmitir ou receber dados.

Assim, o comportamento foi mudado após a versão 12.2(33)SXI4 (identificação de bug Cisco CSCtf51541) para registrar um Mensagem de Erro e para restaurar o sistema. Quando esta reação puder parecer mais severa, é preferível restaurar o sistema e corrigir a estrutura de memória do que para ter um sistema sem resposta.

Uma característica agora durante o processo de desenvolvimento (identificação de bug Cisco CSCtr89859) adicionará um comando line interface (cli) novo que o deixe comutar o comportamento padrão. Este realce é o mais aplicável aos sistemas que usam um único supervisor e não têm assim nenhuma redundância de supervisor.

Restauração do erro de paridade do Único-bit do 6700 Series”

Nas versões de Cisco IOS Software um than12.2(33)SXI5 mais adiantado, um Bug de Software (identificação de bug Cisco CSCtj06411) faria com que mesmo os erros de paridade do único-bit restaurassem o módulo 6700. Este normalmente seria um erro de paridade corrigível e não exigiria o módulo ser restaurado.

Este erro foi resolvido nas versões 12.2(33)SXI6+ e 12.2SXJ para o Supervisor Engine 720 e na versão 15.0SY para o Supervisor Engine 2T. Depois que uma elevação à versão apropriada, o módulo 6700 registra simplesmente um Mensagem de Erro e continua a se operar.

Recomendações

Por este ponto, você determinou provavelmente se você encontrou um delicado ou um erro de paridade difícil. Quando isto puder endereçar um único incidente, outras vulnerabilidades do erro de paridade podem ainda existir, assim que você deve tomar mais abordagem abrangente a sua toda a rede.

Assim, Cisco e a unidade de negócio do Catalyst 6500 recomendam que você revê estes procedimentos da mitigação e toma ações corretiva apropriadas a fim eliminar ou reduzir os erros de paridade futuros.

Erros de software (SEU)

Os únicos erros de paridade (macios) do evento são causados por condições ambientais e podem ocorrer somente uma vez (SEU) ou muito raramente, como mensal ou anualmente. Embora você não precise de substituir o hardware, você quer abrandar ocorrências futuras.

Estes melhores prática reduzem significativamente a probabilidade dos erros de paridade de software.

Auditoria ambiental

Cisco recomenda que você executa uma auditoria ambiental de seus locais de rede afetados. Você pode executar esta auditoria você mesmo ou na coordenação com um representante do Cisco, com uma equipe de Cisco (tal como Serviços avançados de Cisco), ou através de um consultante da terceira.

A cobertura e a complexidade exatas de uma auditoria ambiental dependem de muitas variáveis diferentes tais como a localização geográfica, a construção e o tamanho e o projeto da sala, projeto e disposição elétrica, e outros fatores relacionados.

Considere que fontes ambientais de ESD e de EMI podem existir em ou por volta de sua rede. Estes são os origens comuns da interferência que podem conduzir a um erro de paridade de software:

  • Cabos de potência e fontes
  • Unidades da distribuição de energia
  • Fontes de alimentação universais
  • Sistemas de iluminação
  • Geradores de potência
  • Facilidades nucleares (radiação)
  • Alargamentos solares (radiação)

Colocação do chassi

Os SEU podem ocorrer se as unidades da distribuição de energia, os geradores de potência, ou os sistemas de iluminação são demasiado próximos ao chassi ou se os cabos de potência múltiplos são ou ao lado do chassi.

É importante fornecer a distância adequada entre o chassi do Catalyst 6500 e estas fontes elétricas e magnéticas. As distâncias recomendadas variam pelo componente e estão disponíveis das folha de dados componentes.

Geralmente, Cisco recomenda-o encontra sistemas pelo menos três a seis polegadas dos origens comuns da interferência elétrica e magnética. Os cabos de potência devem ser distribuídos abaixo e longe do chassi, na medida do possível, e não devem ser colocados em pacotes firmemente embalados ou nos números grandes através ou ao lado do chassi.

Aterrar

As flutuações e as oscilações de energia da potência são relativamente comuns, e as fontes de alimentação do Catalyst 6500 são projetadas acomodar variações pequenas na corrente da tensão.

Contudo, é crítico fornecer aterrar elétrico apropriado para o chassi e a cremalheira assim que toda a tensão elétrica adicional é desenhada longe do sistema. Sem aterramento apropriado, as oscilações de energia podem conduzir a dano ou ao mau funcionamento em vários ASIC e em componentes de memória. Refira o Guia de Instalação do Catalyst 6500 Series Switch, instalando o interruptor, estabelecendo a terra do sistema, para mais informação.

ESD

O ESD pode facilmente danificar componentes críticos sem nenhum prejuízo visível. As medidas preventivas apropriadas devem ser incorporadas em políticas de operação do laboratório, mas tais medidas são frequentemente e infelizmente ignorado devido à oportunidade e ao descuido limitado.

Cisco recomenda que seu Gerenciamento de operações do laboratório, junto com o Cisco Systems, executa uma auditoria ambiental de todas as áreas de rede ou, pelo menos, de todas as áreas que exibiram falhas do hardware ou foram designadas como a missão crítica. Uma vez a auditoria está completa, Cisco recomenda que você executa uma lista de verificação ambiental estandardizada para todos os sistemas recentemente instalados a fim evitar os eventos futuros da paridade SEU.

Firmware mais recente (Rommon)

Os componentes de hardware do Catalyst usam o código do firmware (igualmente conhecido como Rommon) para inicializar, comunicar, e executar diagnósticos. Uma vez que estas funções estão completas, a operação de sistema está virada ao Cisco IOS Software. É raro experimentar edições com firmware, mas pode haver umas edições se você usa o código diferente das versões de firmware para os supervisores e os módulos.

Assim, é um melhor prática assegurar-se de que todos os componentes usem o código do firmware mais recente a fim assegurar a iniciação e a comunicação do módulo apropriado. Cisco recomenda que seu Gerenciamento de operações executa uma auditoria de rede e promove todos os componentes de hardware com a versão do firmware mais recente.

As edições e os procedimentos de upgrade conhecidos do firmware são documentados em:

Transfira as versões do firmware mais recente da site da Cisco na Web:

Parafusos borboleta

Todos os sistemas de rede de comunicação modulares são projetados introduzir em um chassi de placa mãe com um grupo de pinos da interface física. O chassi de placa mãe próprio é essencialmente uma série de fios interconectados. Os pinos em cada slot de chassi formam a conexão de dados físicos entre o supervisor e os módulos de Ethernet. Assim, a inserção apropriada e o alinhamento destes pinos são críticos.

O Catalyst 6500 fornece os trilha-guia e os pinos de alinhamento que ajudam na instalação no chassi. Os pinos do entalhe (soquetes) e os conectores de módulo são projetados contratar e fornecer facilmente a conectividade elétrica capaz da largura de banda elevada. Introduzido uma vez no chassi, há os parafusos borboleta em ambos os lados do módulo que contratam inteiramente os pinos do backplane. Refira a nota da instalação do módulo do Catalyst 6500 Series Switch.

Se um módulo esteve introduzido corretamente no entalhe e os parafusos borboleta estiveram apertados corretamente, nenhum problema de comunicação está esperado. Contudo, diversas circunstâncias podem ocorrer na inserção do dia a dia dos módulos que podem conduzir à inserção imprópria ou mesmo incompleta do pino:

  • Insuficiente força da inserção - Se o módulo é introduzido parcialmente sem uso dos parafusos borboleta, este pode causar tendas do barramento, e o módulo não pode poder comunicar-se com outros módulos. Segundo o nível da inserção (por exemplo, se há um contato físico limitado), o módulo pode poder transmitir e receber dados, mas pode experimentar os erros de bit que conduzem aos pacotes corrompidos.
  • Desalinhamento vertical - Isto ocorre quando somente um lado do módulo está nos trilha-guia. Isto é identificado facilmente porque o módulo aparece diagonal e não conecta geralmente com os pinos do backplane.
  • Desalinhamento horizontal - Se os parafusos borboleta são usados em somente um lado, alguns dos pinos não contratam corretamente. Este é um problema comum, porque o módulo pode parecer ser introduzido corretamente. O desalinhamento horizontal é realmente um formulário da insuficiente força da inserção.

Cisco recomenda que você executa um processo de gerenciamento da operação que encarregue do uso dos parafusos borboleta em todos os módulos do Catalyst 6500 nos ambientes de produção. Isto assegura a inserção e o alinhamento apropriados e completos dos pinos do backplane e impede as falhas futuras devido aos erros de bit e às falhas de comunicação relacionadas.

Erros de hard (mau funcionamento)

Os erros de paridade (duros) frequentes ou repetíveis são causados pelo mau funcionamento físico da memória ou dos circuitos usada para ler e escrever. Nesses casos, substitua o hardware e peça que o centro de assistência técnica da Cisco (TAC) ou seu coordenador do Cisco Systems conduzam um EFA no hardware retornado.

Estes melhores prática reduzem significativamente a probabilidade dos erros de paridade difíciis.

Auditoria do hardware (MTBF e EOL)

Cisco recomenda que você executa uma auditoria de rede de seus locais de rede afetados. Você pode executar esta auditoria você mesmo ou na coordenação com um representante do Cisco, com uma equipe de Cisco (tal como Serviços avançados de Cisco), ou através de um consultante da terceira.

Todo o hardware (de todos os vendedores) é sujeito à degradação eventual da integridade física, e a ele é importante seguir o ciclo de vida de todos os componentes de hardware em sua rede a fim compreender inteiramente ao longo do tempo a probabilidade da falha de componente.

A confiabilidade de hardware pode ser medida com a estrutura do Mean Time Between Failure (MTBF). Desde que o MTBF é somente uma média estatística, este não significa que uma falha ocorrerá definidamente no fim do período de tempo MTBF. Contudo, a probabilidade e a vulnerabilidade de aumentos da falha de componente, assim que de tal hardware devem ser embandeiradas para refrescam. Refira as folhas de dados dos Cisco Catalyst 6500 Series Switch para valores específicos MTBF para cada produto do Catalyst 6500.

O valor calculado agregado MTBF do “nível de sistema” do Catalyst 6500 é > os anos 7.

Além do que a estrutura MTBF, Cisco igualmente fornece uma estrutura do fim da vida útil (EOL), que defina o ciclo de vida previsto de um produto dado e forneça anúncios aplicáveis a fim o ajudar a refrescar seu equipamento legado. Refira as observações do fim da vida útil e da Fim--venda para o vário Produtos do Catalyst 6500 do legado.

Em consequência desta auditoria do hardware, Cisco recomenda que você executa seu próprio processo MTBF e EOL que identifica e o hardware das trilhas para o potencial refresca. Isto assegura-se de que o hardware o mais atrasado esteja sendo executado e minimiza-se a probabilidade do mal-funcionamento de hardware.

Diagnósticos de hardware

O Catalyst 6500 Series e o Cisco IOS Software fornecem diagnósticos genéricos dos diagnósticos on-line (OURO) e do monitoramento de funcionamento (HM) para todos os componentes de hardware usados no sistema. Os dois tipos básicos de diagnósticos que podem ser permitidos são por encomenda e inicialização. Refira diagnósticos on-line genéricos no Cisco Catalyst 6500 Series Switch para a informação adicional.

Cisco recomenda que os diagnósticos de inicialização “completos” estejam permitidos para todos os componentes de hardware a fim se assegurar de que todos os testes diagnósticos estejam executados e para confirmar que todos os componentes de hardware estão funcionando como esperado em cima da inicialização.

Cisco igualmente recomenda que você programa diagnósticos regulares, por encomenda de componentes da infraestrutura crítica em um diário ou semanal. Além dos diagnósticos de inicialização que ocorrem somente durante a iniciação, os diagnósticos por encomenda asseguram-se de que o hardware continue a se operar como esperado. Refira o manual de configuração do software, a relação e os componentes de hardware da liberação 12.2SX do Catalyst 6500, diagnósticos on-line para mais informação.

Além do que os testes diagnósticos por encomenda do padrão, Cisco recomenda que você permite estes testes diagnósticos por encomenda a fim identificar dinamicamente os componentes de memória que puderam funcionar mal:

  • TestLinecardMemory
  • TestAsicMemory

Discussões relacionadas da comunidade de suporte da Cisco

A Comunidade de Suporte da Cisco é um fórum onde você pode perguntar e responder, oferecer sugestões e colaborar com colegas.