Roteadores : Roteadores Cisco 12000 Series

Troubleshooting de Travamentos de Placa de Linha no Cisco 12000 Series Internet Router

12 Agosto 2015 - Tradução por Computador
Outras Versões: Versão em PDFpdf | Inglês (22 Abril 2015) | Feedback


Interativo: Este documento oferece análise personalizada do seu dispositivo Cisco.


Índice


Introdução

Este documento fornece informações sobre como resolver problemas relacionados a travamento da placa de linha em um Cisco 12000 Series Internet Router.

Pré-requisitos

Requisitos

Não existem requisitos específicos para este documento.

Componentes Utilizados

As informações neste documento são baseadas nestas versões de software e hardware:

  • Todos os 12000 Series Internet Routers, incluindo 12008, 12012, 12016, 12404, 12406, 12410 e 12416.

  • Todas as versões de software de Cisco IOS� que apoiam o Cisco 12000 Series Internet Router.

As informações neste documento foram criadas a partir de dispositivos em um ambiente de laboratório específico. Todos os dispositivos utilizados neste documento foram iniciados com uma configuração (padrão) inicial. Se a sua rede estiver ativa, certifique-se de que entende o impacto potencial de qualquer comando.

Convenções

Consulte as Convenções de Dicas Técnicas da Cisco para obter mais informações sobre convenções de documentos.

Informações de Apoio

Esta seção fornece um fundo em como identificar um ruído da placa.

Identifique um ruído da placa

A fim identificar rapidamente um ruído da placa, use o comando show context summary:

   Router#show context summary 
       CRASH INFO SUMMARY 
         Slot 0 : 0 crashes 
         Slot 1 : 0 crashes 
         Slot 2 : 0 crashes 
         Slot 3 : 0 crashes 
         Slot 4 : 1 crashes 
           1 - crash at 04:28:56 EDT Tue Apr 20 1999 
         Slot 5 : 0 crashes 
         Slot 6 : 0 crashes 
         Slot 7 : 0 crashes 
         Slot 8 : 0 crashes 
         Slot 9 : 0 crashes 
         Slot 10: 0 crashes 
         Slot 11: 0 crashes

Se o impacto afeta o roteador próprio (e não a placa de linha somente), refira pesquisando defeitos ruídos elétricos de roteador.

Recolha a informação sobre o impacto

A fim recolher os dados relevantes sobre o impacto, use os comandos mostrados na tabela 1.

Apresente comandos 1 usar-se para recolher dados sobre o impacto

Comando Descrição
show version Fornece a informação geral sobre as configurações de hardware e de software do sistema.
show logging Indica os logs gerais do roteador.
mostre o [slot -] do diag Fornece a informação específica sobre um slot particular: tipo de motor, revisões de hardware, configuração de memória, e assim por diante.
[slot -] do show context slot Fornece a informação de contexto sobre os impactos recentes. Este é frequentemente a maioria de comando útil para pesquisar defeitos ruídos da placa.
dump principal Um dump principal de uma placa de linha é o conteúdo completo de sua memória na altura do impacto. Estes dados não são precisados normalmente para um Troubleshooting inicial. Pode-se exigir mais tarde se o problema despeja ser um Bug de Software novo. Nesse caso, refira configurar um dump principal em uma placa de linha GSR.

Se você tem a saída de um comando do tecnologia-apoio da mostra (do modo enable) de seu dispositivo Cisco, você pode usar-se para indicar problemas potenciais e reparos. A fim usar-se , você deve ser um cliente registrado, ser entrado, e ter o Javascript permitido.

Analise os dados recolhidos

Verifique o valor do campo sig= na saída show context slot [slot#]:

       Router#show context slot 4 
       CRASH INFO: Slot 4, Index 1, Crash at 04:28:56 EDT Tue Apr 20 1999 

       VERSION: 
       GS Software (GLC1-LC-M), Version 11.2(15)GS1a, EARLY DEPLOYMENT RELEASE 
       SOFTWARE (fc1) 
       Compiled Mon 28-Dec-98 14:53 by tamb 
       Card Type: 1 Port Packet Over SONET OC-12c/STM-4c, S/N CAB020500AL 
       System exception: SIG=20, code=0xA414EF5A, context=0x40337424 

       Traceback Using RA 
       STACK TRACE: 
         traceback 4014CFC0 40141AB8 40143944 4014607C 4014A7EC 401499D4 40149BB4 
       40149FD4 40080118 40080104 
       CONTEXT: 
       $0 : 00000000, AT : 40330000, v0 : 00000000, v1 : 00000038 
       a0 : 4094EF58, a1 : 00000120, a2 : 00000002, a3 : 00000001 
       t0 : 00000010, t1 : 3400BF01, t2 : 34008D00, t3 : FFFF00FF 
       t4 : 400A1410, t5 : 00000002, t6 : 00000000, t7 : 4041783C 
       s0 : 4093F980, s1 : 4093F980, s2 : 4094EEF0, s3 : 4094EF00 
       s4 : 00000000, s5 : 00000001, s6 : 00000000, s7 : 00000000 
       t8 : 34008000, t9 : 00000000, k0 : 404D1860, k1 : 400A2F68 
       gp : 402F3070, sp : 4082BFB0, s8 : 00000000, ra : 400826FC 
       EPC : 0x40098824, SREG : 0x3400BF04, Cause : 0x00000000 
       ErrorEPC : 0x4015B7E4

Veja a tabela 2 para encontrar que motivo de erro combina o valor que SIG você gravou.

Tabela 2 – Encontre o erro que combina o valor SIG

Valor de SIG Nome SIG Motivo de erro
2 SIGINT Interrupção de hardware inesperado.
3 SIGQUIT Aborto devido à tecla break.
4 SIGILL Exceção de opcode ilegal.
5 SIGTRAP Aborto devido ao ponto de interrupção ou a uma exceção aritmética.
8 SIGFPE Exceção da unidade de ponto flutuante (FPU).
9 SIGKILL Exceção reservada.
10 SIGBUS Exceção de erro de barramento.
11 SIGSEGV Exceção SegV.
20 SIGCACHE Exceção da paridade de cache.
21 SIGWBERR Interrupção de erro de barramento de gravação.
22 SIGERROR Erro fatal de hardware.
23 SIGRELOAD Travamento forçado por software.

Nota: A exceção da paridade de cache (SIG=20), a exceção de erro de barramento (SIG=10), e os travamentos forçados por software (SIG=23) esclarecem mais de 95% dos ruídos da placa.

O comando de execução diag

O Cisco 12000 Series apoia o comando diag [slot-] para testar os componentes de placa diferentes. Este comando é útil para pesquisar defeitos travamentos relacionados a hardware, e para identificar a placa defeituosa.

A opção eloquente faz com que o roteador indique a lista de testes enquanto estão sendo executados. Se não, indica simplesmente uma mensagem “PASSADA” ou da “FALHA”.

Nota: Executar este diagnóstico para todas as atividades da placa de linha para a duração dos testes (geralmente ao redor cinco minutos).

Começando com Cisco IOS Software Release 12.0(22)S, Cisco unbundled a imagem da placa de linha dos diagnósticos de campo do Cisco 12000 Series Internet Router da imagem do Cisco IOS Software. Nas versões anterior, os diagnósticos poderiam ser lançados da linha de comando e a imagem encaixada seria lançada. A fim acomodar clientes com placas de memória Flash do 20 MB, os diagnósticos de campo da placa de linha agora são armazenados e mantidos como uma imagem separada que deva estar disponível em uma placa de memória Flash ou em um server da bota do Trivial File Transfer Protocol (TFTP) antes que os comandos field diagnostics possam ser usados. Os diagnósticos de campo do processador de roteador e do Switch Fabric continuam a ser empacotados e não precisam de ser lançados de uma imagem separada. Você pode encontrar mais informação em diagnósticos de campo para o Cisco 12000 Series Internet Router.

Está aqui um exemplo de um comando diag [slot-] output:

Router#diag 3 verbose 
Running DIAG config check 
Running Diags will halt ALL activity on the requested slot. 
[confirm] 
CR1.LND10# 
Launching a Field Diagnostic for slot 3 
Downloading diagnostic tests to slot 3 (timeout set to 400 sec.) 
Field Diag download COMPLETE for slot 3 
FD 3> ***************************************************** 
FD 3> GSR Field Diagnostics V3.0 
FD 3> Compiled by award on Tue Aug 3 15:58:13 PDT 1999 
FD 3> view: award-bfr_112.FieldDiagRelease 
FD 3> ***************************************************** 
FD 3> BFR_CARD_TYPE_OC48_1P_POS testing... 
FD 3> running in slot 3 (128 tests) 

Executing all diagnostic tests in slot 3 
(total/indiv. timeout set to 600/200 sec.) 
FD 3> Verbosity now (0x00000001) TESTSDISP 

FDIAG_STAT_IN_PROGRESS: test #1 R5K Internal Cache 
FDIAG_STAT_IN_PROGRESS: test #2 Burst Operations 
FDIAG_STAT_IN_PROGRESS: test #3 Subblock Ordering 
FDIAG_STAT_IN_PROGRESS: test #4 Dram Marching Pattern 
FDIAG_STAT_DONE_FAIL test_num 4, error_code 6 
Field Diagnostic: ****TEST FAILURE**** slot 3: last test run 4, 
Dram Marching Pattern, error 6 
Field Diag eeprom values: run 2 fail mode 1 (TEST FAILURE) slot 3 
last test failed was 4, error code 6 
Shutting down diags in slot 3 

slot 3 done, will not reload automatically

Segundo o erro encontrado, o entalhe pôde ou não pôde automaticamente ser recarregado. Se não é, pôde estar em uma colada ou em um estado inconsistente (verificação com o comando show diag [slot -]) até que recarregado manualmente. Isso é normal. A fim recarregar manualmente o cartão, use o comando hw-module slot [slot-] reload.

Exceções de paridade de cache

Você pode identificar exceções da paridade de cache pelo SIG=20 na saída do [slot -] do contexto da mostra.

Se você tem a saída de um comando do tecnologia-apoio da mostra (do modo enable) de seu dispositivo Cisco, você pode usar-se para indicar problemas potenciais e reparos. A fim usar-se , você deve ser um cliente registrado, ser entrado, e ter o Javascript permitido.

Há dois tipos diferentes de erros de paridade:

  • Erros de paridade de software — Estes ocorrem quando um nível de energia dentro das mudanças da microplaqueta (por exemplo, essa ou um zero). No caso de um erro de paridade suave, não há necessidade de trocar a placa ou qualquer um dos componentes.

  • Erros de paridade difíciis — Estes ocorrem quando há uma microplaqueta ou uma falha do placa que façam com que os dados estejam corrompidos. Neste caso, você deve assentar ou substituir o componente afetado, geralmente umas trocas de chip de memória ou umas trocas de tabulero. Há um erro de paridade difícil quando os erros de paridade múltiplos são considerados no mesmo endereço. Há mais casos complicados que são mais duros de identificar mas, geralmente, se mais de um erro de paridade está considerado em uma região específica de memória relativamente em um período de tempo curto (diversas semanas aos meses), este pode ser considerado um erro de paridade difícil.

Estudos mostram que os erros de paridade suave são de 10 a 100 vezes mais freqüentes que os erros de paridade difícil.

A fim pesquisar defeitos estes erros, encontre uma janela de manutenção para executar o comando diag para esse entalhe.

  • Se o diagnóstico conduz a uma falha, substitua a placa de linha.

  • Se não há nenhuma falha, é provável ser um erro de paridade de software, e a placa de linha não tem que ser substituída (a menos que causa um crash uma segunda vez com erro de paridade após um período de tempo curto).

Exceções de erro de barramento

Você pode identificar exceções de erro de barramento pelo SIG=10 na saída do [slot -] do contexto da mostra.

Se você tem a saída de um comando do tecnologia-apoio da mostra (do modo enable) de seu dispositivo Cisco, você pode usar-se para indicar problemas potenciais e reparos. A fim usar-se , você deve ser um cliente registrado, ser entrado, e ter o Javascript permitido.

Este tipo de travamento é normalmente relacionado ao software, mas se por qualquer motivo (por exemplo, é um cartão brandnew, ou os impactos começam depois que uma interrupção de energia) você pensa o problema poderia ser relacionado a hardware, executa o comando diag para esse entalhe.

Nota: Alguns Bug de Software foram sabidos para causar o comando diag relatar erros, mesmo que não houvesse nenhum problema com o hardware. Se um cartão tem sido substituído já, mas ainda falha no mesmo teste no diagnóstico, você pôde ser afetado por esta edição. Nesse caso, trate o impacto como um problema de software.

Promover à versão a mais atrasada de seu trem de Cisco IOS Software Release elimina todos os erros fixos que causam erros de barramento da placa de linha. Se o impacto está ainda atual depois que a elevação, recolhe a informação relevante (veja a informação do recolhimento sobre o impacto), junto com um tecnologia-apoio da mostra, e toda a informação que você pensar pôde ser útil (como a alteração de topologia recente, ou uns novos recursos executados recentemente) e contacte seu representante de suporte Cisco.

Travamentos forçados por software

Você pode identificar travamentos forçados por software pelo SIG=23 na saída do [slot -] do contexto da mostra. Apesar do nome, estes impactos não são sempre relacionados ao software.

Se você tem a saída de um comando do tecnologia-apoio da mostra (do modo enable) de seu dispositivo Cisco, você pode usar-se para indicar problemas potenciais e reparos. A fim usar-se , você deve ser um cliente registrado, ser entrado, e ter o Javascript permitido.

A maioria de motivo comum para travamentos forçados por software é o “fabric ping timeout”. Durante a operação de roteador normal, o route processor (RP) sibila continuamente as placas de linha. Se uma placa de linha não responde, o processador de rotas decide restaurá-la. Isto conduz a um travamento forçado por software (SIG=23) da placa de linha afetada, e você deve ver estes erros nos logs do roteador:

Mar 12 00:42:48: %GRP-3-FABRIC_UNI: 
Unicast send timed out (4) 
Mar 12 00:42:50: %GRP-3-COREDUMP: Core dump incident on slot 4, error: Fabric ping failure

A fim pesquisar defeitos fabric ping timeout, você precisa de encontrar porque a placa de linha não respondeu ao sibilo. Pode haver umas causas múltiplas:

  • A placa de linha está experimentando a utilização elevada da CPU — Isto pode ser verificado usando o comando execute-on slot [slot -] show proc cpu. Se o CPU é realmente alto (acima de 95%), refira pesquisando defeitos a utilização elevada da CPU em roteadores Cisco.

  • Há Bug de Software no Inter Process Communication (IPC) ou a placa de linha está sendo executado fora dos bufferes IPC. Estes recarregamentos forçada de software são causados na maioria das vezes por Bug de Software.

    Promover à versão a mais atrasada de seu trem de Cisco IOS Software Release elimina todos os erros fixos que causam fabric ping timeout. Se o impacto está ainda atual depois que a elevação, recolhe a informação relevante (veja a obtenção da informação sobre o impacto), junto com um tecnologia-apoio da mostra, um estado ipc da mostra, e toda a informação que você pensar pode ser útil (como a alteração de topologia recente, ou uns novos recursos executados recentemente) e contacte seu representante de suporte Cisco.

  • Falha do hardware — Se o cartão tem sido executado muito bem por muito tempo e nenhuma topologia recente, o software, ou as mudanças da característica ocorreram, ou se os problemas começadas depois que um movimento ou uma interrupção de energia, hardware com defeito podem ser a causa. Execute o comando diag na placa de linha afetada. Substitua a placa de linha, se defeituoso. Se as placas de linha múltiplas são afetadas ou o diag é muito bem, substitua a tela.

%GSRSPA-6-ERRORRECOVER: Um erro de hardware ou de software ocorreu na maravilha do subslot 0.Reason: Novato automático da recuperação de erro TXECCERR

O erro TXECCERR/RXECCERR ocorre quando a interrupção do erro de ECC unrecoverable de RxFIFO ou de TxFIFO ocorre no MAC mais do que o valor de limiar dentro do intervalo de tempo. Os erros de ECC Unrecoverable não podem ser corrigidos pela lógica ECC. Quando um erro irrecuperável ocorre durante RxFIFO leia, o pacote a que os dados pertencem são identificados por meio do EOP/Abort no SPI4 recebem a relação e são rejeitados por camadas superior.

Isto é devido ao hardware e é corrigido uma vez que nós recarregamos o SIP/SPA. A solução permanente é substituir o SIP/SPA a fim evitar os erros.

Outros travamentos

Outros tipos de travamento são, por muito, menos comuns do que os dois mencionados acima. Na maioria dos casos, o comando diag deve indicar se o cartão precisa de ser substituído ou não. Se o cartão passa o teste diagnóstico corretamente, considere promover o software.

Informações a serem coletadas se você abrir um pedido de serviço de TAC

Se você ainda precisa o auxílio após ter seguido os passos de Troubleshooting acima e o quer abrir um pedido do serviço (clientes registrados somente) com o tac Cisco, seja certo incluir a informação seguinte:
  • Troubleshooting executado antes de abrir o pedido do serviço.
  • mostre a saída do Suporte técnico (no modo enable se possível).
  • mostre o registro de saída ou as capturas de console, se disponível.
  • tecnologia da mostra do [slot -] do execute-on slot para o entalhe que experimentou o ruído da placa.
Anexe os dados recolhidos a seu pedido do serviço em não-compactado (zip), formato em texto simples (.txt). Você pode anexar a informação a seu pedido do serviço transferindo arquivos pela rede o que usa a ferramenta do pedido do serviço TAC (clientes registrados somente). Se você não pode alcançar a ferramenta do pedido do serviço, você pode enviar a informação em um anexo de Email a attach@cisco.com com seu número do pedido do serviço na linha de assunto de sua mensagem.

Nota: Não recarregue manualmente ou ciclo de energia o roteador antes de recolher a informação acima a menos que exigido para pesquisar defeitos um ruído da placa no Cisco 12000 Series Internet Router, como este pode fazer com que a informação importante seja perdida que é precisada determinando a causa de raiz do problema.

Discussões relacionadas da comunidade de suporte da Cisco

A Comunidade de Suporte da Cisco é um fórum onde você pode perguntar e responder, oferecer sugestões e colaborar com colegas.


Informações Relacionadas


Document ID: 12770