Roteadores : Roteadores Cisco 12000 Series

Troubleshooting de Intervalos de Ping de Construção e Falhas no Cisco 12000 Series Internet Router

12 Agosto 2015 - Tradução por Computador
Outras Versões: Versão em PDFpdf | Inglês (22 Abril 2015) | Feedback


Índice


Introdução

Este documento explica como pesquisar defeitos fabric ping timeout e falhas no Cisco 12000 Series Internet Router. Tais falhas são indicadas pelos seguintes Mensagens de Erro:

%GRP-3-FABRIC_UNI: Unicast send timed out (3)

e

%GRP-3-COREDUMP: Core dump incident on slot 3, error: Fabric ping failure (seq:29192)

Antes de Começar

Convenções

Para obter mais informações sobre convenções de documento, consulte as Convenções de dicas técnicas Cisco.

Pré-requisitos

Não existem requisitos específicos para este documento.

Componentes Utilizados

As informações neste documento são baseadas na versão de hardware abaixo.

  • Cisco 12000 Series Internet Routers

As informações neste documento foram criadas a partir de dispositivos em um ambiente de laboratório específico. Todos os dispositivos utilizados neste documento foram iniciados com uma configuração (padrão) inicial. Se você estiver trabalhando em uma rede ativa, certifique-se de que entende o impacto potencial de qualquer comando antes de utilizá-lo.

Background

O GRP e os Lind Cards (LCs) no Cisco 12000 Series Internet Router são conectados por meio do Switch Fabric de barras cruzadas, que fornecerá um caminho físico de alta velocidade para a maior parte da comunicação entre placas. Entre as mensagens passadas entre o GRP e as placas de linha sobre o Switch Fabric são os pacotes reais incluídos que estão sendo distribuídos e recebidos, informação de encaminhamento, estatísticas de tráfego, e a maioria Gerenciamento e de informação de controle. Portanto, é importante para o GRP assegurar-se de que este caminho esteja operando corretamente.

Os ping de construção são um de quatro aplicativos que são executado entre o GRP e o Switch Fabric. IPC (Inter-Processor Communication), pacotes de rede e downloads de códigos são os outros. Os ping de construção são executados para fornecer parte de um algoritmo e um mecanismo de manutenção de atividade da detecção de falha executados usando bufferes no barramento de manutenção (MBUS) e nos sibilos através das interfaces de construção da placa de linha.

Os drivers de Interface de Estrutura Cisco Cell Segmentation and Reassembly (CSAR) nas mensagens de identificação GRP devem ser enviadas e recebidas entre o Switch Fabric e o GRP. Isso inclui pings de telas. Os pings de construção são gerados pelo software e enviados do GRP principal para cada placa de linha a cada 6 segundos. Cada vez que uma placa de linha recebe uma solicitação de ping do GRP, o LC envia para trás uma resposta ao GRP. Se o GRP não receber nenhuma resposta para cinco pings de tela consecutivos (tempo total de 30 segundos), ele declara a placa de linha inativa e reinicia-a por meio do Barramento de manutenção (MBUS).

Na maior parte do tempo, a placa da linha está simplesmente muito ocupada para responder às solicitações de ping na tela a partir do GRP. Estas falhas de ping de construção puderam igualmente ser causadas por uma estrutura com defeito ou por um erro no software de Cisco IOS�. Todas as possíveis causas das falhas de ping de construção estão detalhadas na seção de Troubleshooting abaixo.

Os intervalos de ping de tela ocorrem quando o Gigabit Route Processor (GRP) detecta se a solicitação de ping foi inserida na fila ToFab (em direção ao Switch Fabric) do Application-Specific Integrated Circuit (ASIC) de Cisco Cell Segmentation and Reassembly (CSAR). Este ASIC é responsável para cortar os pacotes em células Cisco antes de enviá-las através do Switch Fabric ao line card (LC) da saída.

As falhas de ping de construção ocorrem quando uma placa de linha ou o GRP secundário não respondem a uma requisição de ping de construção do GRP preliminar sobre o Switch Fabric. Essas falhas são um sintoma de um problema que deve ser investigado.

Sintomas

Como explicado na seção do fundo, o GRP envia a um ping de construção às placas de linha cada seis segundos, e as placas de linha devem responder. Quando o GRP não recebe uma resposta a cinco ping de construção consecutivos, restaura a placa de linha enviando um mensagem request sobre o barramento de manutenção (MBUS), e relata um travamento forçado por software, como visto na saída do comando show context slot {-}.

Nos registros de console ou no comando show log, é possível que você receba as seguintes mensagens de erro antes da mensagem de falha de ping da estrutura:

%GRP-3-FABRIC_UNI: Unicast send timed out (3) 
%GRP-3-FABRIC_UNI: Unicast send timed out (3) 
%GRP-3-FABRIC_UNI: Unicast send timed out (3)

onde o número (3) representa o slot da placa de linha para o qual o GRP primário tentou enviar um ping de tela.

Esta mensagem indica que um pacote está paralisado na fila ToFab do CSAR ASIC no GRP principal. Se algo ficar preso em um dos dois buffers CSAR por mais de 100 milissegundos (mseg), o buffer será esvaziado e será gerada uma mensagem de intervalo.

Se o GRP envia sua mensagem da requisição de ping de construção, mas a placa de linha não responde, ou as respostas da placa de linha mas o Switch Fabric é defeituoso assim que perde a mensagem, você não verá esta mensagem antes do mensagem de falha de fabric ping. Portanto, se aparecer a mensagem de erro “"%GRP-3-FABRIC_UNI", isso significa que algo não pôde ser transmitido para um slot na tela para 100 ou 200 ms. Pode ser que, devido à mensagem %GRP-3-FABRIC_UNI, você não possa enviar as manutenções de atividade para a LC e você termine com uma falha de ping de tela após, neste caso, 30 segundos. Todavia, você pode receber falhas de ping de construção sem o "%GRP-3-FABRIC_UNI" e vice-versa.

O GRP principal pode determinar que uma placa de linha ou um GRP secundário se degradou a um ponto em que é apropriado um dump central de diagnóstico. Neste momento, o GRP envia uma mensagem via MBUS à placa de linha e solicita o travamento da CPU da placa de linha, para poder obter um dump central.

%LCINFO-3-CRASH: Line card in slot 3 crashed
%GRP-3-COREDUMP: Core dump incident on slot 3, error: Fabric ping failure (seq:29192)

A placa de linha cria a cópia parcial central se estiver configurada com a exceção de informação de travamento e os comandos relacionados (consulte Configuring a Core Dump on a GSR Line Card para obter informações específicas de GSR sobre como configurar cópias parciais centrais). A corda de qualificação na saída do comando show context slot {-} indica a razão do reload. No caso de uma falha de ping de construção, a razão é sempre “travamento forçado por software”.

CRASH INFO: Slot 1, Index 1, Crash at 00:42:45 KST Mon Mar 12 2001
VERSION: 
GS Software (GLC1-LC-M), Version 12.0(18)ST, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) 
TAC Support: http://www.cisco.com/tac 
Compiled Thu 09-Aug-01 22:06 by nmasa 
Card Type: 2 Ports OC3 Channelized to DS1/E1 , S/N CAT00400500 
System exception: sig=23, code=0x24, 

! --- SIG=23 indicates a software-forced crash.
 
context=0x41303B04 
System restarted by a Software forced crash 
STACK TRACE: 
-Traceback= 400C3970 400C1F90 40815D5C 407D3144 400C7488

Após os ruídos da placa, envia uma mensagem inicial para notificar o GRP preliminar. O GRP aguarda que a placa de ingresso envie outras informações sobre o travamento através do MBUS. O GRP deve receber informações completas alguns milissegundos depois de receber a primeira mensagem da placa de linha. Na improvável circunstância de mensagens subseqüentes de informações de travamento não serem recebidas pelo GRP em um limite de tempo razoável (10 segundos), o GRP imprimirá uma mensagem de erro e informará o restante do software GRP que a placa de linha está travada.

Troubleshooting

Durante a operação normal do roteador, o GRP principal envia pings continuamente às placas de linha e as placas de linha respondem. Todas as falhas ping são um sintoma de um outro problema que deva ser investigado. Estes problemas incluem:

Nota: Se a falha pode ser reproduzida, não configurar nenhuma auto-restauração do serviço no GRP. Esse comando desativa um recarregamento da placa de linha na próxima falha de ping da tela e permite conectar à placa de linha usando o comando attach <slot#> para capturar os comandos show relevantes.

Problema com a placa de linha

  • O motivo mais provável pode ser um erro de software do Cisco IOS, no qual um processo está desabilitando as interrupções por tempo suficiente para perder cinco pings de tela consecutivos. Tente atualizar para a versão mais recente do Cisco IOS Software em seu treinamento para evitar problemas já resolvidos. Para o auxílio da elevação, veja Cisco transferir a área do software.

  • A placa de linha pode exercer a pressão contrária durante bastante tiempo, assim que o planificador não está permitindo que nenhum tráfego fosse recebido do Switch Fabric. Esse sintoma sugere um problema de congestionamento da interface. Use os comandos a seguir para confirmar esses sintomas:

    • comando show controller frfab queue na placa de linha. Procure uma fila livre não IPC sem nenhum ou com poucos buffers disponíveis.

    • comando show controllers csar queue no GRP. Procure valores que não sejam zero para "Comprimento Máx." e para "Comprimento Máx.” igual ao valor de “Comprimento”, conforme mostrado na seguinte saída de exemplo:

      router#show controllers csar queue
           1190 Free Q
      
      Slot Length Max Length
        0     0      7
        1     0      2
        2    70     70 
      
      ! -- CSAR queue for slot 2 is building and reaching max length.
      
        3     0      2
        4     0      3
        5     0      0
         ...
      

      O CSAR enfileira até 50 pacotes para uma placa de linha de destino. Depois de 50 pacotes, apenas os pacotes de ping de tela são colocados em fila. Se o limite de fila aumenta então a 70, o CSAR para de enfileirar todos os pacotes -- incluindo ping de construção -- à placa de linha. GRP e todas as placas de linha têm os bufferes da segmentação 64k CSAR em que para armazenar mensagens. Se esses buffers estiverem ocupados, o roteador usará uma fila de espera de software para armazenar as mensagens. Também define um temporizador para assegurar que as mensagens de ping da estrutura não permaneçam nesta fila por muito tempo.

  • Alto uso de CPU na placa de linha - normalmente observado durante o recálculo de uma grande tabela do Cisco Express Forwarding (CEF) após uma alteração maciça na tabela de roteamento ou após uma sincronização de enlaces e reinicialização da sessão de Border Gateway Protocol (BGP). O CPU também pode estar alto na switching de tráfego no software. Isto acontece principalmente nas placas de linha do motor 0 onde a maioria das características são executadas no software. Se esse for o caso, você pode verificar a configuração na placa de linha e remover os recursos que poderiam causar impacto na CPU da LC do Engine 0. A alta utilização da CPU também pode ocorrer devido a um erro. Determine a utilização CPU com o comando execute-on slot <slot-> show proc cpu ou o comando execute-on slot <slot-> show tech se o comando precedente não é apoiado na versão de Cisco IOS Software que está executando no roteador. Considere atualizar para a versão de desenvolvimento mais recente do Cisco IOS Software para solucionar problemas conhecidos.

  • A placa de linha está sendo executado fora dos bufferes do Inter-Process Communication (IPC), que são usados às mensagens do controle de intercâmbio entre as placas de linha e o GRP. Consulte as etapas de solução de problemas em Troubleshooting CEF-Related Error Messages (Solução de Problemas de Mensagens de Erro Relacionadas a CEF). Se o seu Troubleshooting aponta para um problema com o IPC, certifique-se de que seu Cisco 12000 Series Internet Router está executando no mínimo o Cisco IOS Software Release 12.0(18)S . Esta liberação introduziu um tamanho padrão maior de 5000 para que o esconderijo IPC aumente suas estabilidade e escalabilidade.

  • Problema de hardware na placa de linha. É importante notar que menos de 10% das falhas de ping de tela resultam de um problema de hardware. Antes de entrar em contato com o TAC da Cisco para solicitar substituição de hardware, tente as seguintes etapas:

    1. Procure os mensagens de timeout IPC impressos antes da falha de ping de construção. Igualmente veja a seção IPC abaixo.

    2. Reencaixe a placa de linha.

    3. Desligue e religue o roteador.

    4. Caso não tenha acesso físico ao roteador, execute o comando hw-module slot <slot #> reload para realizar uma recarga manual da placa de linha.

Problema com a tela de switching

O coração do Cisco 12000 Series Internet Router é os circuitos de Switch Fabric, que fornecem interconexões sincronizadas da velocidade de gigabit para as placas de linha e o GRP. Os circuitos de Switch Fabric contêm dois tipos de cartões:

  • Placas programadoras e de relógio (CSCs)

  • SFCs (placas de tela do Switch)

Se uma dessas placas estiver falhando, as mensagens de ping não poderão mais passar através da tela. Nesse caso, você também verá outras mensagens apontando para a estrutura defeituosa, entre elas:

%FABRIC-3-CRC: Switch card 18

Use o comando show controllers fia para determinar se você tem um CSC ou SFC ruim. Utilize o comando execute-on all show controllers fia para capturar a saída de todas as placas de linhas. Compare a saída a partir de GRP com a saída a partir das placas de ingresso de forma a determinar se uma placa de estrutura de switching defeituosa precisa ser substituída.

A seguinte saída de exemplo aponta para um problema com sfc0 no slot 18. Primeiro, tente reinstalar essa placa e, em seguida, requisite a substituição caso o contador de erros crc16 continue aumentando.

  Router#show controllers fia 
      Fabric configuration: Full bandwidth redundant 
      Master Scheduler: Slot 17
      From Fabric FIA Errors 
      ----------------------- 
      redund FIFO parity 0   redund overflow 0     cell drops 1 
      crc32 lkup parity  0   cell parity     0     crc32      0 
      Switch cards present    0x001F  Slots  16 17 18 19 20
      Switch cards monitered  0x001F  Slots  16 17 18 19 20 
      Slot:     16         17         18         19         20 
      Name:    csc0       csc1       sfc0       sfc1       sfc2 
             --------   --------   --------   --------   -------- 
      Los    0          0          0          0          0 
      state  Off        Off        Off        Off        Off 
      crc16  0          0          4334       0          0 

! --- Check the CRCs under SFC0 (slot 18)

      To Fabric FIA Errors 
      ----------------------- 
      sca not pres 0          req error     0          uni FIFO overflow 0 
      grant parity 0          multi req     0          uni FIFO undrflow 0 
      cntrl parity 0          uni req       0          crc32 lkup parity 0 
      multi FIFO   0          empty DST req 0          handshake error   0 
      cell parity  0

Problema com o GRP

Em alguns relatórios das falhas de ping de construção, o roteador relatou Mensagens de Erro da verificação de redundância cíclica (CRC) antes da falha. Verifique para ver se há CRC nas placas de switching fabric usando o comando show controllers fia no GRP e a FIA execute tudo dos controladores da mostra nas placas de linha. Erros de CRC no GRP indicam apenas (e não em uma placa de linha) para um GRP com falha. Primeira tentativa para assentar o GRP e para pedir então uma substituição se os erros CRC continuam a incrementar.

Problemas conhecidos com IPC

Os problemas com o software do Inter-Process Communication (IPC) que é executado entre o GRP e as placas de linha foram resolvidos em várias liberações do Cisco IOS Software Release 12.0S. Neste caso, você deve ver alguns Mensagens de Erro relacionados ao IPC no log, junto com mensagens do fabric ping timeout. Tente executar o Cisco IOS Software Release o mais atrasado para trabalhar em torno dos problemas conhecidos com IPC. Igualmente veja Cisco transferir a área do software para o auxílio com seleção de uma liberação.

Problemas conhecidos do Cisco Express Forwarding (CEF)

Consulte Troubleshooting de Mensagens de Erros Relacionadas ao CEF se a saída do comando show log exibir uma mensagem relacionada ao CEF Forwarding Information Base (FIB) semelhante a esta:

%FIB-3-FIBDISABLE: Fatal error, slot 2: IPC failure

Comandos debug e show úteis

Use os seguintes comandos debug e show para fazer troubleshooting de mensagens de falha/tempo limite de ping de estrutura no Cisco 12000 Series Internet Router:

  • debug fabric events - Imprime qualquer erro detectado pelo GRP. Esse comando debug gera pouquíssimas mensagens e somente em uma condição de erro.

  • debug fabric ping - Imprime todos os erros detectados no processo de ping de tela pelo GRP. Esse comando debug gera pouquíssimas mensagens e somente em uma condição de erro.

Capture os comandos a seguir para cada placa de linha de redefinição. Substitua X pelo número do slot apropriado.

  • execute-on slot X debug fabric events - Imprime erros detectados pela placa de ingresso nas respostas de ping. Este comando produz muito poucas mensagens e somente em uma condição de erro.

  • exec slot X debug fabric ping - Imprime uma mensagem quando a placa de ingresso recebe um ping de construção. Essa depuração gera uma linha de saída por segundo para cada placa de linha na qual ela é habilitada.

Após o travamento da placa de linha, capture os comandos a seguir do console de GRP:

  • mostre a contexto todo o detalhe

  • show fabric

  • show controllers fia

  • show controllers csar queue

  • execute-on all show controllers fia

  • show tech

  • show log

Capture igualmente os comandos seguintes sobre o estado da placa de linha:

  • proc CPU da mostra do <slot-> do execute-on slot

  • execute-on slot <nºslot> show controller tofab queue

  • execute-on slot <slot#> exibir estado controle tofab

  • execute-on slot <nºslot> show controller frfab queue

  • execute-on slot <slot#> show controller frfab stat

  • execute-on slot <slot#> show ipc stat

  • execute-on slot <slot#> show ipc queue

  • o execute-on slot <slot#> mostra empilhamento

  • execute-on slot <slot#> show tech

Se você ainda encontrar problemas depois de seguir todas as etapas de Troubleshooting, reúna todas as informações solicitadas acima e ligue para o representante do TAC da Cisco para resolver os problemas que ainda persistem.

Está aqui a saída de alguns comandos de exibição úteis:

router#show controllers csar 
From Fabric Error Stats 
------------------------ 
0 out of order, 0 unexpected first 
0 unexpected last, 0 unknown rx type, 0 corrupted pak, 0 parity 
0 first/last, 0 sequence, 0 cell avail, 0 reassembly,

To Fabric Stats 
------------------------ 
Slot  Tx Pkts      TX Th Pkts      Rx Pkts      Rx Th Pkts   To Fab timeout 
0     580278       490214          281061       1336470      0 
1     18854        66592           18390        945419       0 
2     6            50824           0            896290       0 
3     0            0               0            0            0 
4     0            51909           0            895430       0 
5     0            0               0            0            0 
6     0            35113           0            880247       0 
7     0            52690           0            52690        0 
8     0            0               0            0            0 
9     0            0               0            0            0 
10    0            0               0            0            0 
11    0            0               0            0            0 
12    0            0               0            0            0 
13    0            0               0            0            0 
14    0            0               0            0            0 
15    0            0               0            0            0 
0 too big, 1 Buf0 free, 1 Buf1 free 
0 Copy fail

Fabric access Error Stats 
-------------------------- 
0 parity errors,  0 bad access size, 0 invalid address 
0 queue full parity, 0 flushed buffer

router#show controllers fia 
Fabric configuration: Full bandwidth, nonredundant fabric 
Master Scheduler: Slot 16

From Fabric FIA Errors 
----------------------- 
redund fifo parity 0          redund overflow 0          cell drops 0 
crc32 lkup parity  0          cell parity     0          crc32      0 
Switch cards present    0x001D    Slots  16 18 19 20 
Switch cards monitored  0x001D    Slots  16 18 19 20 
Slot:     16         17         18         19         20 
Name:    csc0       csc1       sfc0       sfc1       sfc2 
       --------   --------   --------   --------   -------- 
los    0          0          0          0          0 
state  Off        Off        Off        Off        Off 
crc16  0          254        0          0          0  

! --- Check the CRC error here. In this case CSC1 in slot 17.


To Fabric FIA Errors 
----------------------- 
sca not pres 0          req error     0          uni FIFO overflow 0 
grant parity 0          multi req     0          uni FIFO undrflow 0 
cntrl parity 0          uni req       0          crc32 lkup parity 0 
multi FIFO   0          empty dst req 0          handshake error   0 
cell parity  0

Você pode encontrar mais detalhes no comando show controllers fia em como ler a saída do comando show controller fia.

router#show fabric 
Dest    ToFab       FrFab     Bad Seq     Unexpected 
Slot    Pkts        Pkts                  Pkts 
---------------------------------------------------- 
Slot0   26327       26327     0           0 
Slot1   26325       26325     0           0 
Slot2   26321       26321     0           0 
Slot4   26315       26315     0           0 
Slot6   26311       26311     0           0 
Slot7   26334       26334     0           0

multicast timeout 0 
failed pak        0 

Current fabric timeout is 6000

fabric send fails 58

Informação a serem coletadas se você abre um caso de TAC

Se você ainda precisa o auxílio após ter seguido os passos de Troubleshooting acima e o quer criar um pedido do serviço com o tac Cisco, anexe por favor a informação seguinte a seu argumento para pesquisando defeitos problemas do ping de construção no Cisco 12000 Series Internet Router:
  • Troubleshooting executado antes da abertura do caso
  • show technical-support output (no modo enable se possível)
  • mostrar registro de saída ou capturas de tela do console, se disponível
  • Suporte técnico da mostra do [slot -] do execute-on slot para o entalhe que experimentou o ruído da placa
Anexe os dados coletados para o seu caso em um formato não compactado e texto simples (.txt). Você pode anexar a informação a seu caso transferindo arquivos pela rede o que usa a ferramenta do Case Query (clientes registrados somente). Se você não puder acessar a ferramenta Case Query, você pode anexar informações relevantes para o seu caso, enviando-as para attach@cisco.com com o número de seu caso na linha de assunto de sua mensagem.

Nota: Se possível, não recarregue manualmente ou ligue e desligue o roteador antes de coletar as informações acima, uma vez que isso pode causar a perda de informações importantes necessárias para determinar a principal causa do problema.

Discussões relacionadas da comunidade de suporte da Cisco

A Comunidade de Suporte da Cisco é um fórum onde você pode perguntar e responder, oferecer sugestões e colaborar com colegas.


Informações Relacionadas


Document ID: 12421