Cisco Interfaces and Modules : Cisco Nexus 7000 M2-Series 6-Port 40 Gigabit Ethernet Module

Os nexos 7000 erros CRC da tela pesquisam defeitos

14 Outubro 2016 - Tradução por Computador
Outras Versões: Versão em PDFpdf | Inglês (7 Novembro 2015) | Feedback

Introdução 

Este documento descreve como resolver os erros de tela relatados na plataforma do nexo 7000 de Cisco. Uma pesquisa de defeitos das somas de verificação da redundância cíclica da tela (CRC) envolve o levantamento de dados, a análise de dados, e um processo da eliminação a fim isolar o componente do problema. Este capas de documento a maioria de tipos comuns de erros CRC da tela.

Contribuído por Yogesh Ramdoss, engenheiro de TAC da Cisco.

Vista geral da detecção da tela CRC

Está aqui um diagrama de nível elevado de um módulo de construção do nexo 7018 com as placas de linha M1:

 

 

A imagem anterior dá uma vista geral dos componentes envolvidos quando um pacote atravessa um módulo de construção. Encene 1 (S1), a fase 2 (S2), e a fase 3 (S3) é as três fases da tela do nexo 7000, o polvo é o Engine de fila, Santa Cruz (SC) é a construção ASIC, e cita como exemplo 1 e 2 é os dois exemplos SC no XBAR. Este documento considera somente um XBAR. Recorde por favor que a maioria dos 7000 Series Switch do nexo têm três ou mais XBARs instalou.

Com a suposição que um fluxo unidirecional do módulo 1 (M1) ao módulo 2 (M2) esta presente, o ingresso Octopus-1 no M1 executa verificações de erro em pacotes que recebe do sul, e a saída Octopus-1 no M2 do norte. Se o CRC é detectado no S3, um problema pôde ter acontecido no S1 ou no S2 igualmente, desde que nenhuma verificação CRC é executada naquelas fases. Assim, os dispositivos envolvidos no trajeto são o polvo do ingresso, os chassis, a tela da barra transversal, e o polvo da saída.

Na arquitetura M1/Fab1, os CRC são detectados somente na placa de linha da saída (S3).

Está aqui um exemplo de mensagem de erro:

%OC_USD-SLOT1-2-RF_CRC: OC1 received packets with
 CRC error from MOD 15 through XBAR slot 1/inst 1

Isto é relatado pelo M1, que indica que ele pacotes recebidos com o CRC errado do módulo 15 (M15) através do entalhe 1/instance 1. XBAR.

Compreenda os erros CRC diferentes da tela

Esta seção descreve quatro da maioria de tipos comuns de erros CRC da tela.

  • O erro CRC com um módulo de origem única, recebe o módulo, e o exemplo XBAR:
    %OC_USD-SLOT1-2-RF_CRC: OC1 received packets with
     CRC error from MOD 15 through XBAR slot 1/inst 1
    Isto significa que o módulo no slot1 detectou um erro CRC de M15 através do entalhe 1/instance 1. XBAR. O módulo onde os erros CRC originam é referido como o módulo de ingresso (M15 neste caso), e o módulo que relatou o problema é o módulo da saída (M1). XBAR 1 é a barra transversal em que o pacote foi recebido. Há dois exemplos por XBAR. Neste caso, o M1 detectou erros CRC de M15 com o exemplo 1. do slot1 XBAR.

  • O erro CRC com um módulo de origem única, não recebe o módulo, mas o nenhum exemplo XBAR:
    %OC_USD-SLOT4-2-RF_CRC: OC2 received packets with
     CRC error from MOD 1
    Nesta mensagem, o módulo 4 (M4) relatou o erro CRC do M1. Observe que a informação XBAR falta. O sistema é incapaz de verificar o XBAR que o pacote atravessou. Há muitas razões, mas as mais comuns são: A informação no encabeçamento da tela do pacote pôde ser corrompida, assim que o módulo de fonte não pode ser determinado; o XBAR que foi atravessado é removido do sistema desde que o erro incrementou. Assim, não se relatou no mensagem do syslog de hora em hora.

  • O erro CRC sem recebe o módulo:
    %OC_USD-2-RF_CRC: OC1 received packets with
     CRC error from MOD 16 through XBAR slot 1/inst 1
    Nesta instância, um dispositivo detectou um CRC do módulo 16 (M16) com XBAR 1. Não há, contudo, nenhum módulo de receptor. Quando o supervisor (SUP) detecta um CRC que venha do módulo de construção, a informação do entalhe não é registrada. Quando você não vê a informação do entalhe, a seguir o SUP detectou o problema. Isto não significa que o SUP é ruim. Apenas como quando o módulo relata o problema, há os componentes múltiplos que puderam ter causado o problema: M16, o chassi (não como provavelmente), XBAR 1, ou o SUP.

  • Erro CRC com módulos de origem possível múltiplos:
    %OC_USD-SLOT6-2-RF_CRC: OC2 received packets with
     CRC error from MOD 11 or 12 or 14 or 15 or 16 or 17 or 18
    O módulo de fonte é inferido do polvo do ingresso que originado o pacote ruim. O direcionador que levanta uma interrupção a fim registrar este Mensagem de Erro não conhece sempre o polvo do ingresso de que o pacote ruim originou. Isto é porque alguns dos bit usados a fim representar o polvo do ingresso não são usados. Se o sistema determina os módulos múltiplos têm estes bit não utilizados girados sobre, o sistema devem supor que qualquer deles pôde ser a fonte, que faz com que o Mensagem de Erro inclua todos aqueles módulos. O sistema encontrou que o módulo 13 (M13) não pode ter este conflito devido 2 aqueles bit que não estão sendo usados; assim, não é registrado como um origem potencial.

A tela CRC pesquisa defeitos a aproximação

As novas placas de linha (M2) e o módulo de construção 2 (FAB2) detectam CRC no S1, no S2, ou no S3. Quando você investiga em detalhe e encontra testes padrões na falha e nos mensagens de registro, ajuda o isolado o componente defeituoso.

Estão aqui algumas perguntas a pedir:

  • Era o Mensagem de Erro um único evento, ou as mensagens de erro CRC múltiplas foram registradas?
  • As mensagens de erro CRC são registradas como frequentemente? (Cada hora, uma vez por dia, uma vez por mês?)
  • Fazem os erros CRC que TODOS vêm do mesmo módulo de ingresso?
  • São os erros CRC relatados TODA no mesmo módulo da saída?
  • Estão os erros CRC dos módulos de ingresso múltiplos E relatados nos módulos múltiplos da saída?
  • Se os módulos múltiplos relatam erros CRC, há um módulo de origem comum ou módulo XBAR?

As respostas a estas perguntas permitem que você aproxime o procedimento da pesquisa de defeitos de um ângulo que seja mais provável conduzir a uma definição mais rápida.

O CRC geral pesquisa defeitos diretrizes

Esta seção estabelece uma estrutura geral usada a fim pesquisar defeitos estas edições.

  1. Encontre os módulos comuns (que incluem XBARs) que são relatados nas mensagens de erro CRC da tela.
  2. Depois que você encontra os módulos comuns, escolhe a causa mais provável de problema, fecha (em caso de XBAR), o move para um entalhe conhecido que trabalhe, assente-o, e substitua- quando você monitorar a fim verificar se o problema parte. Fechado, assente, e substitua os módulos um de cada vez. Isto facilita isolar a peça defeituosa.
  3. Quando você parada programada, movimento, assenta, ou substitui uma peça, procure todas as mudanças nos sintomas do problema. Você pôde ter que revisar seu plano de ação depois que você aprende mais de cada etapa tomada.
  4. Se as peças múltiplas são substituídas e o problema ainda persiste, então:

    • As peças novas puderam ser ruins.
    • XBARs múltiplo pôde ser ruim.
    • Um slot de chassi ruim pôde ser a causa.

Estudos de caso

Esta seção fornece exemplos de como pesquisar defeitos problemas similares.

O módulo de ingresso corrompe os pacotes

Logs

%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7

Problema

Por algumas horas, os erros CRC são considerados em M1 e em módulo 3 (M3) que vêm do módulo 7 (M7) somente. 

Causa provável do problema

Há uns XBAR ruins ou mal fixado que corrompam os pacotes dirigidos a M7, ou M7 é ruim ou mal fixado.

Processo do isolamento do componente defeituoso

  1. Parada programada o XBARs um a um quando você monitorar verfiy se o problema é resolved.
  2. Assente o ingresso M7 quando você monitorar.
  3. Substitua o M7 quando você monitorar.

Se você tem três XBARs instalado, dá-lhe a Redundância N+1. Consequentemente, você pode fechá-los abaixo de um de cada vez (nunca fechado mais de um a um momento determinado) com somente impacto mínimo a fim ver se o problema é resolved. Incorpore estes comandos a fim terminar este processo:

N7K(config)# poweroff xbar 1

<monitor>

N7K(config)# no poweroff xbar 1
N7K(config)# poweroff xbar 2

<monitor>

N7K(config)# no poweroff xbar 2
N7K(config)# poweroff xbar 3
N7K(config)# no poweroff xbar 3

Estude neste caso particular, o problema não era resolved quando o XBARs foi fechado.

Porque há dois módulos que relatam erros CRC, é improvável que aqueles dois módulos (M1 & M3) são a causa. A próxima etapa é assentar M7 (módulo de ingresso), porque é mais provável o componente defeituoso. As placas de linha mal fixado puderam causar este problema, e recomenda-se assentar o módulo antes da substituição.

Estude neste caso, os erros CRC continuados a incrementar no módulo de construção após assentar de M7. Contacte o centro de assistência técnica da Cisco (TAC) neste momento (ou antes que este ponto) a fim substituir M7 desde que assentar não resolve o problema.

Estude neste caso, a substituição de M7 parou as mensagens de erro CRC da tela, e resolveu a perda de pacotes.

XBAR mal fixado injeta pacotes corrompidos

Logs

%OC_USD-SLOT11-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT12-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT13-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT15-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT2-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT4-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT5-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT7-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT8-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1

Problema

Os módulos múltiplos relatam os erros CRC do módulo 12 (M12) que atravessam XBAR 3.

Causa provável do problema

XBAR 3 é ruim ou mal fixado, ou M12 é mal fixado ou defeituoso.  

Processo do isolamento do componente defeituoso

  1. Parada programada XBAR 3 quando você monitorar.
  2. Assente o ingresso M12 quando você monitorar.
  3. Substitua M12 quando você monitorar.

Neste caso, XBAR 3 é fechado com o procedimento descrito previamente (nos primeiros Casos Práticos), e monitorado para uns erros mais adicionais. Encontrou-se que os erros cessaram quando XBAR 3 foi fechado. Neste momento, XBAR 3 é assentado, e o cuidado é ordem recolhida para assegurar-se de que nenhum pino esteja dobrado no painel auxiliar e que o módulo está introduzido corretamente. Depois que XBAR 3 reenabled, o problema nunca reoccurs. Este problema é atribuído a um módulo mal fixado XBAR.

O módulo defeituoso da saída corrompe pacotes da tela

Logs

%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
 MOD 1 or 2 or 7 or 13 or 17 through XBAR 
 slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1

%OC_USD-SLOT6-2-RF_CRC: OC2 received packets with CRC error from
 MOD 1 or 2 or 3 or 7 or 15 or 17 through XBAR
 slot 2/inst 1 and slot 3/inst 1

%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
 MOD 1 or 2 or 5 or 7 or 16 or 17 through XBAR
 slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1

Problema

O módulo 6 (M6) relata pacotes com os erros CRC recebidos das placas de linha múltiplas e do XBARs.

Causa provável do problema

M6 é mal fixado ou ruim.

Processo do isolamento do componente defeituoso

  1. Assente M6 quando você monitorar.
  2. Substitua M6 quando você monitorar.

M6 é a causa mais provável desta edição porque é os módulos comuns um em todos os Mensagens de Erro. De todos os módulos alistados nos Mensagens de Erro, esse que aparece o mais consistentemente é M6. Consequentemente, tentativa de assentar M6 a fim ver se a edição é resolved antes que você a substituir.

Neste caso, M6 é assentado, mas os erros ainda persistem. Assim, você deve abrir um caso tac Cisco a fim ter M6 substituído. Depois que M6 é substituído, os erros não estão relatados.

Comandos de solução de problemas

Aqui está uma lista dos comandos usados a fim pesquisar defeitos/debuga:

  • show clock
  • mostre a modificação xbar
  • mostre o detalhe da utilização de construção do hardware 
  • mostre o timestamp do detalhe da utilização de construção do hardware
  • mostre a hardware o xbar-direcionador interno todos os erros da evento-história
  • mostre a hardware o xbar-direcionador interno todos os msgs da evento-história
  • mostre a sistema o xbar-cliente interno msgs internos da evento-história
  • mostre a sistema xbar interno todo
  • evento-história interna 1 xbar do módulo show
  • atividade interna 1 xbar do módulo show
  • evento-história interna 2 xbar do módulo show
  • atividade interna 2 xbar do módulo show
  • evento-história interna 3 xbar do módulo show
  • atividade interna 3 xbar do módulo show
  • evento-história interna 4 xbar do módulo show
  • atividade interna 4 xbar do módulo show
  • evento-história interna 5 xbar do módulo show
  • atividade interna 5 xbar do módulo show
  • mostre xbar interno a bordo de registro
  • mostre o polvo interno a bordo de registro
  • mostre o detalhe da tecnologia


Document ID: 116458