Este documento descreve como resolver erros de estrutura relatados na plataforma Cisco Nexus 7000. Uma solução de problemas de CRCs (Cyclic Redundancy Checksum, soma de verificação de redundância cíclica) envolve a coleta de dados, a análise de dados e um processo de eliminação para isolar o componente do problema. Este documento aborda os tipos mais comuns de erros de CRC de estrutura.
Aqui está um diagrama de alto nível de um módulo de estrutura Nexus 7018 com placas de linha M1:
A imagem anterior fornece uma visão geral dos componentes envolvidos quando um pacote atravessa um módulo de estrutura. Estágio 1 (S1), Estágio 2 (S2) e Estágio 3 (S3) são os três estágios da estrutura do Nexus 7000, Octopus é o mecanismo de fila, Santa Cruz (SC) é o ASIC de estrutura e as Instâncias 1 e 2 são as duas instâncias SC no XBAR. Este documento considera apenas um XBAR. Lembre-se de que a maioria dos switches Nexus 7000 Series têm três ou mais XBARs instalados.
Partindo do pressuposto de que um fluxo unidirecional do Módulo 1 (M1) para o Módulo 2 (M2) está presente, o Octopus-1 de entrada em M1 executa verificações de erros em pacotes que recebe do sul e a saída Octopus-1 em M2 do norte. Se o CRC for detectado em S3, um problema também pode ter ocorrido em S1 ou S2, já que nenhuma verificação de CRC é executada nesses estágios. Assim, os dispositivos envolvidos no caminho são o Octopus de entrada, chassi, estrutura de barras cruzadas e Octopus de saída.
Na arquitetura M1/Fab1, as CRCs são detectadas apenas na placa de linha de saída (S3).
Aqui está um exemplo de mensagem de erro:
%OC_USD-SLOT1-2-RF_CRC: OC1 received packets with
CRC error from MOD 15 through XBAR slot 1/inst 1
Isso é relatado pelo M1, que indica que ele recebeu pacotes com o CRC errado do Módulo 15 (M15) através do slot XBAR 1/instância 1.
Esta seção descreve quatro dos tipos mais comuns de erros de CRC de estrutura.
%OC_USD-SLOT1-2-RF_CRC: OC1 received packets withIsso significa que o módulo no slot 1 detectou um erro de CRC do M15 ao slot 1/instância 1 do XBAR. O módulo no qual os erros de CRC são originados é chamado de módulo de entrada (M15 neste caso), e o módulo que relatou o problema é o módulo de saída (M1). XBAR 1 é a barra cruzada na qual o pacote foi recebido. Há duas instâncias por XBAR. Nesse caso, M1 detectou erros de CRC de M15 a XBAR slot 1 instance 1.
CRC error from MOD 15 through XBAR slot 1/inst 1
%OC_USD-SLOT4-2-RF_CRC: OC2 received packets withNesta mensagem, o Módulo 4 (M4) relatou o erro de CRC do M1. Observe que as informações XBAR estão ausentes. O sistema não consegue determinar o XBAR que o pacote atravessou. Há muitas razões, mas as mais comuns são: As informações no cabeçalho da estrutura do pacote podem estar corrompidas, de modo que o módulo de origem não pode ser determinado; o XBAR que foi atravessado é removido do sistema desde que o erro foi incrementado. Portanto, ele não foi relatado na mensagem de syslog de hora.
CRC error from MOD 1
%OC_USD-2-RF_CRC: OC1 received packets withNesse caso, um dispositivo detectou um CRC do Módulo 16 (M16) ao XBAR 1. No entanto, não há módulo receptor. Quando o Supervisor (SUP) detecta um CRC que vem do módulo de estrutura, as informações do slot não são registradas. Quando você não vê as informações do slot, o SUP detectou o problema. Isso não significa que o SUP seja ruim. Assim como quando o módulo relata o problema, há vários componentes que podem ter causado o problema: M16, o chassi (não tão provável), XBAR 1 ou o SUP.
CRC error from MOD 16 through XBAR slot 1/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC2 received packets withO módulo de origem é extraído do Octopus de entrada que originou o pacote inválido. O driver que gera uma interrupção para registrar essa mensagem de erro nem sempre sabe o Octopus de entrada de onde o pacote defeituoso foi originado. Isso ocorre porque alguns dos bits usados para representar o Octopus de entrada não são usados. Se o sistema determinar que vários módulos têm esses bits não utilizados ativados, o sistema deve supor que qualquer um deles pode ser a origem, o que faz com que a mensagem de erro inclua todos esses módulos. O sistema descobriu que o Módulo 13 (M13) não pode ter esse conflito porque esses bits não estão sendo usados; portanto, ele não é registrado como uma fonte potencial.
CRC error from MOD 11 or 12 or 14 or 15 or 16 or 17 or 18
As novas placas de linha (M2) e o módulo de estrutura 2 (FAB2) detectam CRCs em S1, S2 ou S3. Quando você investiga em detalhes e encontra padrões nas mensagens de falha e registro, ele ajuda a isolar o componente defeituoso.
Aqui estão algumas perguntas a serem feitas:
As respostas a essas perguntas permitem que você se aproxime do procedimento de solução de problemas de um ângulo que provavelmente levará a uma resolução mais rápida.
Esta seção estabelece uma estrutura geral usada para solucionar esses problemas.
Esta seção fornece exemplos de como solucionar problemas semelhantes.
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
Por algumas horas, erros de CRC são vistos em M1 e no Módulo 3 (M3) que vêm somente do Módulo 7 (M7).
Há um XBAR com erro ou mal encaixado que corrompe os pacotes direcionados para M7, ou M7 está mal ou mal encaixado.
Se você tiver três XBARs instalados, ele fornecerá redundância N+1. Portanto, você pode desligá-los um de cada vez (nunca desligar mais de um de cada vez) com impacto mínimo para ver se o problema é resolvido. Insira estes comandos para concluir este processo:
N7K(config)# poweroff xbar 1
<monitor>
N7K(config)# no poweroff xbar 1
N7K(config)# poweroff xbar 2
<monitor>
N7K(config)# no poweroff xbar 2
N7K(config)# poweroff xbar 3
N7K(config)# no poweroff xbar 3
Neste estudo de caso específico, o problema não foi resolvido quando os XBARs foram desligados.
Como há dois módulos que relatam erros de CRC, é improvável que esses dois módulos (M1 e M3) sejam a causa. A próxima etapa é recolocar o M7 (módulo de ingresso), pois é provavelmente o componente defeituoso. Placas de linha mal encaixadas podem causar esse problema e é recomendável recolocar o módulo antes da substituição.
Neste estudo de caso, os erros de CRC continuaram a aumentar no módulo de estrutura após uma recolocação do M7. Entre em contato com o Cisco Technical Assistance Center (TAC) neste ponto (ou antes deste ponto) para substituir o M7, já que a recolocação não resolve o problema.
Neste estudo de caso, a substituição do M7 interrompeu as mensagens de erro de CRC de estrutura e resolveu a perda de pacote.
%OC_USD-SLOT11-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT12-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT13-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT15-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT2-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT4-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT5-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT7-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT8-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
Vários módulos relatam erros de CRC do Módulo 12 (M12) que passam pelo XBAR 3.
XBAR 3 está com defeito ou mal encaixado, ou M12 está mal encaixado ou com defeito.
Neste caso, o XBAR 3 é encerrado com o procedimento descrito anteriormente (no primeiro estudo de caso) e monitorizado quanto a outros erros. Verificou-se que os erros cessaram quando o XBAR 3 foi encerrado. Nesse ponto, o XBAR 3 é recolocado e é feito o cuidado para garantir que nenhum pino esteja torto no midplane e que o módulo esteja inserido corretamente. Depois que o XBAR 3 é reativado, o problema nunca mais ocorre. Esse problema é atribuído a um módulo XBAR mal encaixado.
%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
MOD 1 or 2 or 7 or 13 or 17 through XBAR
slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC2 received packets with CRC error from
MOD 1 or 2 or 3 or 7 or 15 or 17 through XBAR
slot 2/inst 1 and slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
MOD 1 or 2 or 5 or 7 or 16 or 17 through XBAR
slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1
O Módulo 6 (M6) relata pacotes com erros de CRC recebidos de várias placas de linha e XBARs.
M6 está mal assentado ou está com defeito.
O M6 é a causa mais provável desse problema porque é o único módulo comum em todas as mensagens de erro. De todos os módulos listados nas mensagens de erro, o mais consistente é o M6. Portanto, tente recolocar o M6 para ver se o problema foi resolvido antes de substituí-lo.
Nesse caso, o M6 é recolocado, mas os erros ainda persistem. Portanto, você deve abrir um caso do Cisco TAC para que o M6 seja substituído. Depois que M6 é substituído, os erros não são relatados.
Aqui está uma lista dos comandos usados para solucionar problemas/depurar:
Revisão | Data de publicação | Comentários |
---|---|---|
1.0 |
11-Sep-2013 |
Versão inicial |