Este documento describe cómo resolver los errores de fabric informados en la plataforma Cisco Nexus 7000. Una solución de problemas de las sumas de comprobación de redundancia cíclica (CRC) de fabric implica la recopilación de datos, el análisis de datos y un proceso de eliminación para aislar el componente del problema. Este documento cubre los tipos más comunes de errores CRC de estructura.
Este es un diagrama de alto nivel de un módulo de fabric Nexus 7018 con tarjetas de línea M1:
La imagen anterior ofrece una descripción general de los componentes involucrados cuando un paquete atraviesa un módulo de fabric. Las fases 1 (S1), 2 (S2) y 3 (S3) son las tres fases del fabric Nexus 7000, pulpo es el motor de cola, Santa Cruz (SC) es el ASIC de fabric y las instancias 1 y 2 son las dos instancias SC del XBAR. Este documento considera sólo una XBAR. Recuerde que la mayoría de los switches Nexus serie 7000 tienen instalados tres o más XBAR.
Con la suposición de que existe un flujo unidireccional del Módulo 1 (M1) al Módulo 2 (M2), el Octopus-1 de ingreso en M1 realiza verificaciones de errores en los paquetes que recibe del sur, y el Octopus-1 de salida en M2 del norte. Si se detecta CRC en S3, puede haber ocurrido un problema también en S1 o S2, ya que no se realiza ninguna verificación CRC en esas etapas. Por lo tanto, los dispositivos involucrados en la ruta son el pulpo de ingreso, el chasis, el fabric de barras cruzadas y el pulpo de salida.
En la arquitectura M1/Fab1, los CRC se detectan sólo en la tarjeta de línea de salida (S3).
Aquí hay un ejemplo de mensaje de error:
%OC_USD-SLOT1-2-RF_CRC: OC1 received packets with
CRC error from MOD 15 through XBAR slot 1/inst 1
Esto es informado por M1, que indica que recibió paquetes con la CRC incorrecta del Módulo 15 (M15) a través de la ranura XBAR 1/instancia 1.
Esta sección describe cuatro de los tipos más comunes de errores CRC de estructura.
%OC_USD-SLOT1-2-RF_CRC: OC1 received packets withEsto significa que el módulo en la ranura 1 detectó un error CRC de M15 a la ranura XBAR 1/instancia 1. El módulo en el que se originan los errores CRC se denomina módulo de ingreso (M15 en este caso) y el módulo que informó del problema es el módulo de egreso (M1). XBAR 1 es la barra cruzada en la que se recibió el paquete. Hay dos instancias por XBAR. En este caso, M1 detectó errores CRC de M15 a XBAR slot 1 instance 1.
CRC error from MOD 15 through XBAR slot 1/inst 1
%OC_USD-SLOT4-2-RF_CRC: OC2 received packets withEn este mensaje, el Módulo 4 (M4) informó del error CRC de M1. Observe que falta la información XBAR. El sistema no puede determinar el XBAR que atravesó el paquete. Hay muchas razones, pero las más comunes son: La información en el encabezado de entramado del paquete puede estar dañada, por lo que no se puede determinar el módulo de origen; el XBAR que se recorrió se elimina del sistema desde que el error aumentó. Por lo tanto, no se informó en el mensaje de syslog por hora.
CRC error from MOD 1
%OC_USD-2-RF_CRC: OC1 received packets withEn este caso, un dispositivo detectó un CRC del Módulo 16 (M16) al XBAR 1. Sin embargo, no hay módulo receptor. Cuando el Supervisor (SUP) detecta una CRC que proviene del módulo de fabric, la información de la ranura no se registra. Cuando no ve la información de la ranura, el SUP detectó el problema. Esto no significa que la SUP sea mala. Al igual que cuando el módulo informa del problema, hay varios componentes que podrían haber causado el problema: M16, el chasis (no tan probable), XBAR 1 o SUP.
CRC error from MOD 16 through XBAR slot 1/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC2 received packets withEl módulo de origen se obtiene del Octopus de ingreso que originó el paquete incorrecto. El controlador que provoca una interrupción para registrar este mensaje de error no siempre conoce el pulpo de ingreso del que se originó el paquete incorrecto. Esto se debe a que algunos de los bits utilizados para representar el pulpo de ingreso no se utilizan. Si el sistema determina que varios módulos tienen estos bits sin usar activados, el sistema debe asumir que cualquiera de ellos puede ser el origen, lo que hace que el mensaje de error incluya todos esos módulos. El sistema encontró que el Módulo 13 (M13) no puede tener este conflicto debido a que esos bits no se utilizan; por lo tanto, no se registra como una fuente potencial.
CRC error from MOD 11 or 12 or 14 or 15 or 16 or 17 or 18
Las nuevas tarjetas de línea (M2) y el módulo de fabric 2 (FAB2) detectan CRC en S1, S2 o S3. Cuando investiga en detalle y encuentra patrones en los mensajes de falla y de registro, ayuda a aislar el componente defectuoso.
Estas son algunas de las preguntas que debe hacerse:
Las respuestas a estas preguntas le permiten abordar el procedimiento de resolución de problemas desde un ángulo que es más probable que conduzca a una resolución más rápida.
Esta sección establece un marco general utilizado para resolver estos problemas.
Esta sección proporciona ejemplos de cómo resolver problemas similares.
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
Durante algunas horas, se observan errores CRC en M1 y en el Módulo 3 (M3) que provienen únicamente del Módulo 7 (M7).
Hay una XBAR incorrecta o mal asentada que corrompe los paquetes que van a M7, o M7 es mala o está mal asentada.
Si tiene tres XBAR instalados, le proporciona redundancia N+1. Por lo tanto, puede cerrarlos de uno en uno (nunca cerrar más de uno en un momento dado) con un impacto mínimo para ver si el problema se resuelve. Ingrese estos comandos para completar este proceso:
N7K(config)# poweroff xbar 1
<monitor>
N7K(config)# no poweroff xbar 1
N7K(config)# poweroff xbar 2
<monitor>
N7K(config)# no poweroff xbar 2
N7K(config)# poweroff xbar 3
N7K(config)# no poweroff xbar 3
En este caso práctico en particular, el problema no se resolvió cuando se cerraron los XBAR.
Como hay dos módulos que informan de errores CRC, es poco probable que esos dos módulos (M1 y M3) sean la causa. El siguiente paso es volver a colocar M7 (módulo de ingreso), porque es muy probable que sea el componente defectuoso. Las tarjetas de línea mal colocadas pueden causar este problema, y se recomienda volver a colocar el módulo antes del reemplazo.
En este caso práctico, los errores CRC siguieron aumentando en el módulo de fabric después de un reacomodo de M7. Póngase en contacto con el centro de asistencia técnica Cisco Technical Assistance Center (TAC) en este momento (o antes de este momento) para sustituir M7, ya que un nuevo montaje no resuelve el problema.
En este caso práctico, el reemplazo de M7 detuvo los mensajes de error de CRC de fabric y resolvió la pérdida de paquetes.
%OC_USD-SLOT11-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT12-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT13-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT15-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT2-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT4-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT5-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT7-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT8-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
Varios módulos informan de errores CRC del Módulo 12 (M12) que pasan por XBAR 3.
El XBAR 3 está mal colocado o mal colocado, o el M12 está mal colocado o defectuoso.
En este caso, XBAR 3 se cierra con el procedimiento descrito anteriormente (en el primer caso práctico) y se controla si hay errores adicionales. Se encontró que los errores cesaron cuando se cerró XBAR 3. En este punto, se vuelve a colocar el XBAR 3 y se tiene cuidado de asegurar que no se doblen los pines en el plano medio y que el módulo se inserte correctamente. Después de que se vuelva a habilitar XBAR 3, el problema nunca volverá a ocurrir. Este problema se atribuye a un módulo XBAR mal asentado.
%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
MOD 1 or 2 or 7 or 13 or 17 through XBAR
slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC2 received packets with CRC error from
MOD 1 or 2 or 3 or 7 or 15 or 17 through XBAR
slot 2/inst 1 and slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
MOD 1 or 2 or 5 or 7 or 16 or 17 through XBAR
slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1
El módulo 6 (M6) informa de los paquetes con errores CRC recibidos de varias tarjetas de línea y XBAR.
M6 está mal asentado o mal.
M6 es la causa más probable de este problema porque es el único módulo común en todos los mensajes de error. De todos los módulos enumerados en los mensajes de error, el que aparece con mayor uniformidad es M6. Por lo tanto, intente reiniciar M6 para ver si el problema se resuelve antes de reemplazarlo.
En este caso, M6 se vuelve a insertar, pero los errores persisten. Por lo tanto, debe abrir un caso del TAC de Cisco para que se sustituya M6. Después de que se reemplace M6, no se notifican los errores.
Esta es una lista de los comandos usados para resolver problemas/debug:
Revisión | Fecha de publicación | Comentarios |
---|---|---|
1.0 |
11-Sep-2013 |
Versión inicial |