Resolución de problemas de algunas tarjetas de línea (LC) en NCS4016
Introducción
Este documento describe cómo resolver problemas de tarjetas de línea, estados defectuosos bajo los cuales se atasca la tarjeta de línea, posibles razones y acciones de recuperación en un Cisco 4000 Series Network Convergence System (NCS4016).
Antecedentes
El NCS4016 es un chasis de 16 LC (0-15 ranuras) y cada una de las capacidades LC de 200 G. A continuación se muestra una secuencia básica de eventos mientras la LC se inicia en el chasis NCS4016.
- La LC se ha dividido en 9 zonas de alimentación, es decir, de 0 a 8. Todas estas zonas de energía están controladas por CCC (Chip del controlador de tarjeta).
- La primera zona en aparecer es la Zona 0 que activaría el complejo de CPU y arrancaría la lógica básica para una LC.
- Una vez que la zona 0 se enciende. CCC ejecuta el intérprete de encendido y configura los dispositivos básicos antes de sacar a la CPU del estado RESET. (Si la CPU está apagada, permanece en el estado RESET).
- Arriba se encuentran las funciones básicas que se realizan durante el arranque de LC. ¿Ha habido algún problema en las zonas 1 a 8, sólo una porción correspondiente a ellas no habría encendido la energía? Sin embargo, si hay algunos problemas en la Zona 0, toda la LC se apagará.
Antes de comenzar:
Antes de iniciar la resolución de problemas, se recomienda mantener una nota de los siguientes comandos.
- Adjuntar (o iniciar sesión) a la máquina virtual sysadmin(Calvados), ya que la tarjeta que no se pudo iniciar no se mostraría en la máquina virtual XR, el estado y el motivo del error sólo se pueden ver en la máquina virtual sysadmin.
- Sólo las tarjetas que tienen CPU en ellas deberían tener estado de Software operativo. Si no, el estado sería N/A (no aplicable), pero su hardware debería ser "operativo"
Con todas las LC y RP operativas, debería poder ver el resultado como se muestra a continuación.
sysadmin-vm:0_RP0# show platform
18 de agosto 19:57:02.631 UTC
Tipo de tarjeta de ubicación Estado de hardware Estado de SW Estado de configuración
—
NCS4K-2H-O-K OPERATIVO N/D NSHUT 0/0
NCS4K-24LR-O-S OPERATIVO N/D NSHUT 0/5
NCS4K-20T-O-S OPERATIVO N/D NSHUT 0/6
NCS4K-2H-O-K OPERATIVO N/D NSHUT 0/8
0/RP0 NCS4K-RP OPERATIONAL NSHUT
NCS4016-FC-M OPERATIVO N/A NSHUT 0/FC1
NCS4K-CRAFT OPERATIONAL N/A NSHUT 0/CI0
NCS4K-FTA OPERATIVO N/A NSHUT 0/FT0
NCS4K-FTA OPERATIVO N/A NSHUT 0/FT1
NCS4K-AC-PEM OPERATIVO N/A NSHUT 0/PT0
NCS4K-AC-PEM OPERATIVO N/A NSHUT 0/PT1
NCS4K-ECU OPERATIVO N/A NSHUT 0/EC0
sysadmin-vm:0_RP0#
A continuación, se muestran algunos estados de hardware y software defectuosos comunes en los que la LC podría atascarse y sus razones.
Estado-1: HW_FAILED
Este estado sugiere que la tarjeta no se pudo iniciar debido a algunos problemas de energía o el intérprete de encendido CCC impidió la finalización de la secuencia de encendido.
Acciones recomendadas:
Verifique el resultado del siguiente comando.
# sysadmin-vm:0_RP1# show platform detail location <location of card>
En el comando anterior, busque "Last Event" (Último evento) y "Last Event Reason" (Último motivo del evento): esto nos dirá el motivo del error.
sysadmin-vm:0_RP1# show platform detail location 0/fc1
Sat Jul 4 13:52:14.782 UTC
Información de la plataforma para 0/FC1
PID: NCS4016-FC-M
Descripción: "NCS 4016 Agnostic Cross Connect - Multichassis"
VID/SN: V01
HW Oper State : OPERATIVO
Estado del Oper de SW: N/A
Configuración: "NSHUT RST"
Versión de HW: 1.0
Último evento: HW_EVENT_FAILURE
Motivo del último evento: "FRACASO DE detección inicial EXIT0 , solicitud de alimentación encendida, pero no finalizada ccc-pon startup power_control 0x0000001"
Para el estado de falla anterior, también puede verificar el estado del controlador CCC para una ubicación particular. Debe comprobar el estado de la zona de alimentación que es "SET". Debido a que diferentes LC utilizan diferentes zonas de energía para arrancar.
sysadmin-vm:0_RP0# show controller ccc power detail location 0/RP0
18 de agosto 18:33:30.245 UTC
Detalles de la alimentación: Información de zona para 0/RP0:
—
| Zona de alimentación | Estado de la alimentación | Control de energía | Fallo de alimentación |
—
| 0 | OK | SET |-- |
| 1 | OK |-- |-- |
| 2 | OK | SET |-- |
| 3 | OK |-- | — |
| 4 | Aceptar | SET | — |
| 5 |-- |-- |-- |
| 6 | OK |-- |-- |
| 7 |-- |-- |-- |
| 8 | Aceptar | CONJUNTO | — |
sysadmin-vm:0_RP0#
Acciones de recuperación:
- Intente restablecer por software la LC ejecutando el siguiente comando.
# sysadmin-vm:0_RP1# hw-module location <location of card> reload
- Si el reinicio por software no ayuda a resolver el problema, se debe realizar una inserción y extracción en línea (OIR) física de la tarjeta.
Estado 2: POWERED_ON
Este estado se ve en la LC, que es CPU menor y todas las tarjetas LC en NCS4k son CPU menos.
Acciones recomendadas:
sysadmin-vm:0_RP1# show platform
NSHUT DE NSHUT 0/FC0 NC4K-FC OPERATIVO N/A
0/FC1 NC4K-FC POWERED_ON N/A NSHUT
NSHUT DE NAVEGACIÓN N/A OPERATIVA 0/FC2 NC4K-FC
En este caso, el controlador de fabric intentará recuperar la tarjeta por sí solo pero si no detecta el ASIC en 3 minutos, falló entonces la tarjeta aterrizará en el estado POWERED_ON.
Compruebe a continuación la salida que muestra que todas las tarjetas presentes en el chasis están encendidas correctamente.
sysadmin-vm:0_RP0# show controller ccc power summary
18 de agosto 19:09:37.575 UTC
Resumen de potencia CCC:
Estado de alimentación del tipo de tarjeta de ubicación
—
0/0 NCS4K-2H-O-K ON
NCS4016-FC-M 0/FC1 ENCENDIDO
0/5 NCS4K-24LR-O-S ON
0/6 NCS4K-20T-O-S ON
0/RP0 NCS4K-RP ON
0/8 NCS4K-2H-O-K ON
sysadmin-vm:0_RP0#
Acciones de recuperación:
- Intente restablecer por software la LC ejecutando el siguiente comando si el estado 2(POWERED_ON) continúa existiendo para cualquier LC/FC.
# sysadmin-vm:0_RP1# hw-module location <location of card> reload
- Si el reinicio por software no ayuda a resolver el problema, se debe realizar una OIR física de la tarjeta.
Estado 3: PRESENTE
Esto significa que la tarjeta se ha detectado y está en estado de apagado. Este podría ser el estado válido cuando la tarjeta se ha configurado para apagar en la configuración. Es posible que la tarjeta se haya visto obligada a cerrar debido a la alarma ambiental, falla en el controlador CCC al detectar la tarjeta debido a fallas de I2C.
Acciones recomendadas:
sysadmin-vm:0_RP1# show platform detail location <location of card>
En el resultado anterior, consulte "Último evento:" y "Último motivo del evento:".
Para confirmar las alarmas, también podría ejecutar el siguiente comando si la tarjeta se ha apagado debido a cualquier condición de alarma. A continuación se muestra la condición de alarma para la ubicación de la tarjeta correspondiente.
sysadmin-vm:0_RP0# show alarms
18 de agosto 18:03:35.421 UTC
—
Alarmas activas
—
Descripción de la hora del grupo de gravedad de la ubicación
—
0/PT0-PM0: error del módulo de alimentación 05/22/70 04:56:45 (PM_NO_INPUT_DETECTED).
0/PT0-PM0, principal entorno 05/22/70 04:56:45 Salida del módulo de alimentación desactivada (PM_OUTPUT_EN_PIN_HI).
0/PT0-PM2, principal entorno 05/22/70 04:56:45 Error de módulo de alimentación (PM_NO_INPUT_DETECTED).
0/PT0-PM2 principal del entorno 05/22/70 04:56:45 Salida del módulo de alimentación desactivada (PM_OUTPUT_EN_PIN_HI).
0/PT0-PM3: error del módulo de alimentación 05/22/70 04:56:45 (PM_NO_INPUT_DETECTED).
0/PT0-PM3 principal del entorno 05/22/70 04:56:45 Salida del módulo de alimentación desactivada (PM_OUTPUT_EN_PIN_HI).
0/PT1-PM1, principal entorno 05/22/70 04:56:45 Error de módulo de alimentación (PM_NO_INPUT_DETECTED).
También puede ejecutar el mismo comando para verificar la salida de la ubicación respectiva de la tarjeta.
sysadmin-vm:0_RP1# show alarms brief card location < location of card>
Acciones de recuperación:
- Intente restablecer por software la LC ejecutando el siguiente comando.
# sysadmin-vm:0_RP1# hw-module location <location of card> reload
- Si el reinicio por software no ayuda a resolver el problema, se debe realizar una OIR física de la tarjeta
Estado 4: DESCONOCIDO
La razón más común para este estado es que el driver CCC no lee el IDPROM de la tarjeta o el driver CCC detectó la corrupción de IDPROM que falló en que se detectó la tarjeta.
sysadmin-vm:0_RP1# show platform
Sat Jul 4 15:27:50.478 UTC
Tipo de tarjeta de ubicación Estado de hardware Estado de SW Estado de configuración
—
0/1 UNKNOWN POWERED_ON OPERATIONAL NSHUT
Acciones de recuperación:
- Intente restablecer por software la LC ejecutando el siguiente comando.
# sysadmin-vm:0_RP1# hw-module location <location of card> reload
- Si el reinicio por software no ayuda a resolver el problema, se debe realizar una OIR física de la tarjeta
- Si la OIR física no ayuda, se sugiere la RMA de la tarjeta.
Estado 5: SW_INACTIVE
Tenga en cuenta que para que la tarjeta entre en el estado SW_INACTIVE debe estar operativa en el estado HW. Un motivo común para que la tarjeta entre en este estado es que el SO HOST no puede acceder a SSD.
Acciones recomendadas:
Compruebe si la tarjeta tiene control de la conexión Ethernet.
sysadmin-vm:0_RP1# show controller switch alcanzable
Sat Jul 4 16:31:33.690 UTC
Switch de tarjeta en rack
—
0 RP0 RP-SW
0 RP1 RP-SW
0 LC0 LC-SW
0 LC1 LC-SW
0 LC2 LC-SW
0 LC4 LC-SW
Si la tarjeta no tiene la conexión Ethernet de control, ejecute el siguiente comando para verificar el estado del protocolo Ethernet en la tarjeta. El estado del protocolo debe ser "Activo" o "En espera" cualquier otro estado visto indicaría el problema de conexión.
sysadmin-vm:0_RP0# show controller switch mlap location 0/RP0/RP-SW
18 de agosto 18:08:22.343 UTC
Número de serie del switch de tarjeta de rack
—
0 RP0 RP-SW SAL19058RDF
Protocolo de reenvío de protocolo de administración de Phys
El Tipo De Estado De Estado De Puerto Se Conecta Con
—
0 hacia abajo - LC15 interno
1 hacia abajo - LC interna7
2 hacia abajo - LC13 interno
3 hacia abajo - LC12 interno
4 hacia abajo - LC14 interno
5 hacia abajo - LC11 interno
6 Up Active Forwarding Internal LC6
7 Up Active Forwarding Internal LC5
8 Abajo Abajo - LC1 interna
9 Abajo Abajo - LC4 interna
10 Abajo Abajo - LC3 interna
11 hacia arriba - LC10 interna
16 Up Active Forwarding Internal LC0
17 Up Active Forwarding Internal LC8
26 hacia abajo - LC2 interno
27 Abajo Abajo - LC9 interna
32 Abajo Abajo - MATESC interno (RP0 Ctrl)
33 Abajo Abajo - MATESC interno (RP1 Ctrl)
36 Up Active Forwarding Internal CCC (RP0 Ctrl)
37 Arriba Reenvío Gestionado Rem Interno CCC (RP1 Ctrl)
52 hacia abajo - SFP+ externo 1
54 hacia abajo - SFP+ externo 0
Acciones de recuperación:
Si ha confirmado que el puerto está inactivo, también puede intentar acceder a la consola de CPU de la tarjeta y verificar si la tarjeta responde o no. Una tarjeta de acceso emitirá mensajes que sugieran por qué pasó al estado SW_INACTIVE.
sysadmin-vm:0_RP1# attach location <location of card>
El último salto de resort debería ser la recreación de imágenes de la tarjeta.
#reimage_chassis -s <slot id> pero antes de este paso consulte con un experto técnico.
Enlaces relacionados:
http://www.cisco.com/c/en/us/products/collateral/optical-networking/network-convergence-system-4000-series/data_sheet_c78-729222.html#
http://www.cisco.com/c/en/us/td/docs/routers/ncs4000/software/install/guide/b_sysadmin-ig-ncs4k/b_sysadmin-ig-ncs4k_chapter_010.html