Routers : Routers Cisco de la serie 12000

Resolución de problemas de los tiempos de espera del ping de recursos físicos y de las fallas en el router de Internet de la serie Cisco 12000

17 Octubre 2016 - Traducción Automática
Otras Versiones: PDFpdf | Inglés (22 Abril 2015) | Comentarios


Contenido


Introducción

Este documento explica cómo resolver problemas los tiempos de espera de Ping de recursos físicos y los errores en el Cisco 12000 Series Internet Router. Los mensajes de error siguientes indican a tales errores:

%GRP-3-FABRIC_UNI: Unicast send timed out (3)

y

%GRP-3-COREDUMP: Core dump incident on slot 3, error: Fabric ping failure (seq:29192)

Antes de comenzar

Convenciones

Para obtener más información sobre las convenciones del documento, consulte Convenciones de Consejos Técnicos de Cisco.

prerrequisitos

No hay requisitos previos específicos para este documento.

Componentes Utilizados

La información que contiene este documento se basa en las siguientes versiones de hardware.

  • Cisco 12000 Series Internet Routers

La información que se presenta en este documento se originó a partir de dispositivos dentro de un ambiente de laboratorio específico. Todos los dispositivos que se utilizan en este documento se pusieron en funcionamiento con una configuración verificada (predeterminada). Si la red está funcionando, asegúrese de haber comprendido el impacto que puede tener un comando antes de ejecutarlo.

Antecedente

El GRP y las tarjetas de línea (LC) del router de Internet Serie 12000 de Cisco se conectan a través de la estructura de configuración de barra cruzada, que proporciona un trayecto físico de alta velocidad para la mayoría de las comunicaciones entre tarjetas. Entre los mensajes que se envían el GRP y las tarjetas de línea por el switch de entramado se incluyen paquetes reales que se enrutan y se reciben, que reenvían información, estadísticas de tráfico y la mayor parte de la información de administración y control. De esta manera, es importante para el GRP asegurarse de que esta ruta está funcionando correctamente.

Los pings de recursos físicos son una de las cuatro aplicaciones que se ejecutan entre el GRP y el entramado de switches. Los otros son la Comunicación entre procesadores (IPC), los paquetes de red y las descargas de códigos. Los PING de recursos físicos se implementan para proporcionar a la parte de un algoritmo y un mecanismo de señal de mantenimiento de la detección de falla implementados usando los buffers en el BUS de mantenimiento (MBUS) y los ping a través de las interfaces de recursos físicos del linecard.

En el GRP, los controladores de interfaz de estructura de Segmentación y reagrupación de celdas de Cisco (CSAR) procesan mensajes que deben enviarse y recibirse entre la estructura de conmutación y el GRP. Incluye los ping de fábrica. Los pings de la estructura son generados por el software y se envían desde la GRP primaria a cada tarjeta de línea cada seis segundos. Cada vez que un linecard recibe un pedido de ping del GRP, el LC devuelve una contestación al GRP. Si el GRP no recibe respuesta a cinco pings de estructura consecutivos (tiempo total 30 segundos), declara que la tarjeta de línea está inactiva y la reinicia a través del BUS de mantenimiento (MBUS)

La mayoría de las veces, la tarjeta de línea está muy ocupada para responder a las peticiones de ping de recursos físicos del GRP. Estas fallas de Ping de recursos físicos pudieron también ser causadas por un recurso físico defectuoso o un bug en el software del ½ del ¿Â de Cisco IOSïÂ. Todas las posibles causas de fallas de ping de estructura se encuentran detalladas en la sección de resolución de problemas que aparece a continuación.

Los tiempos de espera agotados de ping de trama ocurren cuando el Procesador de ruta gigabit (GRP) detecta que se atascó un pedido de ping en la cola ToFab (hacia la trama del switch) del circuito integrado específico de aplicación (ASIC) de Segmentación y reensamblaje de celda de Cisco (CSAR). Este ASIC es responsable de cortar los paquetes en las celdas de Cisco antes de enviarlas a través del Switch Fabric al line card (LC) de la salida.

Los errores de ping de entramado ocurren cuando una tarjeta de línea o el GRP secundario no pueden responder al pedido de ping de entramado ping desde el GRP principal por el switch fabric. Ese tipo de fallas son el síntoma de un problema que debe ser investigado.

Síntomas

Como se explica en la sección del fondo, el GRP envía un PING de recurso físico al linecards cada seis segundos, y el linecards debe responder. Cuando el GRP no puede recibir una contestación a cinco PING de recursos físicos consecutivos, reajusta el linecard enviando un mensaje request sobre el BUS de mantenimiento (MBUS), y señala un caída del sistema forzada por software, como se ve en la salida del comando show context slot {-}.

Desde los registros de la consola o el comando show log, puede tener los siguientes mensajes de error antes del mensaje de error de ping de estructura:

%GRP-3-FABRIC_UNI: Unicast send timed out (3) 
%GRP-3-FABRIC_UNI: Unicast send timed out (3) 
%GRP-3-FABRIC_UNI: Unicast send timed out (3)

donde el número (3) representa la ranura de la tarjeta de línea hacia donde el GRP primario intentó enviar un ping de estructura.

Este mensaje indica que hay un paquete atascado en la cola ToFab del CSAR ASIC en el GRP principal. Si algo se bloquea en alguno de los dos búferes CSAR por más de 100 milisegundos (msecs), el búfer se descarga y se genera un mensaje de tiempo de espera.

Si el GRP envía su mensaje del pedido de Ping de recursos físicos, pero el linecard no contesta, o las respuestas del linecard pero el Switch Fabric es defectuoso así que pierde el mensaje, usted no verá este mensaje antes del mensaje de error de ping de estructura. Por lo tanto, si recibe el mensaje de error "%GRP-3-FABRIC_UNI", esto significa que algo no pudo ser transmitido a una ranura por el entramado durante 100 ó 200 milisegundos. Es posible que, debido al mensaje %GRP-3-FABRIC_UNI, no pueda enviar las señales de mantenimiento al LC y se produzca un falla de ping de estructura al cabo de, en este caso, 30 segundos. Sin embargo, puede obtener fallas de ping de recursos físicos sin el "%GRP-3-FABRIC_UNI" y viceversa.

El GRP primario puede determinar que una tarjeta de línea o un GRP secundario se ha degradado al punto de que es apropiado un volcado de diagnóstico del núcleo. En este momento, el GRP envía un mensaje a través del MBUS hacia la tarjeta de línea y le pide a la CPU de la tarjeta de línea que falle, de manera que se pueda obtener un vaciado de memoria.

%LCINFO-3-CRASH: Line card in slot 3 crashed
%GRP-3-COREDUMP: Core dump incident on slot 3, error: Fabric ping failure (seq:29192)

La tarjeta de línea crea una descarga de memoria si está configurada con el comando exception crashinfo y los comandos relacionados (para obtener información específica acerca de cómo configurar descargas de memoria, vea Configuración de la descarga de memoria en una tarjeta de línea GSR). La cadena de calificación en la salida del comando show context slot {-} indica la razón de la recarga. En el caso de una falla de Ping de recursos físicos, la razón es siempre “caída del sistema forzada por software”.

CRASH INFO: Slot 1, Index 1, Crash at 00:42:45 KST Mon Mar 12 2001
VERSION: 
GS Software (GLC1-LC-M), Version 12.0(18)ST, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) 
TAC Support: http://www.cisco.com/tac 
Compiled Thu 09-Aug-01 22:06 by nmasa 
Card Type: 2 Ports OC3 Channelized to DS1/E1 , S/N CAT00400500 
System exception: sig=23, code=0x24, 

! --- SIG=23 indicates a software-forced crash.
 
context=0x41303B04 
System restarted by a Software forced crash 
STACK TRACE: 
-Traceback= 400C3970 400C1F90 40815D5C 407D3144 400C7488

Después de los errores de placa de línea, envía un mensaje inicial para notificar el GRP primario. El GRP luego, espera la tarjeta de línea para enviar otra información acerca del desperfecto a través del MBUS. El GRP debería recibir información completa dentro de unos milisegundos, tras recibir el primer mensaje de la tarjeta de línea. En el improbable caso que los mensajes de información del desperfecto no sean recibidos por GRP dentro de un límite de tiempo razonable (10 segundos), el GRP imprime un mensaje de error y le comunica al resto del software GRP que la tarjeta de línea ha colapsado.

Resolución de problemas

Durante el funcionamiento normal del router, el GRP primario hace ping continuamente a las tarjetas de línea, y las tarjetas de línea responden. Cualquier falla de ping es un síntoma de otro problema que debe ser investigado. Estos problemas incluyen:

Nota: Si el error puede ser reproducido, no configure ninguna auto-restauración del servicio en el GRP. Este comando inhabilita una recarga de la tarjeta de línea en la próxima falla de ping de estructura y le permite conectarse a la tarjeta de línea mediante el comando attach <nº de ranura> a fin de capturar los comandos show relevantes.

Problema con la tarjeta de línea

  • La razón más probable es que un depurador del software del IOS de Cisco en el que se está inhabilitando un proceso, se interrumpe lo suficiente como para perder cinco pings de estructura consecutivos. Intente actualizar a la última versión del software Cisco IOS en su serie a fin de evitar problemas ya resueltos. Para la ayuda de la actualización, vea la área de software de la descarga de Cisco.

  • La tarjeta de línea quizás esté ejerciendo contrapresión durante mucho tiempo por lo que el programador no permite que se reciba el tráfico desde el entramado del switch. Este síntoma sugiere un problema de congestión de la interfaz. Use los siguientes comandos para confirmar estos síntomas:

    • comando show controller frfab queue en la tarjeta de línea. Busque una cola libre no IPC con pocos búfers disponibles o con ninguno.

    • comando show controllers csar queue en el GRP. Como se muestra en el siguiente resultado de ejemplo, busque valores distintos de cero para "Max Length" y que "Max Length" iguale al valor "Length":

      router#show controllers csar queue
           1190 Free Q
      
      Slot Length Max Length
        0     0      7
        1     0      2
        2    70     70 
      
      ! -- CSAR queue for slot 2 is building and reaching max length.
      
        3     0      2
        4     0      3
        5     0      0
         ...
      

      El CSAR coloca en cola hasta 50 paquetes para una tarjeta de línea de destino. Luego de 50 paquetes, sólo paquetes de ping de recursos físicos están en cola. Si el límite de cola entonces aumenta a 70, el CSAR para el hacer cola de todos los paquetes -- incluyendo los PING de recursos físicos -- al linecard. El GRP y todo el linecards tienen buffers de la segmentación 64k CSAR en los cuales salvar los mensajes. Si estos búfers están ocupados, el router usa una cola de retención de software para almacenar los mensajes. También configura un temporizador para asegurar que los mensajes de ping en la estructura no continúen en esta cola demasiado tiempo.

  • Alto nivel de utilización de la CPU en la tarjeta de línea - Aparece comúnmente durante la recalculación de un tabla extensa de Cisco Express Forwarding (CEF) tras un cambio de tabla de ruteo masivo o después de una oscilación de link y reinicio de la sesión del Protocolo de la gateway marginal (BGP). La utilización de la CPU también puede ser elevada cuando se conmuta el tráfico en el software. Esto sucede principalmente en el linecards del motor 0 donde la mayoría de las características se implementan en el software. Si éste es el caso, puede verificar la configuración de la tarjeta de línea y eliminar las funciones que pudieran afectar la CPU en el motor 0 LC. La alta utilización de CPU también puede deberse a un error de funcionamiento. Determine la utilización de la CPU con el comando execute-on slot <slot-> show proc cpu o el comando execute-on slot <slot-> show tech si el comando anterior no se soporta en la versión del Cisco IOS Software que está funcionando con en el router. Considere actualizarse a la última versión del software del IOS de Cisco en su tren para trabajar con problemas conocidos.

  • El linecard se está ejecutando de los buffers del Inter-Process Communication (IPC), que se utilizan a los mensajes del control de intercambio entre el linecards y el GRP. Consulte los pasos de diagnóstico y solución de averías en Solución de problemas de mensajes de error relacionados con CEF. Si está tratando de resolver un problema de IPC, asegúrese de que su Router de Internet Cisco de la serie 12000 esté ejecutando, como mínimo, la versión 12.0(18)S del IOS de Cisco. Esta versión ha introducido un tamaño predeterminado más grande de 5000 para que el caché de IPC aumente su estabilidad y scalability.

  • Problema de hardware en la tarjeta de línea. Es importante notar que menos del 10% de las fallas de ping de estructura se deben a problemas de hardware. Antes de comunicarse con el TAC de Cisco para solicitar el reemplazo de hardware, intente realizar estos pasos:

    1. Busque los mensajes de tiempo de espera de IPC impresos antes de la falla de Ping de recursos físicos. También vea la sección de IPC abajo.

    2. Reasiente la tarjeta de línea.

    3. Apague y encienda el router.

    4. Si no tiene acceso físico al router, ejecute el comando hw-module slot <slot #> reload para volver a cargar la tarjeta de línea manualmente.

Problema con Switching Fabric

El corazón del Cisco 12000 Series Internet Router es el circuito de Switch Fabric, que proporciona las interconexiones sincronizadas de la velocidad Gigabit para el linecards y el GRP. El circuito de Switch Fabric contiene dos tipos de indicadores luminosos LED amarillo de la placa muestra gravedad menor:

  • Tarjetas del reloj programador (CSC)

  • Tarjetas de entramado de switches (SFC)

Si falla una de estas tarjetas, los mensajes ping no pueden seguir atravesando la estructura. En este caso, debería ver también otros mensajes que apuntan a un defecto de la estructura, como alguno de los siguientes:

%FABRIC-3-CRC: Switch card 18

Utilice el comando show controllers fia para determinar si tiene o no un CSC o SFC defectuoso. Utilice el comando execute-on all show controllers fia para capturar el resultado de todas las tarjetas de línea. Compare el resultado del GRP con el resultado de las tarjetas de línea para determinar si debe reemplazarse una tarjeta de estructura de conmutación fallada.

El siguiente resultado de ejemplo apunta a un problema con sfc0 en la ranura 18. Primero trate de restaurar esta tarjeta y luego solicite un reemplazo si el contador de errores crc16 sigue aumentando.

  Router#show controllers fia 
      Fabric configuration: Full bandwidth redundant 
      Master Scheduler: Slot 17
      From Fabric FIA Errors 
      ----------------------- 
      redund FIFO parity 0   redund overflow 0     cell drops 1 
      crc32 lkup parity  0   cell parity     0     crc32      0 
      Switch cards present    0x001F  Slots  16 17 18 19 20
      Switch cards monitered  0x001F  Slots  16 17 18 19 20 
      Slot:     16         17         18         19         20 
      Name:    csc0       csc1       sfc0       sfc1       sfc2 
             --------   --------   --------   --------   -------- 
      Los    0          0          0          0          0 
      state  Off        Off        Off        Off        Off 
      crc16  0          0          4334       0          0 

! --- Check the CRCs under SFC0 (slot 18)

      To Fabric FIA Errors 
      ----------------------- 
      sca not pres 0          req error     0          uni FIFO overflow 0 
      grant parity 0          multi req     0          uni FIFO undrflow 0 
      cntrl parity 0          uni req       0          crc32 lkup parity 0 
      multi FIFO   0          empty DST req 0          handshake error   0 
      cell parity  0

Problema con el GRP

En algunos informes de las fallas de Ping de recursos físicos, el router señaló los mensajes de error de la verificación por redundancia cíclica (CRC) antes del error. Marque para saber si hay CRC en las placas de Switching Card usando el comando show controllers fia en el GRP y execute-on all la FIA de los reguladores de la demostración en el linecards. Los errores CRC sólo en el GRP (y no en alguna tarjeta de línea) señalan un GRP defectuoso. Primer intento para volver a sentar el GRP y después para pedir un reemplazo si los errores CRC continúan incrementando.

Problemas conocidos con IPC

Los problemas con el software del Inter-Process Communication (IPC) que se ejecutaba entre el GRP y el linecards se han resuelto en las diversas versiones del Cisco IOS Software Release 12.0S. En este caso, usted debe ver algunos mensajes de error del IPC relacionado en el registro, junto con los mensajes del tiempo de espera de Ping de recursos físicos. Intente funcionar con la última versión de Cisco IOS Software para trabajar alrededor de los problemas conocidos con IPC. También vea la área de software de la descarga de Cisco para la ayuda con la selección de una versión.

Problemas conocidos sobre Cisco Express Forwarding (CEF)

Vea Resolución de problemas de los mensajes de error relacionados con CEF si el resultado del comando show log muestra un mensaje asociado con la Base de información de reenvío CEF (FIB) similar al que se muestra a continuación:

%FIB-3-FIBDISABLE: Fatal error, slot 2: IPC failure

Comandos debug y show útiles

Utilice los siguientes comandos debug y show para resolver problemas relacionados con los mensajes de falla/tiempo de espera agotado de ping de estructura en el Router de Internet de la serie 12000 de Cisco.

  • debug fabric events – Imprime los errores detectados por GRP. Este comando de depuración genera muy pocos mensajes y sólo cuando existe una situación de error.

  • debug fabric ping - Imprime cualquier error detectado en el proceso de ping de entramado por el GRP. Este comando de depuración genera muy pocos mensajes y sólo cuando existe una situación de error.

Capture los siguientes comandos para cada tarjeta de línea de reinicio. Reemplace X por el número de ranura correspondiente.

  • execute-on slot X debug fabric events – Imprime errores detectados por la tarjeta de línea en sus respuestas de ping. Este comando produce muy pocos mensajes y solamente en una condición de error.

  • exec slot X debug fabric ping – Imprime un mensaje cuando la tarjeta de línea recibe un ping de entramado. Esta depuración genera una línea de salida a cada segundo para cada tarjeta de línea en la que se activa.

Luego de que se caiga la tarjeta de línea, capture los siguientes comandos de la consola GRP:

  • muestre a contexto todo el detalle

  • show fabric

  • show controllers fia

  • show controllers csar queue

  • execute-on all show controllers fia

  • show tech

  • show log

Capture también los siguientes comandos sobre el estatus del linecard:

  • proc CPU de la demostración del <slot-> del execute-on slot

  • execute-on slot <ranura#> show controller tofab queue

  • execute-on slot <slot#> show controller tofab stat

  • execute-on slot <ranura#> show controller frfab queue

  • execute-on slot <no. de ranura> show controller frfab stat

  • execute-on slot <slot#> show ipc stat

  • execute-on slot <ranura#> show ipc queue

  • execute-on slot <ranura Nº> show stack

  • execute-on slot <slot#> show tech

Si continúa experimentando problemas luego de haber seguido todos los pasos de solución de problemas, recopile toda la información necesaria mencionada anteriormente y comuníquese con su representante de Cisco TAC a fin de obtener una solución de problemas más integral.

Aquí está la salida de algunos comandos show útiles:

router#show controllers csar 
From Fabric Error Stats 
------------------------ 
0 out of order, 0 unexpected first 
0 unexpected last, 0 unknown rx type, 0 corrupted pak, 0 parity 
0 first/last, 0 sequence, 0 cell avail, 0 reassembly,

To Fabric Stats 
------------------------ 
Slot  Tx Pkts      TX Th Pkts      Rx Pkts      Rx Th Pkts   To Fab timeout 
0     580278       490214          281061       1336470      0 
1     18854        66592           18390        945419       0 
2     6            50824           0            896290       0 
3     0            0               0            0            0 
4     0            51909           0            895430       0 
5     0            0               0            0            0 
6     0            35113           0            880247       0 
7     0            52690           0            52690        0 
8     0            0               0            0            0 
9     0            0               0            0            0 
10    0            0               0            0            0 
11    0            0               0            0            0 
12    0            0               0            0            0 
13    0            0               0            0            0 
14    0            0               0            0            0 
15    0            0               0            0            0 
0 too big, 1 Buf0 free, 1 Buf1 free 
0 Copy fail

Fabric access Error Stats 
-------------------------- 
0 parity errors,  0 bad access size, 0 invalid address 
0 queue full parity, 0 flushed buffer

router#show controllers fia 
Fabric configuration: Full bandwidth, nonredundant fabric 
Master Scheduler: Slot 16

From Fabric FIA Errors 
----------------------- 
redund fifo parity 0          redund overflow 0          cell drops 0 
crc32 lkup parity  0          cell parity     0          crc32      0 
Switch cards present    0x001D    Slots  16 18 19 20 
Switch cards monitored  0x001D    Slots  16 18 19 20 
Slot:     16         17         18         19         20 
Name:    csc0       csc1       sfc0       sfc1       sfc2 
       --------   --------   --------   --------   -------- 
los    0          0          0          0          0 
state  Off        Off        Off        Off        Off 
crc16  0          254        0          0          0  

! --- Check the CRC error here. In this case CSC1 in slot 17.


To Fabric FIA Errors 
----------------------- 
sca not pres 0          req error     0          uni FIFO overflow 0 
grant parity 0          multi req     0          uni FIFO undrflow 0 
cntrl parity 0          uni req       0          crc32 lkup parity 0 
multi FIFO   0          empty dst req 0          handshake error   0 
cell parity  0

Usted puede encontrar más detalles en el comando show controllers fia en cómo leer la salida del comando show controller fia.

router#show fabric 
Dest    ToFab       FrFab     Bad Seq     Unexpected 
Slot    Pkts        Pkts                  Pkts 
---------------------------------------------------- 
Slot0   26327       26327     0           0 
Slot1   26325       26325     0           0 
Slot2   26321       26321     0           0 
Slot4   26315       26315     0           0 
Slot6   26311       26311     0           0 
Slot7   26334       26334     0           0

multicast timeout 0 
failed pak        0 

Current fabric timeout is 6000

fabric send fails 58

Información para recopilar si abre un caso del TAC

Si usted todavía necesita la ayuda después de seguir los pasos de Troubleshooting arriba y quiere crear una solicitud de servicio con el TAC de Cisco, adjunte por favor la siguiente información a su caso para resolver problemas los problemas del PING de recurso físico en el Cisco 12000 Series Internet Router:
  • troubleshooting realizado antes de abrir el caso
  • show technical-support output (en modo habilitar de ser posible)
  • el resultado o la captura de la consola del show log, si está disponible
  • Soporte técnico de la demostración del [slot -] del execute-on slot para el slot que experimentó el error de placa de línea
Adjunte los datos recolectados a su caso en un texto sin formato (.txt), sin compactar. Puede vincular información a su caso transfiriéndola mediante la herramienta Case Query (sólo para clientes registrados) . Si no puede ingresar a la herramienta Case Query y desea adjuntar información pertinente a su caso, puede enviarla a attach@cisco.com, recuerde escribir el número de su caso en el asunto del mensaje.

Nota: Si es posible, no recargue manualmente el router ni lo someta a un ciclo de apagado y encendido antes de recolectar la información antes mencionada ya que esto puede causar la pérdida de información importante necesaria para determinar la causa raíz del problema.


Información Relacionada


Document ID: 12421