Routers : Routers Cisco de la serie 12000

Resolución de problemas de desperfectos de tarjetas de línea en el router de Internet de la serie Cisco 12000’

17 Octubre 2016 - Traducción Automática
Otras Versiones: PDFpdf | Inglés (22 Abril 2015) | Comentarios


Interactivo: Este documento ofrece un análisis personalizado de su dispositivo Cisco.


Contenido


Introducción

Este documento provee información sobre cómo resolver problemas de errores de línea card en el Cisco 12000 Series Internet Router.

prerrequisitos

Requisitos

No hay requisitos específicos para este documento.

Componentes Utilizados

La información que contiene este documento se basa en las siguientes versiones de software y hardware.

  • Todos los routers de la serie 12000 de Internet de Cisco, entre ellos los modelos 12008, 12012, 12016, 12404, 12406, 12410 y 12416.

  • Todas las versiones de software del ½ del ¿Â de Cisco IOSï que apoyan al Cisco 12000 Series Internet Router.

La información que contiene este documento se creó a partir de los dispositivos en un ambiente de laboratorio específico. Todos los dispositivos que se utilizan en este documento se pusieron en funcionamiento con una configuración verificada (predeterminada). Si la red está funcionando, asegúrese de haber comprendido el impacto que puede tener cualquier comando.

Convenciones

Consulte Convenciones de Consejos TécnicosCisco para obtener más información sobre las convenciones del documento.

Antecedentes

Esta sección proporciona un fondo en cómo identificar un error de placa de línea.

Identifique un error de placa de línea

Para identificar rápidamente un error de placa de línea, utilice el comando show context summary:

   Router#show context summary 
       CRASH INFO SUMMARY 
         Slot 0 : 0 crashes 
         Slot 1 : 0 crashes 
         Slot 2 : 0 crashes 
         Slot 3 : 0 crashes 
         Slot 4 : 1 crashes 
           1 - crash at 04:28:56 EDT Tue Apr 20 1999 
         Slot 5 : 0 crashes 
         Slot 6 : 0 crashes 
         Slot 7 : 0 crashes 
         Slot 8 : 0 crashes 
         Slot 9 : 0 crashes 
         Slot 10: 0 crashes 
         Slot 11: 0 crashes

Si la caída afecta al router sí mismo (y no el linecard solamente), refiera a los desperfectos del router del troubleshooting.

Recopile la información sobre la caída

Para recoger los datos pertinentes sobre la caída, utilice los comandos mostrados en el cuadro 1.

Presente los comandos 1 de utilizar para recoger los datos sobre la caída

Comando Descripción
show version Proporciona la información general sobre la configuración del hardware y del software del sistema.
show logging Visualiza los registros generales del router.
muestre el [slot -] del diag Proporciona la información específica sobre un slot determinado: tipo de motor, revisiones de hardware, configuración de la memoria, y así sucesivamente.
[slot -] del show context slot Proporciona la información contextual sobre las caídas recientes. Éste es a menudo la mayoría del comando útil para resolver problemas los errores de placa de línea.
vaciado de memoria Un vaciado de memoria de un linecard es el contenido total de su memoria a la hora de la caída. Estos datos no son normalmente necesarios para un Troubleshooting inicial. Puede ser requerido más adelante si el problema resulta ser un nuevo bug de software. En ese caso, refiera a configurar un vaciado de memoria en una placa de línea GSR.

Si usted tiene la salida de un comando del tecnología-soporte de la demostración (del enable mode) de su dispositivo de Cisco, usted puede utilizar para visualizar los problemas potenciales y los arreglos. Para utilizar, debe ser un cliente registrado, haber iniciado una sesión y tener JavaScript habilitado.

Analice los datos recogidos

Verifique el valor del campo sig= en el resultado del comando show context slot [slot#]:

       Router#show context slot 4 
       CRASH INFO: Slot 4, Index 1, Crash at 04:28:56 EDT Tue Apr 20 1999 

       VERSION: 
       GS Software (GLC1-LC-M), Version 11.2(15)GS1a, EARLY DEPLOYMENT RELEASE 
       SOFTWARE (fc1) 
       Compiled Mon 28-Dec-98 14:53 by tamb 
       Card Type: 1 Port Packet Over SONET OC-12c/STM-4c, S/N CAB020500AL 
       System exception: SIG=20, code=0xA414EF5A, context=0x40337424 

       Traceback Using RA 
       STACK TRACE: 
         traceback 4014CFC0 40141AB8 40143944 4014607C 4014A7EC 401499D4 40149BB4 
       40149FD4 40080118 40080104 
       CONTEXT: 
       $0 : 00000000, AT : 40330000, v0 : 00000000, v1 : 00000038 
       a0 : 4094EF58, a1 : 00000120, a2 : 00000002, a3 : 00000001 
       t0 : 00000010, t1 : 3400BF01, t2 : 34008D00, t3 : FFFF00FF 
       t4 : 400A1410, t5 : 00000002, t6 : 00000000, t7 : 4041783C 
       s0 : 4093F980, s1 : 4093F980, s2 : 4094EEF0, s3 : 4094EF00 
       s4 : 00000000, s5 : 00000001, s6 : 00000000, s7 : 00000000 
       t8 : 34008000, t9 : 00000000, k0 : 404D1860, k1 : 400A2F68 
       gp : 402F3070, sp : 4082BFB0, s8 : 00000000, ra : 400826FC 
       EPC : 0x40098824, SREG : 0x3400BF04, Cause : 0x00000000 
       ErrorEPC : 0x4015B7E4

Vea el cuadro 2 para descubrir qué Motivo de error hace juego el valor SIG que usted registró.

Cuadro 2 – Encuentre el error que hace juego el valor SIG

Valor SIG Nombre SIG Motivo de error
2 SIGINT Interrupción de hardware inesperada.
3 SIGQUIT Aborto debido a la tecla de interrupción.
4 SIGILL Excepción Opcode ilegal.
5 SIGTRAP Aborto debido al punto de ruptura o a una excepción aritmética.
8 SIGFPE Excepción de la unidad de punto flotante (FPU).
9 SIGKILL Excepción reservada.
10 SIGBUS Excepción de error de bus.
11 SIGSEGV Excepción de SegV.
20 SIGCACHE Excepción de paridad de la memoria caché.
21 SIGWBERR Interrupción de error del bus de escritura.
22 SIGERROR Error fatal de hardware.
23 SIGRELOAD Caída del sistema forzada por software.

Nota: La excepción de paridad de la memoria caché (SIG=20), el excepción de error de bus (SIG=10), y los caída del sistema forzada por software (SIG=23) explican más el de 95% de los errores de placa de línea.

Comando diag Exec

Las Cisco 12000 Series apoyan el comando diag [slot-] para probar a los diversos componentes de placa. Este comando es útil para resolver problemas las caídas relacionadas con el hardware, e identificar a la tarjeta defectuosa.

La opción detallada hace al router visualizar la lista de pruebas mientras que se están realizando. Si no, visualiza simplemente un mensaje PASAJERO” o del “ERROR” “.

Nota: La ejecución de este diagnóstico para todas las actividades del linecard para la duración de las pruebas (generalmente alrededor cinco minutos).

Comenzando con el Cisco IOS Software Release 12.0(22)S, Cisco ha desmontonado la imagen del linecard de los diagnósticos de campo del Cisco 12000 Series Internet Router de la imagen del Cisco IOS Software. En las versiones anteriores, los diagnósticos se podrían iniciar de la línea de comando y la imagen integrada sería iniciada. Para acomodar a los clientes con las placas de memoria Flash del 20 MB, los diagnósticos de campo del linecard ahora se salvan y se mantienen como imagen separada que deba estar disponible en una placa de memoria Flash o un servidor del inicio del Trivial File Transfer Protocol (TFTP) antes de que los comandos field diagnostics puedan ser utilizados. Los diagnósticos de campo del procesador del router y del Switch Fabric continúan siendo liados y no necesitan ser iniciados de una imagen separada. Usted puede encontrar más información en los diagnósticos de campo para el Cisco 12000 Series Internet Router.

Aquí está un ejemplo de un comando diag [slot-] hecho salir:

Router#diag 3 verbose 
Running DIAG config check 
Running Diags will halt ALL activity on the requested slot. 
[confirm] 
CR1.LND10# 
Launching a Field Diagnostic for slot 3 
Downloading diagnostic tests to slot 3 (timeout set to 400 sec.) 
Field Diag download COMPLETE for slot 3 
FD 3> ***************************************************** 
FD 3> GSR Field Diagnostics V3.0 
FD 3> Compiled by award on Tue Aug 3 15:58:13 PDT 1999 
FD 3> view: award-bfr_112.FieldDiagRelease 
FD 3> ***************************************************** 
FD 3> BFR_CARD_TYPE_OC48_1P_POS testing... 
FD 3> running in slot 3 (128 tests) 

Executing all diagnostic tests in slot 3 
(total/indiv. timeout set to 600/200 sec.) 
FD 3> Verbosity now (0x00000001) TESTSDISP 

FDIAG_STAT_IN_PROGRESS: test #1 R5K Internal Cache 
FDIAG_STAT_IN_PROGRESS: test #2 Burst Operations 
FDIAG_STAT_IN_PROGRESS: test #3 Subblock Ordering 
FDIAG_STAT_IN_PROGRESS: test #4 Dram Marching Pattern 
FDIAG_STAT_DONE_FAIL test_num 4, error_code 6 
Field Diagnostic: ****TEST FAILURE**** slot 3: last test run 4, 
Dram Marching Pattern, error 6 
Field Diag eeprom values: run 2 fail mode 1 (TEST FAILURE) slot 3 
last test failed was 4, error code 6 
Shutting down diags in slot 3 

slot 3 done, will not reload automatically

Dependiendo del error encontrado, el slot pudo o no pudo ser recargado automáticamente. Si no es, puede ser que esté en haber pegado o un estado incoherente (control con el comando show diag [slot -]) hasta que estuvo recargado manualmente. Esto es normal. Para recargar manualmente el indicador luminoso LED amarillo de la placa muestra gravedad menor, utilice el comando hw-module slot [slot-] reload.

Excepciones de paridad en la memoria caché

Usted puede identificar las excepciones de paridad de la memoria caché por el SIG=20 en la salida del [slot -] del contexto de la demostración.

Si usted tiene la salida de un comando del tecnología-soporte de la demostración (del enable mode) de su dispositivo de Cisco, usted puede utilizar para visualizar los problemas potenciales y los arreglos. Para utilizar, debe ser un cliente registrado, haber iniciado una sesión y tener JavaScript habilitado.

Hay dos tipos diferentes de errores de paridad:

  • Errores de paridad de software — Éstos ocurren cuando un nivel de energía dentro de los cambios del chip (por ejemplo, el o un cero). En el caso de un error de paridad de software, no es necesario intercambiar la placa ni ninguno de los componentes.

  • Errores de paridad persistente — Éstos ocurren cuando hay un chip o una falla de la placa que hacen los datos ser corrompidos. En este caso, usted debe volver a sentar o substituir el componente afectado, generalmente un intercambio de chip de memoria o un intercambio de placa. Hay un error de paridad persistente cuando los errores de paridad múltiple se consideran en el mismo direccionamiento. Hay más casos complicados que son más duros de identificar pero, generalmente si más de un error de paridad se considera en una región de la memoria particular en relativamente un período corto (varias semanas a los meses), esto se puede considerar un error de paridad persistente.

Se ha demostrado mediante estudios que los errores de paridad de software son 10 a 100 veces más frecuentes que los errores de paridad de hardware.

Para resolver problemas estos errores, encuentre una ventana de mantenimiento para funcionar con el comando diag para ese slot.

  • Si la diagnosis da lugar a un error, substituya el linecard.

  • Si no hay error, es probable ser un error de paridad de software, y el linecard no tiene que ser substituido (a menos que causa un crash un por segunda vez con el error de paridad después de un período corto).

Excepciones de error de bus

Usted puede identificar los excepción de error de bus por el SIG=10 en la salida del [slot -] del contexto de la demostración.

Si usted tiene la salida de un comando del tecnología-soporte de la demostración (del enable mode) de su dispositivo de Cisco, usted puede utilizar para visualizar los problemas potenciales y los arreglos. Para utilizar, debe ser un cliente registrado, haber iniciado una sesión y tener JavaScript habilitado.

Este tipo de caída es normalmente software relacionado, pero si por alguna razón (por ejemplo, es un indicador luminoso LED amarillo de la placa muestra gravedad menor a estrenar, o las caídas comienzan después de que una interrupción de la alimentación eléctrica) usted piensa el problema podría ser relacionada con hardware, funciona con el comando diag para ese slot.

Nota: Algunos bug de software se han sabido para causar el comando diag de señalar los errores, aunque no hay problema con el hardware. Si un indicador luminoso LED amarillo de la placa muestra gravedad menor se ha substituido ya, pero todavía falla en la misma prueba en el diagnóstico, usted puede ser que sea afectado por este problema. En ese caso, trate la caída como problema del software.

El actualizar a la última versión de su tren de versión del Cisco IOS Software elimina todos los bug fijos que causan los errores en el bus del linecard. Si la caída está todavía presente después de que la actualización, recoja la información pertinente (véase la información del frunce sobre la caída), junto con un tecnología-soporte de la demostración, y cualquier información que usted piense pudo ser útil (por ejemplo el cambio reciente de topología, o una nueva función implementada recientemente) y entre en contacto su representante de soporte de Cisco.

Caídas del sistema provocadas por el software

Usted puede identificar los caída del sistema forzada por software por el SIG=23 en la salida del [slot -] del contexto de la demostración. A pesar del nombre, estas caídas no son siempre software relacionado.

Si usted tiene la salida de un comando del tecnología-soporte de la demostración (del enable mode) de su dispositivo de Cisco, usted puede utilizar para visualizar los problemas potenciales y los arreglos. Para utilizar, debe ser un cliente registrado, haber iniciado una sesión y tener JavaScript habilitado.

La mayoría de las razones comunes para los caída del sistema forzada por software son el “tiempo de espera de Ping de recursos físicos”. Durante el funcionamiento normal del router, el (RP) del Route Processor hace ping continuamente el linecards. Si un linecard no contesta, el Route Processor decide a reajustarlo. Esto da lugar a un caída del sistema forzada por software (SIG=23) del linecard afectado, y usted debe ver estos errores en los registros del router:

Mar 12 00:42:48: %GRP-3-FABRIC_UNI: 
Unicast send timed out (4) 
Mar 12 00:42:50: %GRP-3-COREDUMP: Core dump incident on slot 4, error: Fabric ping failure

Para resolver problemas los tiempos de espera de Ping de recursos físicos, usted necesita descubrir porqué el linecard no respondió al ping. Puede haber causas múltiples:

  • El linecard está experimentando CPU elevada la utilización — Esto se puede verificar usando el comando execute-on slot [slot -] show proc cpu. Si el CPU es realmente alto (sobre el 95%), refiera a resolver problemas CPU elevada la utilización en los routeres Cisco.

  • Hay bug de software en el Inter Process Communication (IPC) o el linecard se está ejecutando de los buffers de IPC. La mayor parte del tiempo estas recargas forzadas por el software son causadas por los bug de software.

    El actualizar a la última versión de su tren de versión del Cisco IOS Software elimina todos los bug fijos que causan los tiempos de espera de Ping de recursos físicos. Si la caída está todavía presente después de que la actualización, recoja la información pertinente (véase conseguir la información sobre la caída), junto con un tecnología-soporte de la demostración, un estatus ipc de la demostración, y cualquier información que usted piense puede ser útil (por ejemplo el cambio reciente de topología, o una nueva función implementada recientemente) y entre en contacto su representante de soporte de Cisco.

  • Falla de hardware — Si el indicador luminoso LED amarillo de la placa muestra gravedad menor se ha estado ejecutando muy bien durante mucho tiempo y ninguna topología reciente, el software, o los cambios de la característica ha ocurrido, o si los problemas comenzados después de que un movimiento o una interrupción de la alimentación eléctrica, hardware defectuoso pueda ser la causa. Funcione con el comando diag en el linecard afectado. Substituya el linecard, si es defectuoso. Si el linecards múltiple es afectado o el diag está muy bien, substituya la tela.

%GSRSPA-6-ERRORRECOVER: Un error de hardware o de software ocurrió en la maravilla del subslot 0.Reason: Iniciado automático de la recuperación de error TXECCERR

El error TXECCERR/RXECCERR ocurre cuando la interrupción del error ECC irrecuperable de RxFIFO o de TxFIFO ocurre en el MAC más que el valor de umbral dentro del intervalo de tiempo. Los errores ECC irrecuperables no se pueden corregir por la lógica ECC. Cuando un error no recuperado ocurre durante RxFIFO lea, el paquete al cual los datos pertenecen se marcan con EOP/Abort en el SPI4 reciben la interfaz y son desechados por las capas superiores.

Esto es debido al hardware y se corrige una vez que recargamos el SIP/SPA. La solución permanente es substituir el SIP/SPA para evitar los errores.

Otras averías

Otros tipos de desperfecto son, con mucho, menos comunes que los dos mencionados anteriormente. En la mayoría de los casos, el comando diag debe indicar si el indicador luminoso LED amarillo de la placa muestra gravedad menor necesita ser substituido o no. Si el indicador luminoso LED amarillo de la placa muestra gravedad menor pasa la prueba de diagnóstico correctamente, considere actualizar el software.

Información para recopilar si abre un pedido de servicio del TAC

Si usted todavía necesita la ayuda después de seguir los pasos de Troubleshooting arriba y quiere abrir una solicitud de servicio (clientes registrados solamente) con el TAC de Cisco, esté seguro de incluir la siguiente información:
  • Troubleshooting realizado antes de abrir la solicitud de servicio.
  • muestre la salida del Soporte técnico (en el enable mode si es posible).
  • muestre la salida del registro o a las capturas de consola, si está disponible.
  • tecnología de la demostración del [slot -] del execute-on slot para el slot que experimentó el error de placa de línea.
Asocie los datos recogidos a su solicitud de servicio en no relampagado, formato de texto sin formato (.txt). Usted puede adjuntar la información a su solicitud de servicio cargandola usando la herramienta de la solicitud de servicio de TAC (clientes registrados solamente). Si usted no puede acceder la herramienta de la solicitud de servicio, usted puede enviar la información en un elemento adjunto de correo electrónico a attach@cisco.com con su número de la solicitud de servicio en el asunto de su mensaje.

Nota: No recargue manualmente o ciclo de la potencia el router antes de recoger la información antedicha a menos que esté requerido para resolver problemas un error de placa de línea en el Cisco 12000 Series Internet Router, como esto puede hacer la información importante ser perdido que es necesaria para determinar la causa raíz del problema.


Información Relacionada


Document ID: 12770