Utilice la Guía de Troubleshooting de Errores de Paridad

Opciones de descarga

PDF (280.7 KB)
Visualice con Adobe Reader en una variedad de dispositivos
ePub (90.9 KB)
Visualice en diferentes aplicaciones en iPhone, iPad, Android, Sony Reader o Windows Phone
Mobi (Kindle) (86.7 KB)
Visualice en dispositivo Kindle o aplicación Kindle en múltiples dispositivos

Actualizado:15 de noviembre de 2023

ID del documento:116135

Lenguaje no discriminatorio

El conjunto de documentos para este producto aspira al uso de un lenguaje no discriminatorio. A los fines de esta documentación, "no discriminatorio" se refiere al lenguaje que no implica discriminación por motivos de edad, discapacidad, género, identidad de raza, identidad étnica, orientación sexual, nivel socioeconómico e interseccionalidad. Puede haber excepciones en la documentación debido al lenguaje que se encuentra ya en las interfaces de usuario del software del producto, el lenguaje utilizado en función de la documentación de la RFP o el lenguaje utilizado por un producto de terceros al que se hace referencia. Obtenga más información sobre cómo Cisco utiliza el lenguaje inclusivo.

Acerca de esta traducción

Cisco ha traducido este documento combinando la traducción automática y los recursos humanos a fin de ofrecer a nuestros usuarios en todo el mundo contenido en su propio idioma. Tenga en cuenta que incluso la mejor traducción automática podría no ser tan precisa como la proporcionada por un traductor profesional. Cisco Systems, Inc. no asume ninguna responsabilidad por la precisión de estas traducciones y recomienda remitirse siempre al documento original escrito en inglés (insertar vínculo URL).

Introducción

Este documento describe errores de paridad de software y hardware, explica mensajes de error comunes y recomienda métodos que ayudan a evitar o minimizar los errores de paridad.

Antecedentes

Las recientes mejoras en el diseño de hardware y software también reducen los problemas de paridad.

¿Qué es un error de paridad de memoria o procesador?

La comprobación de paridad es el almacenamiento de un dígito binario adicional (bit) para representar la paridad (par o impar) de una pequeña cantidad de datos del equipo (normalmente un byte) mientras que esos datos se almacenan en la memoria. El valor de paridad calculado a partir de los datos almacenados se compara con el valor de paridad final. Si estos dos valores difieren, esto indica un error de datos, y al menos un bit debe haber sido cambiado debido a la corrupción de datos.

Dentro de un sistema informático, las interferencias eléctricas o magnéticas de causas internas o externas pueden hacer que un solo bit de memoria cambie espontáneamente al estado opuesto. Este evento invalida los bits de datos originales y se conoce como error de paridad.

Tales errores de memoria, si no se detectan, pueden tener resultados indetectables e intrascendentes, o pueden causar corrupción permanente de los datos almacenados o una caída de la máquina.

Hay muchas causas de errores de paridad de memoria, que se clasifican como errores de paridad de software o errores de paridad de hardware.

Errores de software

La mayoría de los errores de paridad son causados por condiciones ambientales electrostáticas o magnéticas.

La mayoría de los errores de un solo evento en los chips de memoria son causados por la radiación de fondo (como los neutrones de los rayos cósmicos), la interferencia electromagnética (EMI) o la descarga electrostática (ESD). Estos eventos pueden cambiar aleatoriamente el estado eléctrico de una o más células de memoria, o pueden interferir con los circuitos utilizados para leer y escribir células de memoria.

Conocidos como errores de paridad de software, estos eventos suelen ser transitorios o aleatorios y normalmente se producen una vez. Los errores de software pueden ser leves o graves:

Los errores leves de software que se pueden corregir sin restablecer componentes son trastornos por evento único (SEU).
Los errores de software graves que requieren un reinicio de componentes o del sistema son bloqueos de evento único (SEL).

Los errores de software no son causados por un mal funcionamiento del hardware; son transitorios y poco frecuentes, son en su mayoría un SEU, y son causados por una alteración ambiental de los datos de la memoria.

Si encuentra errores de paridad de software, analice los cambios ambientales recientes que se han producido en la ubicación del sistema afectado. Las fuentes comunes de ESD e EMI que pueden causar errores de paridad de software incluyen:

Cables y fuentes de alimentación
Unidades de distribución de energía
Fuentes de alimentación universales
Sistemas de iluminación
Generadores de energía
Instalaciones nucleares (radiación)
Llamaradas solares (radiación)

Errores de hardware

Otros errores de paridad son causados por un mal funcionamiento físico del hardware de memoria o por el circuito utilizado para leer y escribir celdas de memoria.

Los fabricantes de hardware toman amplias medidas para prevenir y probar defectos de hardware. Sin embargo, los defectos todavía son posibles. Por ejemplo, si alguna de las celdas de memoria utilizadas para almacenar bits de datos está mal formada, puede ser incapaz de mantener una carga o puede ser más vulnerable a las condiciones ambientales.

Del mismo modo, mientras que la memoria misma puede estar funcionando normalmente, cualquier daño físico o eléctrico en el circuito utilizado para leer y escribir las celdas de memoria también puede causar bits de datos que se cambian durante la transferencia, lo que resulta en un error de paridad.

Conocidos como errores de paridad de hardware, estos eventos suelen ser muy frecuentes y repetidos, y se producen siempre que se utiliza la memoria o el circuito afectado. La frecuencia exacta depende de la magnitud del mal funcionamiento y de la frecuencia con que se utilice el equipo dañado.

Recuerde que los errores de paridad de hardware son el resultado de un mal funcionamiento del hardware y se repiten siempre que se utiliza el componente afectado.

Si encuentra errores de paridad de hardware, analice los cambios físicos que se han producido en la ubicación del sistema afectado. Entre las causas comunes de mal funcionamiento del hardware que pueden conducir a errores de paridad de hardware se incluyen:

Sobrecorrientes de alimentación (sin masa)
ESD
Sobrecalentamiento o refrigeración
Instalación incorrecta o parcial
Incompatibilidad de componentes
Defecto de fabricación

Mensajes de error comunes

El software Cisco IOS^® proporciona una variedad de mensajes de error de paridad, que varían con el componente afectado y su impacto relativo en el sistema.

Procesador

Error de caché detectado. CP0_CAUSE (reg 13/0): 0x00000400 CPO_ECC (reg. 26/0): 0x000000B3 CPO_BUSERRDPA (reg. 26/1): 0x000000B3 CPO_CACHERI (reg 27/0): 0x20000000 Error de caché real detectado. El sistema puede detenerse. Error: Caché de instr. principal, campos: datos, Dirección física real 0x00000000, la dirección virtual es imprecisa. Error de paridad de datos impreciso
Explicación	Esto es el resultado de un error de paridad dentro de la memoria caché de nivel 2 (L2) (memoria de acceso aleatorio estática o SRAM) utilizada por el procesador de routing (RP) o la CPU del procesador de switch (SP) de la tarjeta de función de switch multicapa 3 (MSFC3).
Recomendación	Supervise el sistema periódicamente para comprobar si se repiten. Si no se observan más eventos, se trata de un error de software. Si el error se produce con frecuencia, solicite una autorización de devolución de mercancía (RMA) para sustituir el motor supervisor y marque el módulo para el análisis de fallos de equipos (EFA).
%SYSTEM_CONTROLLER-3-ERROR: Error condition detected: SYSAD_PARITY_ERROR
Explicación	Esto es el resultado de un error de paridad en la dirección del sistema (bus de datos) utilizada por el controlador en banda (IBC) de la MSFC3.
Recomendación	Supervise el sistema periódicamente para comprobar si se repiten. Si no se observan más eventos, se trata de un error de software. Si el error ocurre con frecuencia, solicite una RMA para reemplazar el Supervisor Engine y marque el módulo para EFA.
%SYSTEM_CONTROLLER-3-ERROR: Error condition detected: TM_DATA_PARITY_ERROR
Explicación	Esto es el resultado de un error de paridad en los datos del administrador de tablas utilizados por el IBC de la MSFC3.
Recomendación	Supervise el sistema periódicamente para comprobar si se repiten. Si no se observan más eventos, se trata de un error de software. Si el error ocurre con frecuencia, solicite una RMA para reemplazar el Supervisor Engine y marque el módulo para EFA.
%SYSTEM_CONTROLLER-3-ERROR: Error condition detected: TM_NPP_PARITY_ERROR
Explicación	Esto es el resultado de un error de paridad en el 'puntero de página siguiente' del administrador de tablas utilizado por el IBC de la MSFC3.
Recomendación	Supervise el sistema periódicamente para comprobar si se repiten. Si no se observan más eventos, se trata de un error de software. Si el error ocurre con frecuencia, solicite una RMA para reemplazar el Supervisor Engine y marque el módulo para EFA.En las versiones de software del IOS de Cisco entre 12.1(8)E y 12.2(33)SXI3, el comportamiento predeterminado en respuesta a los eventos SYSTEM_CONTROLLER-3-ERROR fue restablecer la IBC y registrar un mensaje de error.Sin embargo, esta acción correctiva resultó en algunos casos documentados de la IBC (y por lo tanto, la CPU) que ya no podía transmitir o recibir datos. Por lo tanto, el comportamiento se modificó en las versiones del software del IOS de Cisco posteriores a la 12.2(33)SXI4 para registrar un mensaje de error y reiniciar el sistema; consulte el ID de bug de Cisco CSCtf51541.
Excepción de interrupción, señal de CPU 20, PC = 0x[dec]
Explicación	Esto es el resultado de un error de paridad de un solo bit en la memoria caché L2 (SRAM) de la CPU utilizada por los módulos Cisco Catalyst 6700 Series.
Recomendación	Supervise el sistema periódicamente para comprobar si se repiten. Si no se observan más eventos, se trata de un error de software. Si el error ocurre con frecuencia, solicite una RMA para reemplazar el módulo 6700 y marque el módulo para EFA. En las versiones del software del IOS de Cisco anteriores a 12.2(33)SXI5, un error de software (Id. de error de Cisco CSCtj06411) causaría incluso errores de paridad de un solo bit para restablecer el módulo 6700. Esto se resolvió en las versiones 12.2(33)SXI6 y 12.2(33)SXJ para Supervisor Engine 720 y en la versión 15.0SY para Supervisor Engine 2T.

RAM

%SYSTEM_CONTROLLER-3-ERROR: Error condition detected: SYSDRAM_PARITY_ERROR
Explicación	Esto es el resultado de un error de paridad incorregible en los módulos de memoria DRAM sincrónica (SDRAM) (DIMM) utilizados por la MSFC3.
Recomendación	Supervise el sistema periódicamente para comprobar si se repiten. Si no se observan más eventos, se trata de un error de software. Si el error ocurre con frecuencia, limpie y vuelva a colocar el DIMM y continúe supervisando. Si el error continúa, solicite una RMA para reemplazar o actualizar el DIMM.
%SYSTEM_CONTROLLER-3-COR_MEM_ERR: Error de memoria DRAM corregible. Count [dec], log [hex]
Explicación	Esto es el resultado de un error de paridad corregible en la SDRAM (DIMM) utilizada por la MSFC3.
Recomendación	Supervise el sistema periódicamente para comprobar si se repiten. Si no se observan más eventos, se trata de un error de software. Si el error ocurre con frecuencia, limpie y vuelva a colocar el DIMM y continúe supervisando. Si el error continúa, solicite una RMA para reemplazar o actualizar el DIMM.
%MWAM-DFC[dec]-0-CORRECTABLE_ECC_ERR: Se ha producido un error ECC corregible, A_BUS_L2_ERRORS: 0x10000, A_BUS_MEMIO_ERRORS: 0x0, A_SCD_BUS_ERR_STATUS: 0x80983000
Explicación	Esto es el resultado de un error de paridad de un solo bit en la DRAM utilizada por los módulos de la serie 6700.
Recomendación	Supervise el sistema periódicamente para comprobar si se repiten. Si no se observan más eventos, se trata de un error de software. Si el error ocurre con frecuencia, limpie y vuelva a colocar el DIMM y continúe supervisando. Si el error continúa, solicite una RMA para reemplazar o actualizar el DIMM.
%PM_SCP-SP-2-LCP_FW_ERR_INFORM: El módulo [dec] está experimentando este error: Error de paridad LTL detectado en la bobina #[dec].
Explicación	Esto es el resultado de un error de paridad en la SRAM utilizada por los módulos Cisco Catalyst 6100 y Cisco Catalyst 6300 Series.
Recomendación	Supervise el sistema periódicamente para comprobar si se repiten. Si no se observan más eventos, se trata de un error de software. Si el error ocurre con frecuencia, solicite una RMA para reemplazar el módulo 6100 o 6300, y marque el módulo para EFA.
%SYS-4-SYS_LCPERR4: Module [dec]: Error de paridad LTL detectado en la bobina #[dec]
Explicación	Esto es el resultado de un error de paridad en la SRAM utilizada por los módulos de las series 6100 y 6300.
Recomendación	Supervise el sistema periódicamente para comprobar si se repiten. Si no se observan más eventos, se trata de un error de software. Si el error ocurre con frecuencia, solicite una RMA para reemplazar el módulo 6100 o 6300, y marque el módulo para EFA.

ASIC

%PM_SCP-SP-2-LCP_FW_ERR_INFORM: El módulo [dec] está experimentando este error: Error de búfer de paquetes ASIC de puerto ([nombre]) detectado en los puertos [dec]
Explicación	Esto es el resultado de un error de paridad en el búfer de paquetes ASIC (SRAM) del puerto utilizado por los módulos Ethernet Catalyst de Cisco serie 6148A.
Recomendación	Supervise el sistema periódicamente para comprobar si se repiten. Si no se observan más eventos, se trata de un error de software. Si el error ocurre con frecuencia, solicite una RMA para reemplazar el módulo 6148A y marque el módulo para EFA.
%LTL-SP-2-LTL_PARITY_CHECK: Solicitud de comprobación de paridad LTL para 0x[hex]
Explicación	Esto es el resultado de un error de paridad en la tabla de índice de puertos ASIC (SRAM) del puerto utilizada por los módulos Catalyst 6100-6500 y 6700 Series.
Recomendación	Supervise el sistema periódicamente para detectar la reaparición. Si no se observan más eventos, se trata de un error de software. Si el error ocurre con frecuencia, solicite una RMA para reemplazar el módulo y marque el módulo para EFA.

Consulte estos documentos de software del IOS de Cisco para obtener una lista completa de mensajes de error:

La herramienta de interpretación de información de salida (disponible para clientes registrados únicamente) admite ciertos comandos show. Utilice la herramienta para ver una análisis de información de salida del comando show.

Últimos avances

La investigación en el campo de los errores de paridad está en curso y no se pueden abordar todos los escenarios, pero las organizaciones de desarrollo de hardware y software de Cisco Catalyst 6500 siguen introduciendo nuevas formas, como la protección con código de corrección de errores (ECC), para minimizar y mitigar la aparición de errores de paridad.

Aunque este documento comenzó con un análisis de la tercera generación (serie WS-XSUP720 y anteriores 6700) de productos Catalyst 6500, en esta sección se resumen las mejoras introducidas con la cuarta generación (serie VS-S720-10G y posteriores 6700) y la quinta generación (serie VS-SUP2T-10G y 6900).

Procesador

El módulo VS-S720-10G cuenta con una placa secundaria MSFC3 más nueva, con una nueva IBC y CPU RP y SP SR7010A actualizadas de computación con conjunto de instrucciones reducidas (RISC) que funcionan a 600 MHz cada una. Las cachés de nivel 1 (L1), L2 y nivel 3 (L3) pueden detectar la paridad. La IBC más reciente cuenta con todas las funciones de la generación anterior y añade protección ECC (corrección de un solo bit, detección de varios bits) a las SRAM conectadas.

Los módulos de la serie 6700 admiten una CPU con caché L2 protegida con ECC (la caché L1 tiene capacidad de detección de paridad), que puede corregir errores de paridad de un solo bit sin necesidad de reiniciar. Sin embargo, debido al ID de bug de Cisco CSCsz3922, la versión 12.2SXI del software del IOS de Cisco (Supervisor Engine 720) reinicia el módulo de todos modos si ocurre un error de paridad de memoria caché de CPU de un solo bit. Esto se resuelve en las versiones 12.2SXJ (Supervisor Engine 720) y 15.0SY (Supervisor Engine 2T) del software Cisco IOS.

El VS-SUP2T-10G cuenta con una nueva placa secundaria MSFC5 con un IBC integrado y una nueva CPU RP MPC8572 PPC de doble núcleo (con caché L2 y L3 protegida con ECC, la caché L1 es capaz de detección de paridad) que funciona a 1,5 Ghz por núcleo. También cuenta con una CPU nueva, independiente y fuera de banda con procesador de administración de conectividad (CMP) y DRAM protegida por ECC, que está disponible incluso si la CPU RP no está disponible actualmente.

La nueva IBC cuenta con todas las funciones de generaciones anteriores y admite protección ECC para las SRAM adjuntas y mejoras en la gestión de errores de paridad. La nueva MSFC5 también cuenta con una ROM de Onboard Failure Logging (OBFL), que almacena todos los eventos de inicialización y diagnóstico del módulo. El nuevo diseño de CPU única también reduce la probabilidad estadística de eventos de error de paridad.

Los módulos de la serie 6900 admiten una CPU más reciente con caché L1 y L2 protegida con ECC, que puede corregir errores de paridad de un solo bit sin necesidad de restablecer. La nueva generación admite la misma IBC y se ha incorporado el software de gestión para la corrección de errores de paridad de un solo bit.

RAM

El VS-S720-10G con MSFC3 cuenta con SDRAM con doble velocidad de datos (DDR) y protección ECC, que funciona a 266 MHz.

Los módulos de la serie 6700 admiten SDRAM con DDR y protección ECC, que funciona a 266 MHz.

En comparación con la SDRAM con velocidad de datos única (SDR), la interfaz de SDRAM con DDR posibilita velocidades de transferencia más altas gracias a un control más estricto de la sincronización de los datos eléctricos y las señales de reloj. La interfaz DDR utiliza un bombeo doble (transferencia de datos tanto en los bordes ascendentes como descendentes de la señal de reloj) para reducir la frecuencia del reloj. Una frecuencia de reloj más baja reduce los requisitos de integridad de la señal en la placa de circuito que conecta la memoria al controlador.

El VS-SUP2T-10G con MSFC5 cuenta con SDRAM DDR3 con protección ECC, que funciona a 667 MHz.

Los módulos de la serie 6900 admiten SDRAM DDR3 con protección ECC, que funciona a 667 MHz.

La ventaja principal de la SDRAM DDR3 sobre sus predecesoras inmediatas (DDR2 y DDR) es su capacidad para transferir datos al doble de velocidad (ocho veces la velocidad de sus matrices de memoria interna), lo que permite un mayor ancho de banda o velocidades de datos pico. La memoria DDR3 también reduce el consumo de energía en un 30%, a pesar de que utiliza el mismo estándar de señalización eléctrica que DDR y DDR2.

ASIC

El VS-S720-10G con PFC3C cuenta con búferes de paquetes SRAM con protección ECC. Esto proporciona corrección de errores de paridad de un solo bit sin reinicio del módulo, así como detección de errores de paridad de varios bits.

La serie 6700 con DFC3C incluye búferes de paquetes SRAM con protección ECC. Esto proporciona corrección de errores de paridad de un solo bit sin reinicio del módulo, así como detección de errores de paridad de varios bits.

El VS-SUP2T-10G con PFC4 cuenta con búferes de paquetes SRAM con protección ECC. Esto proporciona corrección de errores de paridad de un solo bit sin reinicio del módulo, así como detección de errores de paridad de varios bits.

La serie 6900 con DFC4 incluye búferes de paquetes SRAM con protección ECC. Esto proporciona corrección de errores de paridad de un solo bit sin reinicio del módulo, así como detección de errores de paridad de varios bits.

Software

El software Cisco IOS está diseñado para admitir la protección ECC. Si un componente de hardware que admite protección ECC experimenta un SEU, el código puede corregir los datos dañados o restablecer el componente afectado y no requerir un restablecimiento completo del hardware del módulo afectado.

Sin embargo, en las versiones anteriores del software Cisco IOS, existen algunas excepciones en las que el comportamiento se ha cambiado intencionalmente o se ha producido un mal funcionamiento debido a un error de software. Aquí hay dos excepciones notables.

Restablecimiento de MSFC IBC

En las versiones del software Cisco IOS comprendidas entre 12.1(8)E y 12.2(33)SXI3, el comportamiento predeterminado en respuesta a los eventos SEU SYSTEM_CONTROLLER-3-ERROR fue restablecer la IBC y registrar un mensaje de error. Sin embargo, esta acción correctiva dio lugar a que algunos casos documentados de la IBC (y, por lo tanto, de la CPU) ya no pudieran transmitir o recibir datos.

Por lo tanto, el comportamiento se cambió después de la versión 12.2(33)SXI4 (Id. de error de Cisco CSCtf51541) para registrar un mensaje de error y restablecer el sistema. Aunque esta reacción puede parecer más grave, es preferible reiniciar el sistema y corregir la estructura de memoria que tener un sistema que no responde.

Una función que se está desarrollando actualmente (Id. de error de Cisco CSCtr89859) agrega un nuevo comando de interfaz de línea de comandos (CLI) que le permite cambiar el comportamiento predeterminado. Esta mejora es más aplicable a los sistemas que utilizan un único supervisor y, por tanto, no tienen redundancia de supervisor.

"Error de paridad de un solo bit" de la serie 6700

En las versiones del software del IOS de Cisco anteriores a 12.2(33)SXI5, un error de software (Id. de error de Cisco CSCtj06411) causaría incluso errores de paridad de un solo bit para restablecer el módulo 6700. Esto sería normalmente un error de paridad corregible y no requeriría que se reiniciara el módulo.

Este error se resolvió en las versiones 12.2(33)SXI6+ y 12.2SXJ para Supervisor Engine 720 y en la versión 15.0SY para Supervisor Engine 2T. Después de una actualización a la versión apropiada, el módulo 6700 simplemente registra un mensaje de error y continúa funcionando.

Recomendaciones

En este punto, probablemente haya determinado si ha encontrado un error de paridad de software o de hardware. Aunque esto puede solucionar un único incidente, pueden existir otras vulnerabilidades de error de paridad, por lo que puede adoptar un enfoque más integral para toda la red.

Por lo tanto, Cisco y la unidad empresarial Catalyst 6500 recomiendan que revise estos procedimientos de mitigación y tome las medidas correctivas adecuadas para eliminar o reducir futuros errores de paridad.

Errores de software (SEU)

Los errores de paridad de evento único (soft) son causados por condiciones ambientales y pueden ocurrir solo una vez (SEU) o muy infrecuentemente, como mensualmente o anualmente. Aunque no es necesario reemplazar el hardware, sí desea mitigar las apariciones futuras.

Estas prácticas recomendadas reducen considerablemente la probabilidad de errores de paridad de software.

Auditoría ambiental

Cisco recomienda realizar una auditoría medioambiental de las ubicaciones de red afectadas. Puede realizar esta auditoría usted mismo o en coordinación con un representante de Cisco, con un equipo de Cisco (como Cisco Advanced Services) o a través de un consultor externo.

La cobertura y complejidad exactas de una auditoría ambiental dependen de muchas variables diferentes, como la ubicación geográfica, el tamaño y el diseño de los edificios y las salas, el diseño y la disposición de los aparatos eléctricos y otros factores relacionados.

Piense en qué fuentes medioambientales de ESD y EMI pueden existir en su red o en torno a ella. Estas son fuentes comunes de interferencia que pueden conducir a un error de paridad de software:

Cables y fuentes de alimentación
Unidades de distribución de energía
Fuentes de alimentación universales
Sistemas de iluminación
Generadores de energía
Instalaciones nucleares (radiación)
Llamaradas solares (radiación)

Ubicación del chasis

Los SEU pueden ocurrir si las unidades de distribución de energía, los generadores de energía o los sistemas de iluminación están demasiado cerca del chasis o si hay varios cables de energía en el chasis o junto a él.

Es importante proporcionar una distancia adecuada entre el chasis Catalyst 6500 y estas fuentes eléctricas y magnéticas. Las distancias recomendadas varían según el componente y están disponibles en las hojas de datos del componente.

En general, Cisco recomienda ubicar los sistemas al menos entre 15 y 18 cm de las fuentes habituales de interferencia eléctrica y magnética. Siempre que sea posible, los cables de alimentación se pueden colocar hacia abajo y alejar del chasis, y no se pueden colocar en paquetes apretados ni en grandes cantidades a lo largo o al lado del chasis.

Conexión a tierra

Las fluctuaciones de la alimentación y las subidas de tensión son relativamente comunes, y las fuentes de alimentación de Catalyst 6500 están diseñadas para admitir pequeñas variaciones en la corriente de voltaje.

Sin embargo, es fundamental proporcionar una toma de tierra eléctrica adecuada para el chasis y el rack, de modo que cualquier exceso de tensión eléctrica se elimine del sistema. Sin una conexión a tierra adecuada, las subidas de tensión pueden provocar daños o fallos de funcionamiento en varios ASIC y componentes de la memoria. Consulte la Guía de Instalación del Switch Catalyst 6500 Series, Instalación del Switch, Establecimiento de la Masa del Sistema, para obtener más información.

ESD

ESD puede dañar fácilmente componentes críticos sin ningún deterioro visible. Se pueden incorporar medidas preventivas adecuadas en las políticas de operaciones de laboratorio, pero esas medidas a menudo y desafortunadamente se ignoran debido a la conveniencia y la supervisión limitada.

Cisco recomienda que la administración de operaciones de laboratorio, junto con Cisco Systems, realice una auditoría ambiental de todas las áreas de la red o, como mínimo, de todas las áreas en las que se hayan presentado fallas de hardware o que hayan sido designadas como críticas. Una vez completada la auditoría, Cisco recomienda que implemente una lista de comprobación medioambiental estandarizada para todos los sistemas recientemente instalados con el fin de evitar futuros eventos de paridad SEU.

Firmware más reciente (Rommon)

Los componentes de hardware de Catalyst utilizan código de firmware (también conocido como Rommon) para inicializar, comunicarse y ejecutar diagnósticos. Una vez que se completan estas funciones, el funcionamiento del sistema se transfiere al software Cisco IOS. Es poco común que se produzcan problemas con el firmware, pero puede haber problemas si utiliza versiones diferentes del código de firmware para los supervisores y los módulos.

Por lo tanto, se recomienda asegurarse de que todos los componentes utilizan el código de firmware más reciente para garantizar la correcta inicialización y comunicación del módulo. Cisco recomienda que la administración de operaciones realice una auditoría de la red y actualice todos los componentes de hardware con la versión de firmware más reciente.

Los problemas conocidos del firmware y los procedimientos de actualización se documentan en:

Descargue las últimas versiones de firmware del sitio Web de Cisco:

Tornillos para pulgares

Todos los sistemas de red modulares están diseñados para insertarse en una placa posterior del chasis con un conjunto de pines de interfaz física. La placa base del chasis en sí es básicamente una serie de cables interconectados. Las patillas en cada ranura del chasis forman la conexión de datos físicos entre el supervisor y los módulos Ethernet. Por lo tanto, la correcta inserción y alineación de estos pines es fundamental.

Catalyst 6500 proporciona guías y pines de alineación que ayudan en la instalación en el chasis. Las clavijas de las ranuras (zócalos) y los conectores de los módulos están diseñados para interactuar fácilmente y proporcionar conectividad eléctrica con capacidad de gran ancho de banda. Una vez insertados en el chasis, hay tornillos para el pulgar a ambos lados del módulo que encajan completamente con los pines de la placa de interconexiones. Consulte la Nota de Instalación del Módulo del Switch Catalyst 6500 Series.

Si un módulo se ha insertado correctamente en la ranura y los tornillos para el pulgar se han apretado correctamente, no se esperan problemas de comunicación. Sin embargo, pueden ocurrir varias condiciones en la inserción diaria de módulos que pueden conducir a una inserción incorrecta o incluso incompleta de pines:

Fuerza de inserción insuficiente - Si el módulo está parcialmente insertado sin utilizar los tornillos de pulgar, esto puede causar paradas de bus, y el módulo no puede comunicarse con otros módulos. Dependiendo del nivel de inserción (por ejemplo, si hay un contacto físico limitado), el módulo puede transmitir y recibir datos, pero puede experimentar errores de bit que resulten en paquetes dañados.
Desalineación vertical - Esto ocurre cuando sólo un lado del módulo está en los raíles guía. Esto se identifica fácilmente porque el módulo aparece en diagonal y normalmente no se conecta con los pines de la placa de interconexiones.
Desalineación horizontal: si se utilizan tornillos para el pulgar sólo en un lado, algunos de los pasadores no se acoplan correctamente. Este es un problema común, ya que el módulo puede parecer estar insertado correctamente. La desalineación horizontal es en realidad una forma de fuerza de inserción insuficiente.

Cisco recomienda implementar un proceso de administración de operaciones que exija el uso de tornillos de conexión directa en todos los módulos Catalyst 6500 en entornos de producción. Esto garantiza una inserción y alineación adecuadas y completas de los pines de la placa de interconexiones y evita futuros fallos debidos a errores de bits y a fallos de comunicación relacionados.

Errores de hardware (fallo de funcionamiento)

Los errores de paridad frecuentes o repetibles (graves) son causados por un mal funcionamiento físico de la memoria o del circuito utilizado para leer y escribir. En estos casos, sustituya el hardware y solicite al centro de asistencia técnica Cisco Technical Assistance Center (TAC) o a su ingeniero de sistemas de Cisco que realice una evaluación completa de la eficacia del hardware devuelto.

Estas prácticas recomendadas reducen significativamente la probabilidad de errores de paridad de hardware.

Auditoría de hardware (MTBF y EOL)

Cisco recomienda realizar una auditoría de la red de las ubicaciones de red afectadas. Puede realizar esta auditoría usted mismo o en coordinación con un representante de Cisco, con un equipo de Cisco (como Cisco Advanced Services) o a través de un consultor externo.

Todo el hardware (de todos los proveedores) está sujeto a una posible degradación de la integridad física y es importante realizar un seguimiento del ciclo de vida de todos los componentes de hardware de la red para comprender completamente la probabilidad de que se produzcan fallos en los componentes a lo largo del tiempo.

La fiabilidad del hardware se puede medir con el marco de tiempo medio entre fallos (MTBF). Dado que MTBF es sólo un promedio estadístico, esto no significa que un fallo pueda ocurrir definitivamente al final del período de tiempo de MTBF. Sin embargo, la probabilidad y la vulnerabilidad de que se produzcan fallos en los componentes aumentan, por lo que se puede marcar dicho hardware para que se actualice. Consulte las Hojas de Datos de los Switches Catalyst de Cisco serie 6500 para conocer los valores de MTBF específicos para cada producto Catalyst 6500.

El valor de MTBF a nivel de sistema calculado agregado de Catalyst 6500 es > 7 años.

Además del marco de MTBF, Cisco también proporciona un marco de fin de vida útil (EOL), que define el ciclo de vida esperado de un producto determinado y proporciona anuncios aplicables para ayudarle a actualizar su equipo antiguo. Consulte los Avisos de fin de venta y fin del ciclo de vida para obtener información sobre los diversos productos Catalyst 6500 antiguos.

Como resultado de esta auditoría de hardware, Cisco recomienda que implemente su propio proceso de MTBF y EOL que identifique y realice un seguimiento del hardware para una posible actualización. Esto garantiza que el hardware más reciente esté en funcionamiento y minimiza la probabilidad de que se produzca un mal funcionamiento del hardware.

Diagnóstico de hardware

Catalyst serie 6500 y el software Cisco IOS proporcionan diagnósticos Generic Online Diagnostics (GOLD) y Health Monitoring (HM) para todos los componentes de hardware utilizados en el sistema. Los dos tipos básicos de diagnóstico que se pueden habilitar son a petición y de arranque. Consulte Diagnósticos Generic Online Diagnostics en el Cisco Catalyst 6500 Series Switch para obtener información adicional.

Cisco recomienda que se habiliten los diagnósticos de arranque completos para todos los componentes de hardware para garantizar que se ejecuten todas las pruebas de diagnóstico y para confirmar que todos los componentes de hardware funcionan según lo esperado al arrancar.

Cisco también recomienda programar diagnósticos periódicos a demanda de los componentes críticos de la infraestructura de forma diaria o semanal. Más allá de los diagnósticos de arranque que ocurren solamente durante la inicialización, los diagnósticos a petición aseguran que el hardware continúa funcionando según lo esperado. Consulte Guía de Configuración del Software Catalyst 6500 Release 12.2SX, Interface and Hardware Components, Online Diagnostics para obtener más información.

Además de las pruebas de diagnóstico a demanda predeterminadas, Cisco recomienda que habilite estas pruebas de diagnóstico a demanda para identificar proactivamente los componentes de la memoria que pueden fallar:

TestLinecardMemory
TestAsicMemory

Información Relacionada

Historial de revisiones

Revisión	Fecha de publicación	Comentarios
2.0	15-Nov-2023	Título actualizado, Introducción, SEO, Traducción automática, Requisitos de estilo, Requisitos de marca, Ortografía y formato.
1.0	26-Apr-2013	Versión inicial

Con la colaboración de ingenieros de Cisco

Cisco TAC Engineers

Utilice la Guía de Troubleshooting de Errores de Paridad

Opciones de descarga

Lenguaje no discriminatorio

Acerca de esta traducción

Contenido

Introducción

Antecedentes

Errores de software

Errores de hardware

Mensajes de error comunes

Procesador

RAM

ASIC

Últimos avances

Procesador

RAM

ASIC

Software

Restablecimiento de MSFC IBC

"Error de paridad de un solo bit" de la serie 6700

Recomendaciones

Errores de software (SEU)

Auditoría ambiental

Ubicación del chasis

Conexión a tierra

ESD

Firmware más reciente (Rommon)

Tornillos para pulgares

Errores de hardware (fallo de funcionamiento)

Auditoría de hardware (MTBF y EOL)

Diagnóstico de hardware

Información Relacionada

Historial de revisiones

Con la colaboración de ingenieros de Cisco

¿Resultó útil este documento?

Contacte a Cisco

Este documento se aplica a estos productos