Introducción
Este documento describe cómo resolver problemas de la tarjeta de almacenamiento y fabric (FSC) cuando la trampa SNMP "ThreshFabricEGQDiscards".
Prerequisites
Requirements
Cisco recomienda que tenga conocimiento sobre estos temas:
- StarOs
- Plataforma ASR5500
Componentes Utilizados
Este documento no tiene restricciones específicas en cuanto a versiones de software y de hardware.
La información que contiene este documento se creó a partir de los dispositivos en un ambiente de laboratorio específico. Todos los dispositivos que se utilizan en este documento se pusieron en funcionamiento con una configuración verificada (predeterminada). Si tiene una red en vivo, asegúrese de entender el posible impacto de cualquier comando.
Problema
Error "ThreshFabricEGQDiscards": se detecta cuando Single Event Upset (SEU) en el conjunto de chips de fabric edge (FE) en una tarjeta FSC en un chasis ASR5500. Debido a este giro de bits en las tablas FE, el chip FE comienza a corromper paquetes (celdas) en el entramado causando descartes de cola de egreso que conduce a fallas de latido entre las tarjetas.
Puede ver un ejemplo de este problema mediante el comando de la interfaz de línea de comandos (CLI) show snmp trap history verbose.
Sat Jan 02 03:59:30 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 9 device 2 threshold 50 measured value 2430 interval 30
Sat Jan 02 03:59:30 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 9 device 1 threshold 50 measured value 2096 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 4 threshold 50 measured value 481 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 4 device 2 threshold 50 measured value 3761 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 4 device 1 threshold 50 measured value 3660 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 2 threshold 50 measured value 173 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 1 threshold 50 measured value 133 interval 30
Sat Jan 02 03:59:42 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 8 device 2 threshold 50 measured value 2977 interval 30
Sat Jan 02 03:59:42 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 8 device 1 threshold 50 measured value 4310 interval 30
Sat Jan 02 03:59:44 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 3 device 1 threshold 50 measured value 4499 interval 30
Sat Jan 02 03:59:44 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 3 device 2 threshold 50 measured value 4091 interval 30
Sat Jan 02 03:59:45 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 10 device 1 threshold 50 measured value 2796 interval 30
Sat Jan 02 03:59:45 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 10 device 2 threshold 50 measured value 5418 interval 30
Sat Jan 02 03:59:47 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 1 device 2 threshold 50 measured value 4747 interval 30
Sat Jan 02 03:59:47 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 1 device 1 threshold 50 measured value 5243 interval 30
Sat Jan 02 03:59:49 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 7 device 2 threshold 50 measured value 4644 interval 30
Sat Jan 02 03:59:49 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 7 device 1 threshold 50 measured value 5017 interval 30
Esta línea se ve bajo varias tarjetas de consolas de CPU:
Nota: comando debug console card es el comando hidden/test. Este comando también se recopila cada vez para todas las tarjetas en ASR5500 cuando se ejecuta el comando show support details en el nodo StarOs.
******** debug console card 1 cpu 0 tail 10000 only *******
Saturday January 02 05:45:38 EST 2016
[...]
2016-Jan-02+03:59:47.479 card 1-cpu0: afio [1/0/2701] [2862193.674] afio/afio_petrab_egress.c:121: #1: petrab=1=1/1, PetraB EGQ Egress drop threshold exceeded, drop count=5243, interval=30 secs, threshold=50
Troubleshoot
Compruebe si las caídas de salida aumentan.
Nota: Si los errores de fabric aumentan y está ejecutando el nodo StarOs en la versión 19.0 o posterior, vaya a la sección Solución de este artículo.
Nota: Si los errores de fabric aumentan y está ejecutando la versión del nodo de StarOs que se encuentra debajo de la versión 1.19.0, eleve la solicitud de servicio al TAC.
Paso 1. Ingrese al modo de prueba, aquí está la documentación sobre cómo habilitarlo en el nodo StarOs.
cli test-commands [encrypted] password password
Paso 2. Compruebe el estado del tejido.
show fabric health | grep -i -E "^Petra-B|EGQ"
Ejemplo de resultado cuando el problema no está presente:
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
Petra-B 2=1/2
Petra-B 3=2/1
Petra-B 4=2/2
Petra-B 5=3/1
Petra-B 6=3/2
[...]
Ejemplo de resultado donde se observa un aumento en los paquetes de descarte de EGQ:
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
EGQ.RqpDiscardPacketCounter 1143278
EGQ.EhpDiscardPacketCounter 1143278
EGQ.PqpDiscardUnicastPacketCounter 1143278
Petra-B 2=1/2
EGQ.RqpDiscardPacketCounter 1068491
EGQ.EhpDiscardPacketCounter 1068491
EGQ.PqpDiscardUnicastPacketCounter 1068491
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
EGQ.RqpDiscardPacketCounter 1346022 <<<
EGQ.EhpDiscardPacketCounter 1346022 <<<
EGQ.PqpDiscardUnicastPacketCounter 1346022 <<<
Petra-B 2=1/2
EGQ.RqpDiscardPacketCounter 1271360 <<<
EGQ.EhpDiscardPacketCounter 1271360 <<<
EGQ.PqpDiscardUnicastPacketCounter 1271360 <<<
Solución
Mecanismo de recuperación automática
Tipo de cambio de comportamiento:
Nuevo comando CLI para habilitar el procedimiento de recuperación/restablecimiento automático de FSC al detectar descartes de salida de fabric excesivos
Versión introducida:
19.0
Comportamiento antiguo:
Proceso de recuperación manual para restablecer FSC.
Nuevo comportamiento:
Nuevos comandos de configuración de CLI, consulte la documentación:
fabric fsc auto-recovery enable max-tries <X> para habilitar esta función.
max-tries es el número de veces que se restablece cada FSC. De forma predeterminada, max-tries es ilimitado.
fabric fsc auto-recovery disable para deshabilitar esta función.
show afctrl fsc-auto-recovery muestra detalles sobre la recuperación automática de FSC, incluidos los dispositivos que aún no se han restablecido, el recuento de reinicios, el número máximo de intentos, el estado del umbral de caída de salida y el historial de recuperación automática de FSC.
Precaución: Impacto en el cliente: Los dispositivos FSC FE se restablecen y se pierden todos los paquetes en vuelo.
Nota: Todos los valores, excepto el historial, se replican cuando falla la MIO.