El conjunto de documentos para este producto aspira al uso de un lenguaje no discriminatorio. A los fines de esta documentación, "no discriminatorio" se refiere al lenguaje que no implica discriminación por motivos de edad, discapacidad, género, identidad de raza, identidad étnica, orientación sexual, nivel socioeconómico e interseccionalidad. Puede haber excepciones en la documentación debido al lenguaje que se encuentra ya en las interfaces de usuario del software del producto, el lenguaje utilizado en función de la documentación de la RFP o el lenguaje utilizado por un producto de terceros al que se hace referencia. Obtenga más información sobre cómo Cisco utiliza el lenguaje inclusivo.
Cisco ha traducido este documento combinando la traducción automática y los recursos humanos a fin de ofrecer a nuestros usuarios en todo el mundo contenido en su propio idioma. Tenga en cuenta que incluso la mejor traducción automática podría no ser tan precisa como la proporcionada por un traductor profesional. Cisco Systems, Inc. no asume ninguna responsabilidad por la precisión de estas traducciones y recomienda remitirse siempre al documento original escrito en inglés (insertar vínculo URL).
Este artículo presenta ideas sobre cómo resolver diversos problemas relacionados con los puertos de las plataformas ASR 5000 y 5500, incluidos problemas relacionados con la Unidad de procesamiento de red (NPU), y también aborda un poco los problemas de agregación de enlaces (LAG). Estas técnicas no son una ciencia atractiva y de hecho son conocidas en su mayoría por los ingenieros, pero a menudo uno o más pueden ser ignorados en el proceso de solución de problemas simplemente debido a la supervisión en el apuro por los pasos hacia la resolución potencial. El artículo comienza primero con los controles de estado relacionados con el puerto. Luego se exponen todos los enfoques en algún tipo de orden metódico. Por último, ofrece una serie de ejemplos reales que van más allá de la resolución básica de problemas de puertos para aquellos que desean profundizar.
show snmp trap history
Busque patrones de PortLinkUp y PortLinkDown. Tenga en cuenta lo siguiente:
- con qué frecuencia ocurre y durante qué período
- varios puertos o solo un puerto u otro patrón
- trabajos de mantenimiento que los técnicos puedan o no conocer
show port table all
- indica si los links están activos o desactivados
- Agregación de enlaces (LAG): los puertos de confirmación se encuentran en el estado correcto, ya sea + (distribución/activo) o ~ (acordado/en espera). Otros estados * o - necesitan investigación adicional.
show port info
- información diversa como el estado del link, el modo del puerto, la configuración del puerto, la configuración de agregación de enlaces (LAG), el módulo SFP, etc.
show card diag
- información básica de diagnóstico, normalmente no tan útil
show rct stats [verbose]
- realiza un seguimiento de toda la actividad de PSC/DPC/SMC/MIO (switches, migraciones, cierres, etc.) desde el inicio
show port usage table
- es el rendimiento esperado para la hora del día
- Los puertos de varios trayectos (ECMP) y LAG de igual coste deben transmitir de forma bastante uniforme
- El ancho de banda Rx está bajo control del otro extremo
show Logical-Port Usage table
- desglosa el uso del puerto por ID de VLAN
- si los números son pequeños comparados con la tabla de utilización del puerto, implica que los paquetes no llegan a la NPU desde el puerto
show port datalink counters <slot/port>
- informa que el paquete cuenta con los propios puertos físicos
- verifique los diversos contadores de fallos para ver si alguno aumenta y a qué velocidad
-Importante: este es uno de esos pocos comandos que se recopila DOS VECES en una SSD que pueden ser muy valiosos para solucionar los aumentos del recuento de paquetes en un período relativamente corto
show port npu counters <slot/port> [vlan <vlan>]
- todos los puertos están conectados al resto del sistema a través de la Unidad de procesador de red (NPU), bien ubicados en la tarjeta de servicios de paquetes conectada (PSC, ASR 5000) (si el PSC está conectado directamente o asignado a través de las tarjetas de barras cruzadas redundantes (RCC)) o bien en la salida de entrada de administración (MIO) (ASR 5500) en la que también se encuentra el puerto.
- verifique los diversos contadores de fallos para ver si alguno aumenta y a qué velocidad
- para la implementación de LAG, los contadores se informan para el puerto maestro que captura los totales en todos los puertos del grupo LAG, por lo que no hay forma de saber qué puerto está causando los errores. En ese caso, para ASR 5000, "show port npu stats debug all_pacs" informa que el número de fallas en el nivel PSC #, lo que esperamos ayude a señalar a la tarjeta culpable.
- Se han visto problemas en los que el aumento de los contadores de fallos de este comando se debe a fallos en la tarjeta de línea, donde "show port datalink counters" no muestra el problema.
- no todos los problemas de NPU se detectan con este comando. Existen otros comandos de soporte técnico que sólo admiten NPU (es decir, show npu stats debug all_pacs, show npu stats sf all_pacs, etc.) que capturan los problemas de descarte de paquetes que no se tratan aquí.
-Importante: este es uno de esos pocos comandos que se recopila DOS VECES en una SSD que pueden ser muy valiosos para solucionar los aumentos del recuento de paquetes en un período relativamente corto
show logs
- busque las entradas relacionadas con los puertos, incluyendo la npu de las instalaciones, npuctrl, etc.
show port transceiver (sólo ASR 5500)
- busque niveles de luz uniformes en todos los puertos
Entre cada uno de los siguientes pasos, verifique el resultado de los comandos anteriores, según corresponda, para detectar cualquier mejora y/o cambio en el comportamiento. Si el problema es esporádico, puede ser necesario un período de espera adecuado antes de declarar el éxito o el fracaso.
No se pretende que se trate de una lista rápida y rígida que deba ejecutarse en el orden o incluso completamente. Hay demasiadas variables que juegan un papel en la resolución de tales problemas, por lo que se pretende que sea una guía para que, como mínimo, el solucionador de problemas tenga acceso a todas las opciones posibles. Quienes tienen muchos años de experiencia probablemente estén familiarizados con algunos de estos enfoques, ya que se aplican a otras plataformas, pero una lista de comprobación de recordatorios siempre es una buena idea, y aquellos que no tienen conocimiento de la plataforma pueden no estar familiarizados con algunos de los enfoques específicos de la plataforma y/o los comandos disponibles.
Recuerde: cada escenario es diferente y los pasos de solución de problemas revelarán nueva información que dictará pasos futuros que diferirán entre escenarios. Esto es sólo una guía.
Los pasos considerados y el pedido realizado variarán en función de la gravedad del problema, el impacto potencial del suscriptor y la opinión del cliente.
Switchover al puerto redundante o LAG
- Necesidad de tener en cuenta el hecho de que el puerto que está siendo problemático está manejando tráfico O no manejando tráfico
- ASR5000: las tarjetas de línea de tamaño completo ahora están conectadas a un PSC (NPU) diferente, mientras que las tarjetas de línea de tamaño medio seguirán conectadas al mismo PSC
- el switching over no cambia el cableado, por lo que es más probable que esto no marque una diferencia en un escenario de rebote de puerto, pero en el menor de los casos, si el problema estaba en el puerto activo, el impacto se minimizará ya que ahora es un puerto en espera
Intercambiar conexiones de cable con puerto redundante
- dependiendo del cable que se extrae primero, el puerto activo final podría ser uno o ambos puertos, por lo que el puerto podría tener que ser conmutado de nuevo para volver al diseño inicial
- si el problema persiste con el puerto con problemas, entonces observe más detenidamente ese puerto en el ASR
- si el problema cambia al otro puerto, entonces observe más detenidamente la conexión de ese puerto en el otro extremo
Fibras limpias
- si el puerto que se está limpiando está activo, debe volver a conmutarse después de la limpieza
- la limpieza de fibras ha sido definitivamente una actividad que resuelve problemas con frecuencia
Reemplace los elementos de la ruta, incluidos el cable Ethernet/fibra/panel de conexión/interconexiones/capturas
- si el puerto que se está limpiando está activo, deberá volver a conmutarse después de la limpieza
- puede resultar sorprendente descubrir con qué frecuencia este paso resuelve los problemas
Sustitución de Small Form-Factor Pluggable (SFP) en ambos lados de la conexión
- los SFP se pueden pedir por separado
- Compruebe si hay SFP no utilizados para realizar pruebas
—
Solo ASR 5000:
Reinicio de la tarjeta de línea
Linecard Reeat
- Al volver a instalar se realizará un superconjunto de reinicio y es más intrusivo y vale la pena intentarlo
migración de PSC
- El PSC conectado a la tarjeta de línea que aloja el puerto problemático (show card mappings / show card table all)
Reinicio de PSC
Reposición de PSC
- Una migración de PSC hará que se reinicie el PSC pero no equivale a un reinicio
- De manera similar, un reinicio de PSC es más intrusivo que un reinicio de PSC
- Un reinicio de PSC realizará un superconjunto de reinicio de PSC en un solo paso
- En todo lo anterior, si se resuelve el problema, sería necesario realizar una migración para que el PSC vuelva a estar activo para confirmar si el problema se ha resuelto por completo (suponiendo que la actividad del PSC haya resuelto el rebote del puerto). Tenga en cuenta que, en función del diseño de la tarjeta y de la configuración de la tarjeta de inicio (es decir, ¿la tarjeta de línea tiene el problema físicamente detrás del PSC conectado?, etc.), el cambio del PSC de nuevo a activo puede o no dar lugar a la misma asignación de tarjeta de línea <-> PSC que la anterior a la actividad.
Conmutación de tarjeta de administración del sistema (SMC)
Reinicio de SMC
Restablecimiento de SMC
Solo ASR 5500:
Switchover MIO
- esto es diferente a un puerto o a un switchover LAG. Cualquier puerto activo en el MIO que esté siendo conmutado pasará a estar en espera. Si el puerto problemático ya está activo en el MIO en espera, el switchover MIO no cambia el estado del puerto pero sigue siendo un paso válido
—
Recarga del chasis
- aunque es poco probable, siempre es posible que haya algún tipo de anomalía que sólo puede resolverse con una recarga
Sustitución de hardware en el switch adyacente
Sustitución de hardware en ASR 5x00 (PSC, LC, MIO, SMC o RCC)
Referencia de comandos de pasos de remediación:
migración de tarjeta de <x> a <y> - Migración de PSC/DPC
- Mientras que la elevación de la palanca es otra forma, no lo haga Y, a continuación, tire de la tarjeta o de los resultados de cierre de la tarjeta
switch de placa de <x> a <y> - Switching SMC/MIO/LC/RCC
switch de puerto a <x> - switchover de puerto no LAG
switch de puerto de agregación de link a <x> - Switchover LAG
- X debe ser el puerto LAG maestro o el par maestro dependiendo de la dirección
card reboot X
- el reinicio de la tarjeta es otra opción pero se recomienda reiniciar
Este ejemplo muestra los puertos LAG activos que reciben tráfico significativo aunque el chasis esté en espera con protocolo de redundancia de servicio (SRP), en cuyo caso el rendimiento debería ser casi nulo. El valor de los siguientes dos comandos usados en conjunto es que los puertos muestran tráfico significativo que se recibe, pero la NPU no muestra tráfico. Esto implica que el tráfico se está descartando antes de llegar a la NPU, posiblemente directamente en los propios puertos. Los "show port datalink counters" y "show port npu counters" lo corroboran, ya que los contadores NPU apenas aumentan mientras que los contadores de datalink aumentan rápidamente.
[local]PGW-ICSR> show port utilization table Sunday July 26 00:13:32 UTC 2015 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 5/1 1000 Ethernet 0 0 0 0 0 0 5/10 10G Ethernet 0 0 0 0 0 0 5/11 10G Ethernet 0 0 0 0 0 0 5/15 10G Ethernet 0 0 0 0 0 0 5/16 10G Ethernet 0 0 0 0 0 0 5/28 10G Ethernet 105 13 105 13 105 13 5/29 10G Ethernet 0 0 0 0 0 0 6/1 1000 Ethernet 0 0 0 0 0 0 6/10 10G Ethernet 4214 0 4121 0 3993 0 6/11 10G Ethernet 4089 0 4103 0 3995 0 6/15 10G Ethernet 4166 0 4172 0 3996 0 6/16 10G Ethernet 4163 0 4174 0 3997 0 6/28 10G Ethernet 0 0 0 0 0 0 6/29 10G Ethernet 1 0 1 0 1 0 [local]PGW-ICSR> show logical-port utilization table Sunday July 26 00:13:45 UTC 2015 ------ Average Port Utilization (in mbps) ------ Slot/Port vlan Current 5min 15min Rx Tx Rx Tx Rx Tx -------------- -------- -------- -------- -------- -------- -------- 5/10 2427 0 0 0 0 0 0 5/10 2407 0 0 0 0 0 0 5/10 2011 0 0 0 0 0 0 5/10 2405 0 0 0 0 0 0 5/10 2015 0 0 0 0 0 0 5/10 2455 0 0 0 0 0 0 6/10 2427 0 0 0 0 0 0 6/10 2407 0 0 0 0 0 0 6/10 2011 0 0 0 0 0 0 6/10 2405 0 0 0 0 0 0 6/10 2015 0 0 0 0 0 0 6/10 2455 0 0 0 0 0 0 6/29 31 0 0 0 0 0 0
[local]PGW-ICSR> clear port npu counters all
Saturday July 25 01:44:38 UTC 2015
[local]PGW-ICSR> clear port data count all
Saturday July 25 01:44:43 UTC 2015
[local]PGW-ICSR> show port data counters 6/10
Saturday July 25 01:45:30 UTC 2015
rt npu counteCounters for port 6/10:
Line Card 10 Gigabit Ethernet Port
Rx Counter Data | Tx Counter Data
----------------------- -------------- + ----------------------- -------------
RX Bytes 20310895783 | TX Bytes 9746
RX Unicast frames 25564965 | TX Unicast frames 41
RX Multicast frames 85 | TX Multicast frames 48
RX Broadcast frames 0 | TX Broadcast frames 0
RX Size 64 frames 338598 | TX Size 64 frames 9
RX Size 65 .. 127 fr 6881254 | TX Size 65 .. 127 fr 32
RX Size 128 .. 255 fr 4151284 | TX Size 128 .. 255 fr 48
RX Size 256 .. 511 fr 761933 | TX Size 256 .. 511 fr 0
RX Size 512 .. 1023 fr 599377 | TX Size 512 .. 1023 fr 0
RX Size 1024 .. 1518 fr 12678554 | TX Size 1024 .. 1518 fr 0
RX Size 1519 .. 1522 fr 154050 | TX Size 1519 .. 1522 fr 0
[local]PGW-ICSR> show port npu counters 6/10
Saturday July 25 01:45:31 UTC 2015
Counters for port 6/10
Counter Rx Frames Rx Bytes Tx Frames Tx Bytes
---------------------- -------------------- ----------- --------------------
Unicast 147 11716 150 12234
Multicast 870 73376 416 51584
Broadcast 4 240 0 0
IPv4 unicast 66 4436 66 4550
IPv4 non-unicast 238 15232 0 0
IPv6 unicast 83 7400 84 7684
IPv6 non-unicast 632 8144 0 0
Fragments received 0 0 n/a n/a
Packets reassembled 0 0 n/a n/a
Fragments to kernel 0 0 n/a n/a
HW error 0 0 n/a n/a
Port non-operational 0 0 0 0
SRC MAC is multicast 0 0 n/a n/a
Unknown VLAN tag 0 0 n/a n/a
Other protocols 97 8240 n/a n/a
Not IPv4 399 36472 n/a n/a
Bad IPv4 header 0 0 n/a n/a
Este ejemplo para ASR 5000 muestra la salida que compara los contadores de link de datos y npu. En este caso, los paquetes multicast y broadcast coinciden entre los comandos, pero el conteo Rx para npu es menor que para datalink. El comando "show npu stats debug" posiblemente puede explicar la diferencia, pero no en todos los casos, como es el caso aquí donde ninguno de los contadores de ese comando puede explicar las diferencias.
[local]DO-HSGW> clear port npu counters all Thursday August 06 02:05:51 UTC 2015 [local]DO-HSGW> clear port datalink counters all Thursday August 06 02:05:52 UTC 2015 [local]DO-HSGW> show npu stats debug all-pacs clear Thursday August 06 02:05:52 UTC 2015 [local]DO-HSGW> show card table Thursday August 06 02:18:59 UTC 2015 Slot Card Type Oper State SPOF Attach ----------- -------------------------------------- ------------- ---- ------ 5: PSC Packet Services Card 3 Active No 21 37 [local]DO-HSGW> show port npu count 21/1 Thursday August 06 02:13:52 UTC 2015 Counters for port 21/1 sCounter Rx Frames Rx Bytes Tx Frames Tx Bytes -------------------- ------------- --------------- ------------- --------------- Unicast 2502 289800 1726 308932 Multicast 1091 92000 0 0 Broadcast 1231 79781 0 0 IPv4 unicast 2400 283272 1624 304240 IPv4 non-unicast 534 34176 0 0 IPv6 unicast 0 0 0 0 IPv6 non-unicast 539 52982 0 0 Fragments received 0 0 n/a n/a Packets reassembled 0 0 n/a n/a Fragments to kernel 0 0 n/a n/a HW error 0 0 n/a n/a Port non-operational 0 0 0 0 SRC MAC is multicast 0 0 n/a n/a Unknown VLAN tag 0 0 n/a n/a Other protocols 50 7850 n/a n/a Not IPv4 0 0 n/a n/a Bad IPv4 header 0 0 n/a n/a IPv4 MRU exceeded 0 0 n/a n/a TCP tiny fragment 0 0 0 0 No ACL match 0 0 0 0 Filtered by ACL 0 0 0 0 TTL expired 0 0 n/a n/a Flow lookup twice 0 0 n/a n/a Unknown IPv4 class 0 0 n/a n/a Too short: IP 0 0 n/a n/a Too short: ICMP 0 0 0 0 Too short: IGMP 0 0 0 0 Too short: TCP 0 0 0 0 Too short: UDP 0 0 0 0 Too short: IPIP 0 0 n/a n/a Too short: GRE 0 0 n/a n/a Too short: GRE key 0 0 n/a n/a Don't frag discards n/a n/a 0 0 Fragment packets n/a n/a 0 0 Fragment fragments n/a n/a 0 0 IPv4VlanMap dropped 0 0 n/a n/a IPSec NATT keep alive 0 0 n/a n/a MPLS Flow not found 0 0 n/a n/a MPLS unicast 0 0 0 0 Size < 17 0 0 0 0 Size 17 .. 64 1834 117376 102 4692 Size 65 .. 127 1385 113948 36 2520 Size 128 .. 255 1589 225633 1191 170710 Size 256 .. 511 16 4624 397 131010 Size 512 .. 1023 0 0 0 0 Size 1024 .. 2047 0 0 0 0 Size 2048 .. 4095 0 0 0 0 Size 4096 .. 4500 0 0 0 0 Size > 4500 0 0 0 0 [local]DO-HSGW> show port data counters 21/1 Thursday August 06 02:13:52 UTC 2015 how npu Counters for port 21/1: Line Card Gigabit Ethernet Port Rx Counter Data | Tx Counter Data ----------------------- -------------- + ----------------------- ------------- RX Unicast frames 5555 | TX Unicast frames 1726 RX Multicast frames 1091 | TX Multicast frames 0 RX Broadcast frames 1233 | TX Broadcast frames 0 RX Size 64 frames 0 | TX Size 64 frames 102 RX Size 65 .. 127 fr 4219 | TX Size 65 .. 127 fr 36 RX Size 128 .. 255 fr 1681 | TX Size 128 .. 255 fr 1191 RX Size 256 .. 511 fr 49 | TX Size 256 .. 511 fr 397 RX Size 512 .. 1023 fr 1828 | TX Size 512 .. 1023 fr 0 RX Size 1024 .. 1518 fr 18 | TX Size 1024 .. 1518 fr 0 RX Size > 1518 frames 84 | TX Size > 1518 frames 0 RX Bytes OK 1934599 | TX Bytes OK 317264 RX Bytes BAD 0 | TX Bytes BAD 0 RX SHORT OK 0 | TX PAUSE 0 RX SHORT CRC 0 | TX ERR 0 RX OVF 0 | RX NORM CRC 0 | RX LONG OK 0 | RX LONG CRC 0 | RX PAUSE 0 | RX FALS CRS 0 | RX SYM ERR 0 | RX FIFO CORR ECC ERR 0 | TX FIFO CORR ECC ERR 0 RX FIFO UNREC ECC ERR 0 | TX FIFO UNREC ECC ERR 0 RX Disc frames 0 | TX Disc frames 0 RX Disc bytes 0 | TX Disc bytes 0 RX ERR frames 0 | TX ERR frames 0 ----------------------- -------------- + ----------------------- ------------- [local]DO-HSGW> show npu stats debug slot 5 Thursday August 06 02:13:53 UTC 2015 NPU debug stats for slot 5 Total number of NPU debug stat counters: 267 WARN: ---------------------------------- lc-rx-drop (id: 234) 50 INFO: ---------------------------------- csix-idle-cnt (id: 29) 36268853 npu-resent-fc-msg (id: 45) 951 npu-tx-fc-cframe (id: 46) 44701 npu-rx-sf-xon (id: 60) 13316 cp2npu-unk-mac-drop-cnt (id: 153) 177255 ipv6-unk-nexthdr (id: 155) 262 rx-cp-sft-pkt (id: 164) 33439 rx-sf0-sft-pkt (id: 165) 33439 rx-sf1-sft-pkt (id: 166) 33439 lc-rx-arp-slowpath (id: 316) 70 flow-notfound-done-slowpath (id: 325) 1233 flow-lkup-done-slowpath (id: 326) 3473
TX Pause indica que este puerto ha alcanzado cierto pico de carga en algún momento y ha enviado una trama PAUSE al switch de peer, de modo que el switch de peer pueda reducir el tráfico hacia este puerto de forma correcta. Sin embargo, parece que el switch de peer no está habilitado con el control de flujo y por lo tanto hay algunos contadores en la tarjeta de línea que indica algunas caídas de desbordamiento en el puerto.
Incluso si la utilización media de los puertos no alcanza el valor máximo (como 6 GBPS), el puerto puede recibir un pico repentino de tráfico que puede llevar a TX PAUSE. Por lo tanto, es aconsejable que el control de flujo esté habilitado en el switch del par siempre por si acaso.
show port datalink counters
Counters for port 21/1: Line Card 10 Gigabit Ethernet Port Rx Counter Data | Tx Counter Data ----------------------- -------------- + ----------------------- ------------- RX Unicast frames 11562820841545 | TX Unicast frames 8643405785924 RX Multicast frames 401729121 | TX Multicast frames 0 RX Broadcast frames 16900986 | TX Broadcast frames 0 RX Size 64 frames 2562649224215 | TX Size 64 frames 5324800463761 RX Size 65 .. 127 fr 1827916995441 | TX Size 65 .. 127 fr 1921108746736 RX Size 128 .. 255 fr 527160156402 | TX Size 128 .. 255 fr 377388275894 RX Size 256 .. 511 fr 384674712910 | TX Size 256 .. 511 fr 285180922294 RX Size 512 .. 1023 fr 335734722295 | TX Size 512 .. 1023 fr 248088896685 RX Size 1024 .. 1518 fr 5894848662488 | TX Size 1024 .. 1518 fr 486837840991 RX Size > 1518 frames 29836364100 | TX Size > 1518 frames 0 RX Bytes OK 9248285853715092 | TX Bytes OK 1491301613652484 RX Bytes BAD 5358 | TX Bytes BAD 0 RX SHORT OK 0 | TX PAUSE 639563 RX SHORT CRC 0 | TX ERR 0 RX OVF 12768 | RX NORM CRC 0 | RX LONG OK 0 | RX LONG CRC 0 | RX PAUSE 0 | RX FALS CRS 0 | RX SYM ERR 0 | RX SPI FRAME COUNT 11555373252519 | TX SPI FRAME COUNT 8637801817136 RX SPI LEN ERR 0 | TX SPI LEN ERR 0 RX SPI DIP 2 ERR 0 | TX SPI DIP 4 ERR 0 RX SPI STATUS OOF ERR 0 | TX SPI DATA OOF ERR 0 RX FIFO OVERFLOW 0 | TX FIFO FULL DROP 0 RX PAUSE COUNT 0 | TX DIP 4 PACKET DROP 0 SPI EOP/ABORT 0 | RX FRAGMENTS COUNT 0 | RX MAC ERR 26 | RX JABBER COUNT 0 |
Un comando de nivel muy bajo (sólo soporte técnico, se puede recuperar de la SSD) es "show data congestion slot X". En este ejemplo, observe la alta congestión en la ranura 5 (conectada de forma predeterminada a XCLC 21/1) en la interfaz NPU a Switch Fabric (SF). Específicamente, un elevado número de mensajes de control de flujo desde el entramado de switches a la NPU, junto con un alto número de caídas de paquetes en la misma dirección, confirma el problema.
******** Data-path congestion information for slot 5 ******** NPU Percentage of Frames Dropped: Subsystem | 5 Sec | 5 Min | 15 Min | Total Frames and Drops -------------|---------|---------|---------|----------------------------- LC Top rx | 0.00% | 0.00% | 0.00% | Frames: 715193480189 | | | | Drops: 0 LC Top tx | 0.00% | 0.00% | 0.00% | Frames: 0 | | | | Drops: 0 LC Bot rx | 0.00% | 0.00% | 0.00% | Frames: 0 | | | | Drops: 0 LC Bot tx | 0.00% | 0.00% | 0.00% | Frames: 0 | | | | Drops: 0 LC RCC1 rx | 0.00% | 0.00% | 0.00% | Frames: 0 | | | | Drops: 0 LC RCC1 tx | 0.00% | 0.00% | 0.00% | Frames: 0 | | | | Drops: 0 LC RCC2 rx | 0.00% | 0.00% | 0.00% | Frames: 0 | | | | Drops: 0 LC RCC2 tx | 0.00% | 0.00% | 0.00% | Frames: 0 | | | | Drops: 0 CPU rx | 0.00% | 0.00% | 0.00% | Frames: 121566003797 | | | | Drops: 0 CPU tx | 0.00% | 0.00% | 0.00% | Frames: 59870967969 | | | | Drops: 35226625 SF A rx | 0.00% | 0.00% | 0.00% | Frames: 224008179 | | | | Drops: 0 SF A tx | 0.01% | 0.00% | 0.00% | Frames: 378241304254 | | | | Drops: 274645028 SF B rx | 0.00% | 0.00% | 0.00% | Frames: 656009419 | | | | Drops: 0 SF B tx | 0.00% | 0.00% | 0.00% | Frames: 392219947264 | | | | Drops: 320394097 EDC rx | 0.00% | 0.00% | 0.00% | Frames: 0 | | | | Drops: 0 EDC tx | 0.00% | 0.00% | 0.00% | Frames: 0 | | | | Drops: 0 NPU Received Flow Control Events: Event | 5 Sec | 5 Min | 15 Min | Total Event Count ----------------|-------------|-------------|-------------|-------------------- rx-sf-xoff | 21668 | 843417 | 2358340 | 828378025 rx-sf-xon | 21811 | 851786 | 2383440 | 873518866 rx-lc-xoff | 0 | 0 | 0 | 0 rx-lc-xon | 0 | 0 | 0 | 0 rx-cp-xoff | 53 | 5021 | 15176 | 17316366 rx-cp-xon | 53 | 5021 | 15176 | 17316366 rx-edc-xoff | 0 | 0 | 0 | 0 rx-edc-xon | 0 | 0 | 0 | 0
En este ejemplo, se empezaron a abrir las notificaciones referidas a un aumento en los contadores TX ERR en el puerto 5/1, el puerto de administración en ASR 5500. En un sitio, no se "notó" como un problema hasta después de la ejecución de un MOP que implementó la creación y generación de archivos de registro de eventos, una característica del Servicio de cobro mejorado. No se pudo establecer una correlación entre la implementación de esa función y un aumento repentino de estos fallos, excepto para observar que también hubo un aumento repentino en el rendimiento del puerto de administración, que sólo debería transportar el tráfico de administración en 12/30 cuando se realizó el cambio. Aquí se muestra la variable txpackets del esquema PORTSch1 que muestra el aumento:
Una auditoría de la red mostró que el problema estaba ocurriendo en muchos nodos, por ejemplo aquí hay sólo un pequeño fragmento de la auditoría:
*************** ALPR-DXGW-ICSR *************** show port datalink counters 5/1 | grep "TX ERR" Monday January 04 03:33:14 UTC 2016 RX SHORT CRC 0 | TX ERR 2038860 *************** ANJT-PGW *************** show port datalink counters 5/1 | grep "TX ERR" Monday January 04 03:33:14 UTC 2016 RX SHORT CRC 0 | TX ERR 1975169 *************** AZUS-PGW-00 *************** show port datalink counters 5/1 | grep "TX ERR" Monday January 04 03:33:15 UTC 2016 RX SHORT CRC 0 | TX ERR 1709395 *************** AZUSPND-PGW-00 *************** show port datalink counters 5/1 | grep "TX ERR" Monday January 04 03:33:15 UTC 2016 RX SHORT CRC 0 | TX ERR 1211060
Volviendo a las antiguas SSD (ya que Bulkstats sólo está realizando un seguimiento de los contadores básicos), se puede ver que el error se produjo lentamente hasta 12/30, pero después de la ejecución de la MOP, el error se produjo a una velocidad mucho mayor:
Thursday November 19 13:41:44 UTC 2015 Counters for port 5/1: Line Card Gigabit Ethernet Port Rx Counter Data | Tx Counter Data ----------------------- -------------- + ----------------------- ------------- RX SHORT CRC 0 | TX ERR 5927969 Monday November 30 13:35:45 UTC 2015 Counters for port 5/1: Line Card Gigabit Ethernet Port Rx Counter Data | Tx Counter Data ----------------------- -------------- + ----------------------- ------------- RX SHORT CRC 0 | TX ERR 6116249 Tuesday December 01 13:39:26 UTC 2015 Counters for port 5/1: Line Card Gigabit Ethernet Port Rx Counter Data | Tx Counter Data ----------------------- -------------- + ----------------------- ------------- RX SHORT CRC 0 | TX ERR 6130958 Counters cleared ... [local]ASR5500-PGW> show port datalink counters 5/1 Monday January 04 02:41:29 UTC 2016 Counters for port 5/1: Line Card Gigabit Ethernet Port Rx Counter Data | Tx Counter Data ----------------------- -------------- + ----------------------- ------------- RX Unicast frames 171008921 | TX Unicast frames 221976127 RX SHORT CRC 0 | TX ERR 5852770 ******** show port datalink counters ******* Tuesday January 05 13:38:51 UTC 201 Rx Counter Data | Tx Counter Data ----------------------- -------------- + ----------------------- ------------- RX Unicast frames 216450269 | TX Unicast frames 8080952673 RX SHORT CRC 0 | TX ERR 11497275
******** show port info *******
Tuesday January 05 13:33:07 UTC 2016
Port: 5/1
Port Type : 1000 Ethernet
Configured Duplex : Auto
Configured Speed : Auto
Link State : Up
Link Duplex : Half
Link Speed : 100 Mb Issue fixed ... Wednesday January 06 14:29:28 UTC 2016 Counters for port 5/1: Line Card Gigabit Ethernet Port Rx Counter Data | Tx Counter Data ----------------------- -------------- + ----------------------- ------------- RX SHORT CRC 0 | TX ERR 0
[local]PGW> show port info 5/1
Wednesday January 06 12:58:50 UTC 2016
Port: 5/1
Port Type : 1000 Ethernet
Role : Management Port
Configured Duplex : Auto
Configured Speed : Auto
Link State : Up
Link Duplex : Full
Link Speed : 1000 Mb
El problema resultó ser una discordancia en la configuración del puerto entre el ASR 5500 y el nuevo switch al que se conecta, el Nexus 7000. La solución era configurar los puertos en ambos extremos para la negociación automática. ASR 5500 ya estaba configurado en automático, mientras que el Nexus se configuró manualmente en dúplex completo. La solución:
ASR 5500 (already set to this) port ethernet 5/1 medium speed 1000 duplex full no shutdown bind interface 5/1-MGMT local #exit Nexus 7K (needed to be set to this) interface Ethernet152/1/11 description MGMT-PORT-5/01 switchport switchport access vlan 10 spanning-tree port type edge no snmp trap link-status no shutdown
Resulta que el problema ocurrió todo el tiempo, pero nunca se notó porque el único indicador era el contador TX ERR que no es algo que se puede medir a través de ningún informe automatizado ya que no hay variables de bulkstat para nada más allá de los contadores de puerto básicos (paquetes/bytes Tx/Rx, etc.). Sin embargo, el problema se agravó mucho cuando se ejecutó el MOP y, como los paquetes Tx/Rx son capturados por Bulkstats y es un KPI medido por el cliente, se observó.
Así que la siguiente pregunta fue ¿qué causó el repentino aumento del tráfico? El examen del cambio muestra la siguiente configuración llamada "via local-context", que especifica el uso del puerto de contexto local (5/1 o 6/1) para el nuevo tráfico de evento en lugar del puerto 5/29 en el contexto ECS donde el tráfico de registro de datos de eventos (EDR) existente siempre se ha enviado (y se ha seguido enviando) fuera del puerto existente 5/29 en ese contexto. Esta NO fue una conclusión obvia, ya que esa configuración rara vez se utiliza en cualquier configuración del cliente.
context ECS
interface 5/29-ECS
ip address 10.192.102.75 255.255.255.0
#exit
session-event-module file name evt-repo rotation volume 40000000 rotation time 120 storage-limit 500000000 exclude-checksum-record time-stamp rotated-format compression gzip event transfer-mode push primary encrypted-url +A19y2j... via local-context module-only edr-module active-charging-service file name FDR70 rotation volume 40000000 rotation time 300 storage-limit 500000000 headers reset-indicator edr-format-name trap-on-file-delete charging-service-name omit compression gzip file-sequence-number rulebase-seq-num cdr use-harddisk cdr remove-file-after-transfer cdr transfer-mode push primary encrypted-url +A0d2...
Las interfaces 24/1 y 25/1 que conforman la interfaz 24/1-MGMT están experimentando "Tramas Malas", "Colisiones TX" y "Colisiones TX Late".
A partir de los detalles del show support:
******** show port datalink counters ******* Friday January 03 14:14:59 UTC 2014 Counters for port 25/1: SPIO 10/100/1000 Ethernet port Rx Counter Data | Tx Counter Data ----------------------- -------------- + ----------------------- ------------- RX Bytes 12808872101 | TX Bytes 20451927433 RX BAD frames 0 | TX BAD frames 1403971 RX Runt frames 0 | TX Runt frames 0 RX Oversize frames 0 | TX Oversize frames 0 RX Good frames 95621882 | TX Good frames 39395979 RX Multicast frames 6686008 | TX Collisions 1501475 RX Broadcast frames 56656415 | TX Excessive collis 0 RX Code ERROR 0 | TX Late Collisions 1403968 RX CRC ERROR 0 | TX CRC ERROR 0 RX length ERROR 0 | TX ABORT 3 RX Align ERROR 0 | ----------------------- -------------- + ----------------------- -------------
Desde el sistema un poco más tarde, observe el aumento en Malas tramas y colisiones/Colisiones tardías:
[local]DO-HSGW> show port datalink counters 25/1 Friday January 03 14:26:04 UTC 2014 Counters for port 25/1: SPIO 10/100/1000 Ethernet port Rx Counter Data | Tx Counter Data ----------------------- -------------- + ----------------------- ------------- RX Bytes 12809750383 | TX Bytes 20456667635 RX BAD frames 0 | TX BAD frames 1404930 RX Runt frames 0 | TX Runt frames 0 RX Oversize frames 0 | TX Oversize frames 0 RX Good frames 95628788 | TX Good frames 39400838 RX Multicast frames 6686366 | TX Collisions 1502503 RX Broadcast frames 56659440 | TX Excessive collis 0 RX Code ERROR 0 | TX Late Collisions 1404927 RX CRC ERROR 0 | TX CRC ERROR 0 RX length ERROR 0 | TX ABORT 3 RX Align ERROR 0 | ----------------------- -------------- + ----------------------- -------------
Esto es generalmente indicativo de una discordancia de configuración en cualquiera de los extremos de la interfaz Ethernet. Ambos puertos de administración han negociado como semidúplex:
[local]DO-HSGW> show port info 24/1 Friday January 03 14:33:19 UTC 2014 Port: 24/1 Port Type : 1000 Ethernet Dual Media Role : Management Port Description : (None Set) Controlled By Card : 8 (System Management Card) Redundancy Mode : Port Mode Framing Mode : Unspecified Redundant With : 25/1 Preferred Port : Non-Revertive Physical ifIndex : 402718720 Administrative State : Enabled Configured Duplex : Auto Configured Speed : Auto Media Selection : RJ45 MAC Address : 00-05-47-02-5D-EE Link State : Up Link Duplex : Half Link Speed : 100 Mb Link Aggregation Group : None Logical ifIndex : 402718721 Operational State : Down, Standby SFP Module : Present (1000BASE-SX, M5, M610G SFP+Cu)
El otro extremo del link, Cisco Catalyst 6500, se configuró en Velocidad = 100 y dúplex = completo. Para solucionar el problema, configure el ASR 5000 como dúplex completo:
port ethernet 24/1 medium speed 100 duplex full no shutdown bind interface 24/1-MGMT local
O bien, establezca AMBOS lados en negociación automática.
Pero tener un lado como auto y el otro lado como completo podría resultar en un establecimiento semidúplex.
Se observó lo siguiente cuando el puerto 23/1 en el LAG estaba atascado en el estado negociado LAG después de un switchover LAG inesperado:
2015-May-15+16:47:40.410 [snmp 22002 info] [1/0/13147 <lagmgr:0>
trap_api.c:2387] [software internal system syslog] Internal trap notification
1205 (LAGGroupUp) card:19, port:1, partner:(007F,64-87-88-66-F7-C0,0016)
2015-May-15+16:47:40.410 [snmp 22002 info] [1/0/13147 <lagmgr:0>
trap_api.c:2387] [software internal system syslog] Internal trap notification
1204 (LAGGroupDown) card:19, port:1, partner:(007F,64-87-88-67-87-C0,0016)
2015-May-15+16:47:40.410 [lagmgr 179050 warning] [1/0/13147 <lagmgr:0>
lagmgr_state.c:1314] [software internal system critical-info syslog] LAG group
50 (global) with master port 19/1 has changed partner
from (007F,64-87-88-67-87-C0,0016) on 17/1, 19/1, 23/1, 27/1, 29/1
to (007F,64-87-88-66-F7-C0,0016) on 18/1, 20/1, 26/1, 28/1, 30/1
[local]PDSN> show port table | grep LA 17/1 Srvc 10G Ethernet Enabled Up Up Active None LA~ 19/1 18/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1 19/1 Srvc 10G Ethernet Enabled - Up - None LA~ 19/1 20/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1 23/1 Srvc 10G Ethernet Enabled Up Up Active None LA* 19/1 26/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1 27/1 Srvc 10G Ethernet Enabled Up Up Active None LA~ 19/1 28/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1 29/1 Srvc 10G Ethernet Enabled Up Up Active None LA~ 19/1 30/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1
[local]PDSN> show port info 23/1
Port: 23/1
Port Type : 10G Ethernet
Role : Service Port
Description : Ingress-Egress Line Card
Controlled By Card : 7 (Packet Services Card 3)
Redundancy Mode : Port Mode
Framing Mode : Unspecified
Redundant With : Not Redundant
Preferred Port : Non-Revertive
Physical ifIndex : 385941504
Administrative State : Enabled
Configured Duplex : Auto
Configured Speed : Auto
Configured Flow Control : Enabled
MAC Address : 00-05-47-02-A6-96
Link State : Up
Link Duplex : Full
Link Speed : 10 Gb
Flow Control : Enabled
Link Aggregation Group : 50 (global, member)
Link Aggregation LACP : Active, Short, Auto
Link Aggregation Master : 19/1
Link Aggregation State : Agreed with LACP peer
Link Aggregation Actor : (8000,00-05-47-02-B1-97,001A,8000,1701)
Link Aggregation Peer : (007F,64-87-88-67-87-C0,0016,007F,0013)
Logical ifIndex : 385941505
Operational State : Up, Active
SFP Module : Present (10G Base SR)
[local]PDSN>show card diag 23
Card 23:
Counters:
In Service Date : Tue Aug 24 06:58:31 2010 (Estimated)
Status:
IDEEPROM Magic Number : Good
Card Diagnostics : Pass
Current Failure : None
Last Failure : None
Card Usable : Yes
Current Environment:
Temperature: Card : 48 C (limit 90 C)
Temperature: LM87 : 49 C (limit 85 C)
Temperature: PHY : 48 C (limit 90 C)
Voltage: 1.2V : 1.205 V (min 1.140 V, max 1.260 V)
Voltage: 1.2V : 1.205 V (min 1.140 V, max 1.260 V)
Voltage: 2.5V : 2.522 V (min 2.375 V, max 2.625 V)
Voltage: 3.3V : 3.285 V (min 3.135 V, max 3.465 V)
Voltage: 1.8V : 1.805 V (min 1.710 V, max 1.890 V)
Los contadores de link de datos no mostraron ningún problema:
[local]PDSN# show port datalink counters 23/1 Counters for port 23/1: Line Card 10 Gigabit Ethernet Port Rx Counter Data | Tx Counter Data ----------------------- -------------- + ----------------------- ------------- RX Unicast frames 3782 | TX Unicast frames 6043 RX Multicast frames 3782 | TX Multicast frames 0 RX Broadcast frames 0 | TX Broadcast frames 0 RX Size 64 frames 0 | TX Size 64 frames 0 RX Size 65 .. 127 fr 0 | TX Size 65 .. 127 fr 6043 RX Size 128 .. 255 fr 3782 | TX Size 128 .. 255 fr 0 RX Size 256 .. 511 fr 0 | TX Size 256 .. 511 fr 0 RX Size 512 .. 1023 fr 0 | TX Size 512 .. 1023 fr 0 RX Size 1024 .. 1518 fr 0 | TX Size 1024 .. 1518 fr 0 RX Size > 1518 frames 0 | TX Size > 1518 frames 0 RX Bytes OK 483456 | TX Bytes OK 748092 RX Bytes BAD 0 | TX Bytes BAD 0 RX SHORT OK 0 | TX PAUSE 0 RX SHORT CRC 0 | TX ERR 0 RX OVF 0 | RX NORM CRC 0 | RX LONG OK 0 | RX LONG CRC 0 | RX PAUSE 0 | RX FALS CRS 0 | RX SYM ERR 0 | SPI RX LEN ERR CNT 0 | SPI TX LEN ERR CNT 0 SPI RX DIP2 ERR CNT 0 | SPI TX DIP4 ERR CNT 0 SPI RX STAT OOF ERR CNT 0 | SPI TX DATA OOF ERR CNT 0 RX MAC ERR CNT 0 | RX FIFO CORR ECC ERR 0 | TX FIFO CORR ECC ERR 0 RX FIFO UNRECOV ECC ERR 0 | TX FIFO UNRECOV ECC ERR 0 RX Disc frames 0 | TX Disc frames 0 RX Disc Bytes 0 | TX Disc Bytes 0 RX ERR frames 0 | TX ERR frames 0 RX SPI FRAME COUNT 3782 | TX SPI FRAME COUNT 6044 RX SPI LEN ERR 0 | TX SPI LEN ERR 0 RX SPI DIP 2 ERR 0 | TX SPI DIP 4 ERR 0 RX SPI STATUS OOF ERR 0 | TX SPI DATA OOF ERR 0 RX FIFO OVERFLOW 0 | TX FIFO FULL DROP 0 RX PAUSE COUNT 0 | TX DIP 4 PACKET DROP 0 SPI EOP/ABORT 0 | RX FRAGMENTS COUNT 0 | RX MAC ERR 0 | RX JABBER COUNT 0 | ----------------------- -------------- + ----------------------- -------------
Los contadores de la NPU también estaban bien. Estos son los contadores del puerto 23/1 unos segundos después y nada malo está aumentando:
[local]PDSN# show port datalink counters 23/1 Counters for port 23/1: Line Card 10 Gigabit Ethernet Port Rx Counter Data | Tx Counter Data ----------------------- -------------- + ----------------------- ------------- RX Unicast frames 3802 | TX Unicast frames 6066 RX Multicast frames 3802 | TX Multicast frames 0 RX Broadcast frames 0 | TX Broadcast frames 0 RX Size 64 frames 0 | TX Size 64 frames 0 RX Size 65 .. 127 fr 0 | TX Size 65 .. 127 fr 6066 RX Size 128 .. 255 fr 3802 | TX Size 128 .. 255 fr 0 RX Size 256 .. 511 fr 0 | TX Size 256 .. 511 fr 0 RX Size 512 .. 1023 fr 0 | TX Size 512 .. 1023 fr 0 RX Size 1024 .. 1518 fr 0 | TX Size 1024 .. 1518 fr 0 RX Size > 1518 frames 0 | TX Size > 1518 frames 0 RX Bytes OK 486016 | TX Bytes OK 750944 RX Bytes BAD 0 | TX Bytes BAD 0 RX SHORT OK 0 | TX PAUSE 0 RX SHORT CRC 0 | TX ERR 0 RX OVF 0 | RX NORM CRC 0 | RX LONG OK 0 | RX LONG CRC 0 | RX PAUSE 0 | RX FALS CRS 0 | RX SYM ERR 0 | SPI RX LEN ERR CNT 0 | SPI TX LEN ERR CNT 0 SPI RX DIP2 ERR CNT 0 | SPI TX DIP4 ERR CNT 0 SPI RX STAT OOF ERR CNT 0 | SPI TX DATA OOF ERR CNT 0 RX MAC ERR CNT 0 | RX FIFO CORR ECC ERR 0 | TX FIFO CORR ECC ERR 0 RX FIFO UNRECOV ECC ERR 0 | TX FIFO UNRECOV ECC ERR 0 RX Disc frames 0 | TX Disc frames 0 RX Disc Bytes 0 | TX Disc Bytes 0 RX ERR frames 0 | TX ERR frames 0 RX SPI FRAME COUNT 3802 | TX SPI FRAME COUNT 6067 RX SPI LEN ERR 0 | TX SPI LEN ERR 0 RX SPI DIP 2 ERR 0 | TX SPI DIP 4 ERR 0 RX SPI STATUS OOF ERR 0 | TX SPI DATA OOF ERR 0 RX FIFO OVERFLOW 0 | TX FIFO FULL DROP 0 RX PAUSE COUNT 0 | TX DIP 4 PACKET DROP 0 SPI EOP/ABORT 0 | RX FRAGMENTS COUNT 0 | RX MAC ERR 0 | RX JABBER COUNT 0 |
Pero el comando de soporte técnico "show lag event" mostró eventos continuos en el puerto 23/1. Esta es la mejor manera de ver el problema reportado.
[local]PDSN> show lag event lagmgr event history [4096/4096] May 15 18:36:57.222 50 23/01 New MUX State: DETACHED May 15 18:36:57.222 50 23/01 SYNC cleared May 15 18:36:57.222 50 23/01 COLL disabled May 15 18:36:58.212 50 23/01 New MUX State: WAITING May 15 18:36:58.223 50 23/01 LACP State Change: 0x07:ACTV:TIMO:AGGR ...
Después de la ventana de mantenimiento, Cisco se puso en contacto con Cisco y se realizó una migración de PSC para volver a colocar las asignaciones de tarjeta en la asignación predeterminada (de modo que el PSC se mapee a la tarjeta de línea físicamente detrás: 7 + 16 = 23), como se hizo antes de ponerse en contacto con Cisco.
[local]PDSN card migrate from 16 to 7 Are you sure? [Yes|No]: yes [local]PDSN# show port table | grep LA 17/1 Srvc 10G Ethernet Enabled Up Up Active None LA~ 19/1 18/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1 19/1 Srvc 10G Ethernet Enabled - Up - None LA~ 19/1 20/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1 23/1 Srvc 10G Ethernet Enabled Up Up Active None LA~ 19/1 26/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1 27/1 Srvc 10G Ethernet Enabled Up Up Active None LA~ 19/1 28/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1 29/1 Srvc 10G Ethernet Enabled Up Up Active None LA~ 19/1 30/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1 [local]PDSN# show rct stats RCT stats Details (Last 8 Actions) Action Type From To Start Time Duration ----------------- --------- ---- ---- ------------------------ ---------- Migration Planned 10 15 2015-Jan-12+07:02:33.842 32.911 sec Shutdown N/A 10 0 2015-Jan-12+07:08:35.098 0.218 sec Migration Planned 16 10 2015-Jan-12+07:19:40.842 32.451 sec Shutdown N/A 1 16 2015-Mar-19+05:00:54.430 1.368 sec Migration Planned 16 1 2015-Mar-27+06:05:48.902 19.085 sec Shutdown N/A 16 0 2015-Mar-27+06:13:00.397 0.027 sec Migration Planned 7 16 2015-May-16+07:04:51.264 37.629 sec Migration Planned 16 7 2015-May-16+08:39:48.761 Unfinished RCT stats Summary ----------------- Migrations = 5, Average time = 30.519 sec Switchovers = 0 Migration Planned 16 7 2015-May-16+08:39:48.761 43.248 sec
Sat May 16 08:40:33 2015 Internal trap notification 1257 (MigrateComplete) from card 16 to card 7
Se realizó un reinicio de la tarjeta de línea 23:
[local]PDSN# card reboot 23 Are you sure? [Yes|No]: yes
Sat May 16 08:41:38 2015 Internal trap notification 4 (CardRebootRequest) card
23 type 10 Gig Ethernet Line Card
Sat May 16 08:41:44 2015 Internal trap notification 1025 (PortUp) card 23 port 1
port type 10G Ethernet
Sat May 16 08:41:44 2015 Internal trap notification 1502 (EntStateOperEnabled)
Port(23/1) Admin state:"Unlocked", Alarm severity:"No active alarm"
Sat May 16 08:41:44 2015 Internal trap notification 55 (CardActive) card 23 type
10 Gig Ethernet Line Card
El puerto está ahora en buen estado:
[local]PDSN# show port table | grep LA 17/1 Srvc 10G Ethernet Enabled Up Up Active None LA~ 19/1 18/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1 19/1 Srvc 10G Ethernet Enabled - Up - None LA~ 19/1 20/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1 23/1 Srvc 10G Ethernet Enabled Up Up Active None LA~ 19/1 26/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1 27/1 Srvc 10G Ethernet Enabled Up Up Active None LA~ 19/1 28/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1 29/1 Srvc 10G Ethernet Enabled Up Up Active None LA~ 19/1 30/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1
Pero el lado de Juniper todavía tenía errores (no se muestra ningún resultado aquí).
La cuestión seguía sin resolverse por parte de Juniper.
La fibra se movió de 23/1 a 17/1 y el error se mantuvo con 23/1 y se trasladó a un puerto diferente en el lado de Juniper.
Sat May 16 08:46:28 2015 Internal trap notification 1024 (PortDown) card 17 port
1 port type 10G Ethernet Sat May 16 08:46:28 2015 Internal trap notification 93 (CardStandby) card 17
type 10 Gig Ethernet Line Card Sat May 16 08:46:31 2015 Internal trap notification 1024 (PortDown) card 23 port
1 port type 10G Ethernet Sat May 16 08:46:31 2015 Internal trap notification 93 (CardStandby) card 23
type 10 Gig Ethernet Line Card
Sat May 16 08:46:33 2015 Internal trap notification 1025 (PortUp) card 23 port 1
port type 10G Ethernet Sat May 16 08:46:33 2015 Internal trap notification 55 (CardActive) card 23 type
10 Gig Ethernet Line Card Sat May 16 08:46:40 2015 Internal trap notification 1025 (PortUp) card 17 port 1
port type 10G Ethernet Sat May 16 08:46:40 2015 Internal trap notification 55 (CardActive) card 17 type
10 Gig Ethernet Line Card
Las fibras se movieron de vuelta a la ubicación original y el problema seguía siendo con el puerto 23/1 (todo desde la perspectiva de Juniper porque, como se mencionó anteriormente, el problema ya no se veía en el ASR 5000 después de reiniciar la tarjeta de línea 23).
Sat May 16 08:51:53 2015 Internal trap notification 1024 (PortDown) card 23 port
1 port type 10G Ethernet Sat May 16 08:51:53 2015 Internal trap notification 93 (CardStandby) card 23
type 10 Gig Ethernet Line Card Sat May 16 08:51:57 2015 Internal trap notification 1024 (PortDown) card 17 port
1 port type 10G Ethernet Sat May 16 08:51:57 2015 Internal trap notification 93 (CardStandby) card 17
type 10 Gig Ethernet Line Card Sat May 16 08:51:58 2015 Internal trap notification 1025 (PortUp) card 23 port 1
port type 10G Ethernet Sat May 16 08:51:58 2015 Internal trap notification 55 (CardActive) card 23 type
10 Gig Ethernet Line Card Sat May 16 08:51:59 2015 Internal trap notification 1025 (PortUp) card 17 port 1
port type 10G Ethernet
Sat May 16 08:51:59 2015 Internal trap notification 55 (CardActive) card 17 type
10 Gig Ethernet Line Card
El intercambio de SFP entre 23/1 y 17/1 no cambió nada.
Sat May 16 08:52:50 2015 Internal trap notification 1024 (PortDown) card 23 port
1 port type 10G Ethernet Sat May 16 08:52:50 2015 Internal trap notification 93 (CardStandby) card 23
type 10 Gig Ethernet Line Card Sat May 16 08:52:58 2015 Internal trap notification 1024 (PortDown) card 17 port
1 port type 10G Ethernet Sat May 16 08:52:59 2015 Internal trap notification 93 (CardStandby) card 17
type 10 Gig Ethernet Line Card Sat May 16 08:53:46 2015 Internal trap notification 1025 (PortUp) card 17 port 1
port type 10G Ethernet Sat May 16 08:53:46 2015 Internal trap notification 55 (CardActive) card 17 type
10 Gig Ethernet Line Card Sat May 16 08:53:53 2015 Internal trap notification 1025 (PortUp) card 23 port 1
port type 10G Ethernet Sat May 16 08:53:53 2015 Internal trap notification 55 (CardActive) card 23 type
10 Gig Ethernet Line Card
Una reubicación de la tarjeta de línea 23/1 despejó el problema en el lado de Juniper.
Sat May 16 08:55:39 2015 Internal trap notification 1024 (PortDown) card 23 port
1 port type 10G Ethernet Sat May 16 08:55:39 2015 Internal trap notification 35 (PortLinkDown) ifindex
385941505 adminstate Disabled operstate Down Sat May 16 08:55:39 2015 Internal trap notification 1504 (CiscoFruCardStatusChanged) FRU entity Card : 23 operational status changed to
Offline Sat May 16 08:55:39 2015 Internal trap notification 60 (CardDown) card 23 type
10 Gig Ethernet Line Card Sat May 16 08:55:39 2015 Internal trap notification 1503 (EntStateOperDisabled)
Card(23) Admin state:"Locked", Alarm severity:"Critical" Sat May 16 08:55:39 2015 Internal trap notification 140 (CardSPOFClear) card 23
type 10 Gig Ethernet Line Card Sat May 16 08:55:40 2015 Internal trap notification 84 (ServiceLossLC) Slots 23
and 39 has configured for card type 10 Gig Ethernet Line Card, but neither active
Sat May 16 08:55:41 2015 Internal trap notification 1505
(CiscoFruPowerStatusChanged) FRU entity Card : 23 Power OFF Sat May 16 08:55:41 2015 Internal trap notification 1504
(CiscoFruCardStatusChanged) FRU entity Card : 23 operational status changed to
Empty Sat May 16 08:55:41 2015 Internal trap notification 7 (CardRemoved) card 23 type
10 Gig Ethernet Line Card Sat May 16 08:55:41 2015 Internal trap notification 1507 (CiscoFruRemoved) FRU
entity Card : 23 removed Sat May 16 08:55:41 2015 Internal trap notification 1505
(CiscoFruPowerStatusChanged) FRU entity Card : 23 Power OFF Sat May 16 08:56:19 2015 Internal trap notification 1505
(CiscoFruPowerStatusChanged) FRU entity Card : 23 Power ON Sat May 16 08:56:21 2015 Internal trap notification 1504
(CiscoFruCardStatusChanged) FRU entity Card : 23 operational status changed to
Offline Sat May 16 08:56:21 2015 Internal trap notification 8 (CardInserted) card 23
type 10 Gig Ethernet Line Card Sat May 16 08:56:21 2015 Internal trap notification 1506 (CiscoFruInserted) FRU
entity Card : 23 inserted Sat May 16 08:56:23 2015 Internal trap notification 1504
(CiscoFruCardStatusChanged) FRU entity Card : 23 operational status changed to
Ready Sat May 16 08:56:23 2015 Internal trap notification 5 (CardUp) card 23 type 10
Gig Ethernet Line Card Sat May 16 08:56:23 2015 Internal trap notification 1502 (EntStateOperEnabled)
Card(23) Admin state:"Unlocked", Alarm severity:"No active alarm" Sat May 16 08:56:25 2015 Internal trap notification 1504 (CiscoFruCardStatusChanged) FRU entity Card : 23 operational status changed to
Active Sat May 16 08:56:25 2015 Internal trap notification 55 (CardActive) card 23 type
10 Gig Ethernet Line Card Sat May 16 08:56:26 2015 Internal trap notification 1111 (ServiceLossLCClear)
Slots 23 and 39 has configured for card type 10 Gig Ethernet Line Card, one of
them is active now Sat May 16 08:56:26 2015 Internal trap notification 93 (CardStandby) card 23
type 10 Gig Ethernet Line Card Sat May 16 08:56:28 2015 Internal trap notification 1025 (PortUp) card 23 port 1
port type 10G Ethernet Sat May 16 08:56:28 2015 Internal trap notification 1502 (EntStateOperEnabled)
Port(23/1) Admin state:"Unlocked", Alarm severity:"No active alarm" Sat May 16 08:56:28 2015 Internal trap notification 55 (CardActive) card 23 type
10 Gig Ethernet Line Card
En el siguiente ejemplo, se aplicaron muchos de los mismos pasos de solución de problemas y vale la pena estudiarlos. Comenzó con algunos registros de advertencia de resmgr 14537 desconocidos que se reportan junto con un rebote del puerto 25/1, pero evolucionó en un problema de puerto 27/1 y mayores fallas de configuración de llamadas.
2015-May-03+05:29:21.083 [resmgr 14537 warning] [8/0/4643 <rmmgr:80>
_resource_cpu.c:4974] [software internal system critical-info syslog] The CPU
8/0's network i/f cpeth0 is receiving 803.7 Mbit/sec over the past 5 min.
La utilización del puerto fue desigual en el puerto 27/1:
[local]PDSN# show port utilization table Monday May 04 17:49:02 UTC 2015 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 1058 1049 1034 1050 1022 1042 20/1 10G Ethernet 0 0 0 0 0 0 23/1 10G Ethernet 1108 1064 1114 1033 1102 1032 26/1 10G Ethernet 0 0 0 0 0 0 27/1 10G Ethernet 1002 2472 989 2456 981 2440 28/1 10G Ethernet 0 0 0 0 0 0
En el lado Juniper MX-960 de la interfaz PDSN en cuestión, los errores de entrada aumentaron constantemente:
show interfaces xe-0/1/2 extensive | grep Error BPDU Error: None, MAC-REWRITE Error: None, Loopback: None, Input errors: Errors: 2432742, Drops: 0, Framing errors: 0, Runts: 0, Policed discards: 0,
L3 incompletes: 2432742, L2 channel errors: 0, L2 mismatch timeouts: 0,
FIFO errors: 0, Resource errors: 0 Output errors: Carrier transitions: 1, Errors: 0, Drops: 0, Collisions: 0, Aged packets: 0,
FIFO errors: 0, HS link CRC errors: 0, MTU errors: 0, Resource errors: 0 Bit errors 0 Errored blocks 1 CRC/Align errors 0 0 FIFO errors 0 0 Total errors 0 0 Output packet error count 0 {master} show interfaces xe-0/1/2 extensive | grep Error BPDU Error: None, MAC-REWRITE Error: None, Loopback: None, Input errors: Errors: 2432851, Drops: 0, Framing errors: 0, Runts: 0, Policed discards: 0,
L3 incompletes: 2432851, L2 channel errors: 0, L2 mismatch timeouts: 0, FIFO errors: 0, Resource errors: 0 Output errors: Carrier transitions: 1, Errors: 0, Drops: 0, Collisions: 0, Aged packets: 0, FIFO errors: 0, HS link CRC errors: 0, MTU errors: 0, Resource errors: 0 Bit errors 0 Errored blocks 1 CRC/Align errors 0 0 FIFO errors 0 0 Total errors 0 0 Output packet error count 0
Los puertos en el PDSN fueron limpiados y como resultado hubo un switchover LAG y el desequilibrio de puerto desapareció en los puertos recientemente activos (incluso numerados) junto con los errores en el lado Juniper parando. Los errores CHAP y LCP observados anteriormente relacionados con la configuración de llamadas IP móviles también se detuvieron.
[local]PDSN# show port utilization table Thursday May 07 15:27:46 UTC 2015 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ---
19/1 10G Ethernet 0 0 0 0 0 0 20/1 10G Ethernet 908 875 901 879 904 884 23/1 10G Ethernet 0 0 0 0 0 0 26/1 10G Ethernet 916 857 922 856 929 861 27/1 10G Ethernet 0 0 0 0 0 0 28/1 10G Ethernet 835 883 838 880 844 889 37/1 1000 Ethernet 0 0 0 0 0 0 [local]PDSN# show port table
Thursday May 07 15:22:11 UTC 2015
Port Role Type Admin Oper Link State Pair Redundant
----- ---- ------------------------ -------- ---- ---- ------- ----- ----
19/1 Srvc 10G Ethernet Enabled - Up - None LA~ 19/1
20/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1
21/1 Srvc 1000 Ethernet Enabled - Up - 37/1 L2 Link
23/1 Srvc 10G Ethernet Enabled Up Up Active None LA~ 19/1
24/1 Mgmt 1000 Ethernet Dual Media Enabled Up Up Active 25/1 L2 Link
24/2 Mgmt 1000 Ethernet Dual Media Disabled Down Down Active 25/2 L2 Link
24/3 Mgmt RS232 Serial Console Enabled Down Down Active 25/3 L2 Link
24/4 Mgmt BITS T1/E1 Timing Disabled Down Down Active 25/4 L2 Link
25/1 Mgmt 1000 Ethernet Dual Media Enabled Down Up Standby 24/1 L2 Link
25/2 Mgmt 1000 Ethernet Dual Media Disabled Down Down Standby 24/2 L2 Link
25/3 Mgmt RS232 Serial Console Enabled Down Down Standby 24/3 L2 Link
25/4 Mgmt BITS T1/E1 Timing Disabled Down Down Standby 24/4 L2 Link
26/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1
27/1 Srvc 10G Ethernet Enabled Up Up Active None LA~ 19/1
28/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1
37/1 Srvc 1000 Ethernet Enabled - Up - 21/1 L2 Link
Después de reiniciar las estadísticas de puerto y de fallar el LAG de vuelta a los puertos impares, los errores de entrada en el Juniper comenzaron a aumentar de nuevo. Dado que la ruta ya se había limpiado, se decidió omitir completamente la ruta existente, reemplazando ambos SFP (puerto 0/1/2 en Juniper y puerto 27/1 en PDSN) y ejecutando una fibra directamente entre los nodos. Una vez que se devolvió el tráfico al LAG impar, los errores de entrada siguieron aumentando exactamente como se había visto con la trayectoria existente. La utilización del puerto también volvió a ser desequilibrada en el puerto 27.
show interfaces xe-0/1/2 extensive | grep Error
BPDU Error: None, MAC-REWRITE Error: None, Loopback: None,
Input errors:
Errors: 2898, Drops: 0, Framing errors: 114, Runts: 0, Policed discards: 0,
L3 incompletes: 2784, L2 channel errors: 0, L2 mismatch timeouts: 0,
FIFO errors: 0, Resource errors: 0
Dado que tanto los SFP como la fibra eran completamente nuevos y que la trayectoria era una toma directa entre los nodos, parecería que los errores de entrada están comenzando en el flujo ascendente de las fibras, posiblemente en el PDSN XCLC 27. El tráfico no se pudo devolver a los puertos pares para detener el impacto por el momento antes de decidir los siguientes pasos. Juniper confirmó los paquetes IPv4/IPv6 incorrectos del puerto ASR 27.
En una ventana de mantenimiento posterior, las fibras fueron intercambiadas entre los puertos 23 y 27:
Mon May 11 05:33:52 2015 Internal trap notification 1024 (PortDown) card 23 port
1 port type 10G Ethernet Mon May 11 05:33:52 2015 Internal trap notification 93 (CardStandby) card 23
type 10 Gig Ethernet Line Card Mon May 11 05:34:12 2015 Internal trap notification 1024 (PortDown) card 27 port
1 port type 10G Ethernet Mon May 11 05:34:12 2015 Internal trap notification 93 (CardStandby) card 27
type 10 Gig Ethernet Line Card Mon May 11 05:34:13 2015 Internal trap notification 1025 (PortUp) card 27 port 1
port type 10G Ethernetalarm" Mon May 11 05:34:13 2015 Internal trap notification 55 (CardActive) card 27 type
10 Gig Ethernet Line Card Mon May 11 05:34:14 2015 Internal trap notification 1024 (PortDown) card 27 port
1 port type 10G Ethernet Mon May 11 05:34:14 2015 Internal trap notification 93 (CardStandby) card 27
type 10 Gig Ethernet Line Card Mon May 11 05:34:20 2015 Internal trap notification 1025 (PortUp) card 27 port 1
port type 10G Ethernet Mon May 11 05:34:21 2015 Internal trap notification 55 (CardActive) card 27 type
10 Gig Ethernet Line Card Mon May 11 05:34:58 2015 Internal trap notification 1025 (PortUp) card 23 port 1
port type 10G Ethernet Mon May 11 05:34:58 2015 Internal trap notification 55 (CardActive) card 23 type
10 Gig Ethernet Line Card
Y después de un puerto de conmutación LAG 27 continuó enviando errores y desequilibrio de puerto.
Mon May 11 05:37:20 2015 Internal trap notification 1204 (LAGGroupDown) card:19,
port:1, partner:(007F,2C-21-72-5E-57-C0,0016) Mon May 11 05:37:20 2015 Internal trap notification 1205 (LAGGroupUp) card:19,
port:1, partner:(007F,2C-21-72-1A-B7-C0,0016) [local]NWBLWICZPN2 DO-PDSN> show port utilization table
Monday May 11 05:40:06 UTC 2015
------ Average Port Utilization (in mbps) ------
Port Type Current 5min 15min
Rx Txx Rx Tx Rx Tx
----- ------------------------ ------- ------- ------- ------- ------- ----
19/1 10G Ethernet 357 386 137 138 45 46
20/1 10G Ethernet 0 0 178 168 314 301
23/1 10G Ethernet 346 349 173 185 57 61
26/1 10G Ethernet 0 0 197 189 324 316
27/1 10G Ethernet 404 1921 147 701 49 233
28/1 10G Ethernet 0 0 207 226 299 318 Mon May 11 05:40:42 2015 Internal trap notification 39 (AAAAuthSvrUnreachable)
server 1 ip address 209.165.200.225 Mon May 11 05:41:05 2015 Internal trap notification 40 (AAAAuthSvrReachable)
server 1 ip address 209.165.200.225 Mon May 11 05:41:42 2015 Internal trap notification 39 (AAAAuthSvrUnreachable)
server 1 ip address 209.165.200.225 Mon May 11 05:42:05 2015 Internal trap notification 40 (AAAAuthSvrReachable)
server 1 ip address 209.165.200.225 Mon May 11 05:49:42 2015 Internal trap notification 39 (AAAAuthSvrUnreachable)
server 1 ip address 209.165.200.225 Mon May 11 05:50:04 2015 Internal trap notification 40 (AAAAuthSvrReachable)
server 1 ip address 209.165.200.225 Mon May 11 05:52:42 2015 Internal trap notification 39 (AAAAuthSvrUnreachable)
server 1 ip address 209.165.200.225 Mon May 11 05:53:05 2015 Internal trap notification 40 (AAAAuthSvrReachable)
server 1 ip address 209.165.200.225 Mon May 11 05:54:29 2015 Internal trap notification 1204 (LAGGroupDown) card:19,
port:1, partner:(007F,2C-21-72-1A-B7-C0,0016) Mon May 11 05:54:29 2015 Internal trap notification 1205 (LAGGroupUp) card:19,
port:1, partner:(007F,2C-21-72-5E-57-C0,0016)
Las fibras fueron intercambiadas de vuelta:
Mon May 11 05:59:38 2015 Internal trap notification 1024 (PortDown) card 23 port
1 port type 10G Ethernet Mon May 11 05:59:38 2015 Internal trap notification 93 (CardStandby) card 23
type 10 Gig Ethernet Line Card Mon May 11 05:59:43 2015 Internal trap notification 1024 (PortDown) card 27 port
1 port type 10G Ethernet Mon May 11 05:59:43 2015 Internal trap notification 93 (CardStandby) card 27
type 10 Gig Ethernet Line Card Mon May 11 05:59:46 2015 Internal trap notification 1025 (PortUp) card 23 port 1
port type 10G Ethernet Mon May 11 05:59:46 2015 Internal trap notification 55 (CardActive) card 23 type
10 Gig Ethernet Line Card Mon May 11 05:59:54 2015 Internal trap notification 1025 (PortUp) card 27 port 1
port type 10G Ethernet Mon May 11 05:59:54 2015 Internal trap notification 55 (CardActive) card 27 type
10 Gig Ethernet Line Card
XCLC 27 fue reeditado:
Mon May 11 06:02:02 2015 Internal trap notification 1024 (PortDown) card 27 port
1 port type 10G Ethernet Mon May 11 06:02:02 2015 Internal trap notification 60 (CardDown) card 27 type
10 Gig Ethernet Line Card Mon May 11 06:02:04 2015 Internal trap notification 7 (CardRemoved) card 27 type
10 Gig Ethernet Line Card Mon May 11 06:03:04 2015 Internal trap notification 8 (CardInserted) card 27
type 10 Gig Ethernet Line Card Mon May 11 06:03:06 2015 Internal trap notification 5 (CardUp) card 27 type 10
Gig Ethernet Line Card Mon May 11 06:03:08 2015 Internal trap notification 55 (CardActive) card 27 type 10 Gig Ethernet Line Card Mon May 11 06:03:09 2015 Internal trap notification 93 (CardStandby) card 27
type 10 Gig Ethernet Line Card Mon May 11 06:03:11 2015 Internal trap notification 1025 (PortUp) card 27 port 1
port type 10G Ethernet Mon May 11 06:03:11 2015 Internal trap notification 55 (CardActive) card 27 type
10 Gig Ethernet Line Card
El Grupo de Expertos quedó activo de nuevo y el problema se siguió observando.
Mon May 11 06:08:21 2015 Internal trap notification 1204 (LAGGroupDown) card:19,
port:1, partner:(007F,2C-21-72-5E-57-C0,0016) Mon May 11 06:08:21 2015 Internal trap notification 1205 (LAGGroupUp) card:19,
port:1, partner:(007F,2C-21-72-1A-B7-C0,0016) Mon May 11 06:12:42 2015 Internal trap notification 39 (AAAAuthSvrUnreachable)
server 1 ip address 209.165.200.225 Mon May 11 06:13:04 2015 Internal trap notification 40 (AAAAuthSvrReachable)
server 1 ip address 209.165.200.225 Mon May 11 06:14:42 2015 Internal trap notification 39 (AAAAuthSvrUnreachable)
server 1 ip address 209.165.200.225 Mon May 11 06:15:05 2015 Internal trap notification 40 (AAAAuthSvrReachable)
server 1 ip address 209.165.200.225 Mon May 11 06:15:42 2015 Internal trap notification 39 (AAAAuthSvrUnreachable)
server 1 ip address 209.165.200.225 Mon May 11 06:16:07 2015 Internal trap notification 40 (AAAAuthSvrReachable)
server 1 ip address 209.165.200.225
Una migración PSC de PSC 11 (reside detrás de la tarjeta de línea 27) a 16 borra el problema a medida que el LAG cambia a puertos pares (se espera).
Mon May 11 06:26:03 2015 Internal trap notification 1256 (MigrateStart) from
card 11 to card 16 Mon May 11 06:26:40 2015 Internal trap notification 1024 (PortDown) card 27 port
1 port type 10G Ethernet Mon May 11 06:26:40 2015 Internal trap notification 55 (CardActive) card 27 type
10 Gig Ethernet Line Card Mon May 11 06:26:41 2015 Internal trap notification 55 (CardActive) card 16 type
Packet Services Card 3 Mon May 11 06:26:41 2015 Internal trap notification 55 (CardActive) card 40 type
Redundancy Crossbar Card Mon May 11 06:26:41 2015 Internal trap notification 55 (CardActive) card 41 type
Redundancy Crossbar Card Mon May 11 06:26:41 2015 Internal trap notification 60 (CardDown) card 11 type
Packet Services Card 3 Mon May 11 06:26:42 2015 Internal trap notification 1257 (MigrateComplete) from
card 11 to card 16 Mon May 11 06:26:42 2015 Internal trap notification 1025 (PortUp) card 27 port 1
port type 10G Ethernet Mon May 11 06:27:55 2015 Internal trap notification 5 (CardUp) card 11 type
Packet Services Card 3 Mon May 11 06:27:55 2015 Internal trap notification 93 (CardStandby) card 11
type Packet Services Card 3
El PSC 11 se restableció y luego se reinició (esto último debería ser innecesario)
Mon May 11 06:39:48 2015 Internal trap notification 60 (CardDown) card 11 type
Packet Services Card 3 Mon May 11 06:40:00 2015 Internal trap notification 7 (CardRemoved) card 11 type
Packet Services Card 3 Mon May 11 06:40:42 2015 Internal trap notification 13 (CardMismatch) card 11
type Unknown Card (0x00000000) Mon May 11 06:40:45 2015 Internal trap notification 8 (CardInserted) card 11
type Packet Services Card 3 Mon May 11 06:44:57 2015 Internal trap notification 4 (CardRebootRequest) card
11 type Packet Services Card 3 Mon May 11 06:46:44 2015 Internal trap notification 7 (CardRemoved) card 11 type
Packet Services Card 3 Mon May 11 06:46:59 2015 Internal trap notification 8 (CardInserted) card 11
type Packet Services Card 3 Mon May 11 06:50:20 2015 Internal trap notification 5 (CardUp) card 11 type
Packet Services Card 3 Mon May 11 06:50:20 2015 Internal trap notification 93 (CardStandby) card 11
type Packet Services Card 3
La migración se realizó de vuelta a PSC 11 y el problema volvió a empezar. Aparentemente, el problema se había aislado en el PSC 11 conectado al XGLC 27.
Mon May 11 06:51:55 2015 Internal trap notification 1256 (MigrateStart) from
card 16 to card 11 Mon May 11 06:52:37 2015 Internal trap notification 1024 (PortDown) card 27 port
1 port type 10G Ethernet Mon May 11 06:52:37 2015 Internal trap notification 93 (CardStandby) card 40
type Redundancy Crossbar Card Mon May 11 06:52:37 2015 Internal trap notification 93 (CardStandby) card 41
type Redundancy Crossbar Card Mon May 11 06:52:37 2015 Internal trap notification 55 (CardActive) card 27 type
10 Gig Ethernet Line Card Mon May 11 06:52:38 2015 Internal trap notification 55 (CardActive) card 11 type
Packet Services Card 3 Mon May 11 06:52:38 2015 Internal trap notification 60 (CardDown) card 16 type
Packet Services Card 3 Mon May 11 06:52:38 2015 Internal trap notification 1257 (MigrateComplete) from
card 16 to card 11 Mon May 11 06:52:38 2015 Internal trap notification 1025 (PortUp) card 27 port 1
port type 10G Ethernet Mon May 11 06:53:42 2015 Internal trap notification 39 (AAAAuthSvrUnreachable)
server 1 ip address 209.165.200.225 Mon May 11 06:53:52 2015 Internal trap notification 5 (CardUp) card 16 type
Packet Services Card 3 Mon May 11 06:53:52 2015 Internal trap notification 93 (CardStandby) card 16 type Packet Services Card 3 Mon May 11 06:54:07 2015 Internal trap notification 40 (AAAAuthSvrReachable)
server 1 ip address 209.165.200.225
Se realizó una migración de vuelta a PSC 16 para resolver el problema por el momento hasta que se produzca un reemplazo de RMA:
Mon May 11 06:56:07 2015 Internal trap notification 1256 (MigrateStart) from
card 11 to card 16 Mon May 11 06:56:43 2015 Internal trap notification 1024 (PortDown) card 27 port
1 port type 10G Ethernet Mon May 11 06:56:43 2015 Internal trap notification 55 (CardActive) card 27 type
10 Gig Ethernet Line Card Mon May 11 06:56:44 2015 Internal trap notification 55 (CardActive) card 16 type
Packet Services Card 3 Mon May 11 06:56:44 2015 Internal trap notification 55 (CardActive) card 40 type
Redundancy Crossbar Card Mon May 11 06:56:44 2015 Internal trap notification 55 (CardActive) card 41 type
Redundancy Crossbar Card Mon May 11 06:56:44 2015 Internal trap notification 60 (CardDown) card 11 type
Packet Services Card 3 Mon May 11 06:56:44 2015 Internal trap notification 1257 (MigrateComplete) from
card 11 to card 16 Mon May 11 06:56:44 2015 Internal trap notification 1025 (PortUp) card 27 port 1
port type 10G Ethernet Mon May 11 06:57:58 2015 Internal trap notification 5 (CardUp) card 11 type
Packet Services Card 3 [local]PDSN> show rct stats Monday May 11 07:08:26 UTC 2015 RCT stats Details (Last 4 Actions) Action Type From To Start Time Duration ----------------- --------- ---- ---- ------------------------ ----------
Migration Planned 11 16 2015-May-11+06:26:04.373 36.453 sec Shutdown N/A 11 0 2015-May-11+06:39:48.153 0.223 sec Migration Planned 16 11 2015-May-11+06:51:55.785 41.630 sec Migration Planned 11 16 2015-May-11+06:56:08.452 35.037 sec RCT stats Summary ----------------- Migrations = 3, Average time = 37.707 sec Switchovers = 0 [local]PDSN> show card mappings Monday May 11 07:10:22 UTC 2015 Slot Mapping Slot ----------------------------------- -------------- -------------------------- 17 None - 18 None - 19 10 Gig Ethernet Line Card <-- direct --> 3 Packet Services Card 3 20 10 Gig Ethernet Line Card <-- direct --> 4 Packet Services Card 3 21 1000 Ethernet Line Card <-- direct --> 5 Packet Services Card 3 22 None - 23 10 Gig Ethernet Line Card <-- direct --> 7 Packet Services Card 3 24 Switch Processor I/O Card <------------> 8 System Management Card 25 Switch Processor I/O Card <------------> 8 System Management Card 26 10 Gig Ethernet Line Card <-- direct --> 10 Packet Services Card 3 27 10 Gig Ethernet Line Card <--- RCCs ---> 16 Packet Services Card 3 28 10 Gig Ethernet Line Card <-- direct --> 12 Packet Services Card 3
Pero la RMA todavía no resolvió el problema.
[local]PDSN# show port utilization table verbose Tuesday May 12 06:04:57 UTC 2015 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 333.497 331.132 345.255 347.328 354.989 358.539 20/1 10G Ethernet 0.003 0.000 0.003 0.000 0.003 0.000 23/1 10G Ethernet 361.103 334.488 353.180 354.668 363.226 363.388 26/1 10G Ethernet 0.002 0.000 0.002 0.000 0.002 0.000 27/1 10G Ethernet 309.096 1897 335.379 1892 339.740 890 28/1 10G Ethernet 0.003 0.000 0.003 0.000 0.003 0.000 37/1 1000 Ethernet 0.014 0.005 0.014 0.018 0.014 0.016
Se requería una recarga del chasis para resolver finalmente el problema. Nunca se determinó la causa raíz. Pero el punto aquí son los pasos de solución de problemas tomados para intentar resolver el problema finalmente funcionó con una recarga. A veces, los resultados no son lo que se esperaba en un principio en base a los pasos de solución de problemas que se tomaron. Se pensó que la RMA iba a resolver el problema por fin, pero no lo hizo. No obstante, se adoptaron las medidas adecuadas para eliminar a los posibles culpables.
Un switchover LAG impar a puertos pares (19, 23, 27 => 20, 26, 28) no se retendría y volvería a conmutar en un minuto. Esto podría implicar un problema con que uno o más de los puertos LAG no puedan mantener la conexión. Observe la disminución en la utilización de puertos, pero el conjunto de datos está limitado debido al poco tiempo que los puertos pares permanecerían activos:
[XGWout]XGW# show port util table Thursday April 26 07:17:31 UTC 2012 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 895 907 906 931 939 983 20/1 10G Ethernet 0 0 20 14 6 4 21/1 1000 Ethernet 0 0 0 3 0 3 22/1 1000 Ethernet 3 46 3 46 3 47 23/1 10G Ethernet 948 946 883 917 918 956 26/1 10G Ethernet 0 0 16 11 5 3 27/1 10G Ethernet 949 950 989 934 1029 955 28/1 10G Ethernet 0 0 4 14 1 4 [XGWout]XGW# link-aggregation port switch to 20/1 Thursday April 26 07:20:20 UTC 2012 Are you sure? [Yes|No]: yes Thursday April 26 07:20:22 UTC 2012 2012-Apr-26+07:20:22.826 [lagmgr 179050 warning] [1/0/2337 <lagmgr:0>
lagmgr_state.c:1163] [software internal system critical-info syslog] LAG group
50 (global) with master port 19/1 has changed partner from (007F,00-26-88-8E-
4F-F0,0034) to (007F,00-26-88-A7-FF-F0,0034)
Apr 26 07:21:28 kslxmsce2.msc.vzwnet.com evlogd: [local-60sec28.393]
[lagmgr 179050 warning] [1/0/2337 <lagmgr:0> lagmgr_state.c:1163]
[software internal system critical-info syslog] LAG group 50 (global)
with master port 19/1 has changed partner from
(007F,00-26-88-A7-FF-F0,0034) to (007F,00-26-88-8E-4F-F0,0034) [XGWout]XGW# show port util table Thursday April 26 07:20:46 UTC 2012 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 0 0 896 917 927 965 20/1 10G Ethernet 678 526 45 33 15 11 21/1 1000 Ethernet 0 0 0 3 0 3 22/1 1000 Ethernet 3 45 3 46 3 46 23/1 10G Ethernet 0 0 881 898 903 943 26/1 10G Ethernet 627 442 16 11 5 3 27/1 10G Ethernet 0 0 874 850 980 914 28/1 10G Ethernet 138 436 15 47 5 15 [XGWout]XGW# show port util table Thursday April 26 07:24:58 UTC 2012 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 847 911 742 719 860 874 20/1 10G Ethernet 0 0 137 104 52 39 21/1 1000 Ethernet 0 0 0 4 0 4 22/1 1000 Ethernet 3 48 3 47 3 47 23/1 10G Ethernet 840 804 710 718 837 862 26/1 10G Ethernet 0 0 133 95 50 35 27/1 10G Ethernet 833 814 671 697 883 856 28/1 10G Ethernet 0 0 33 92 12 35
Para resolver problemas adicionales, se desactivó uno de los puertos LAG (27/1), lo que obligó a que el switch LAG permaneciera en su lugar y no se volviera a conmutar (el sistema no conmutará a menos que los puertos se conmuten para tener una mayor capacidad que los puertos activos actualmente). Como se puede ver a continuación, la utilización de los puertos disminuye significativamente en los puertos EVEN. Cuando se vuelve a habilitar el puerto 27/1, el LAG vuelve a los puertos impares sin intervención debido a que los puertos INCLUSO tienen más capacidad.
[local]XGW# show port util table Thursday April 26 08:53:47 UTC 2012 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 670 639 654 609 590 556 20/1 10G Ethernet 0 0 0 0 0 0 21/1 1000 Ethernet 0 20 0 3 0 2 22/1 1000 Ethernet 3 41 3 40 7 83 23/1 10G Ethernet 598 676 574 662 535 585 26/1 10G Ethernet 0 0 0 0 0 0 27/1 10G Ethernet 662 612 658 608 611 585 28/1 10G Ethernet 0 0 0 0 0 0 [local]XGW(config)# port ether 27/1 Thursday April 26 08:53:58 UTC 2012 [local]XGW(config-port-27/1)# shut Thursday April 26 08:54:02 UTC 2012 Thu Apr 26 08:54:02 2012 Internal trap notification 35 (PortLinkDown) card 27
port 1 ifindex 453050368 Thu Apr 26 08:54:02 2012 Internal trap notification 1024 (PortDown) card 27 port 1 ifindex 453050368port type 10G Ethernet Thu Apr 26 08:54:02 2012 Internal trap notification 93 (CardStandby) card 27 [local]XGW# show port util table Thursday April 26 08:54:26 UTC 2012 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 0 0 634 596 625 591 20/1 10G Ethernet 371 278 27 19 9 6 21/1 1000 Ethernet 0 0 0 3 0 2 22/1 1000 Ethernet 3 39 3 40 3 86 23/1 10G Ethernet 0 0 573 654 572 627 26/1 10G Ethernet 346 268 0 0 0 0 28/1 10G Ethernet 107 233 0 0 0 0 [local]XGW# show port util table Thursday April 26 08:57:11 UTC 2012 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 0 0 375 349 552 520 20/1 10G Ethernet 445 342 203 156 67 52 21/1 1000 Ethernet 0 0 0 3 0 2 22/1 1000 Ethernet 4 50 3 42 3 40 23/1 10G Ethernet 0 0 223 260 465 515 26/1 10G Ethernet 390 323 215 169 71 56 28/1 10G Ethernet 214 302 84 148 28 49
[local]XGW# show port util table
Thursday April 26 09:00:18 UTC 2012
------ Average Port Utilization (in mbps) ------
Port Type Current 5min 15min
Rx Tx Rx Tx Rx Tx
----- ------------------------ ------- ------- ------- ------- ------- -------
19/1 10G Ethernet 0 0 0 0 428 401
20/1 10G Ethernet 414 339 410 320 145 113
21/1 1000 Ethernet 0 0 0 2 0 3
22/1 1000 Ethernet 4 56 3 48 3 42
23/1 10G Ethernet 0 0 0 0 345 391
26/1 10G Ethernet 373 307 391 312 147 117
28/1 10G Ethernet 244 287 203 292 71 106
[local]XGW# show port util table
Thursday April 26 09:08:33 UTC 2012
------ Average Port Utilization (in mbps) ------
Port Type Current 5min 15min
Rx Tx Rx Tx Rx Tx
----- ------------------------ ------- ------- ------- ------- ------- -------
19/1 10G Ethernet 0 0 0 0 37 36
20/1 10G Ethernet 346 302 394 315 358 284
21/1 1000 Ethernet 0 11 0 4 0 3
22/1 1000 Ethernet 4 86 4 80 4 59
23/1 10G Ethernet 0 0 0 0 36 41
26/1 10G Ethernet 331 278 354 307 339 281
28/1 10G Ethernet 252 253 245 273 203 255
[local]XGW# config
Thursday April 26 09:08:43 UTC 2012
[local]XGW(config)# port ether 27/1
Thursday April 26 09:08:49 UTC 2012
[local]XGW(config-port-27/1)# no shut
Thursday April 26 09:08:53 UTC 2012
Thu Apr 26 09:08:53 2012 Internal trap notification 55 (CardActive) card 27
Thu Apr 26 09:08:53 2012 Internal trap notification 36 (PortLinkUp) card 27 port
1 ifindex 453050369
Thu Apr 26 09:08:53 2012 Internal trap notification 1025 (PortUp) card 27 port 1
ifindex 453050369port type 10G Ethernet
[local]XGW# show port util table
Thursday April 26 09:10:11 UTC 2012
------ Average Port Utilization (in mbps) ------
Port Type Current 5min 15min
Rx Tx Rx Tx Rx Tx
----- ------------------------ ------- ------- ------- ------- ------- -------
19/1 10G Ethernet 698 656 0 0 0 0
20/1 10G Ethernet 0 0 370 300 395 315
21/1 1000 Ethernet 0 0 0 3 0 3
22/1 1000 Ethernet 3 85 4 88 4 66
23/1 10G Ethernet 618 702 0 0 0 0
26/1 10G Ethernet 0 0 310 270 357 298
27/1 10G Ethernet 681 624 44 36 14 12
28/1 10G Ethernet 0 0 235 251 227 27
No es obvio sobre qué puerto existe el problema, y la utilización de Tx no es tan desigual.
"show port npu counters" muestra claramente un problema con el contador de errores "Bad IPv4 header" que aumenta a una velocidad alta (y no debería estar ocurriendo en absoluto), pero debido a que esta es una implementación LAG, basada en la implementación actual, todos los contadores son acumulativos para todos los puertos LAG en un grupo LAG, por lo que no se puede determinar qué puerto está teniendo el problema - podría ser cualquiera de ellos. (las estadísticas para todos los puertos combinados se encuentran bajo el puerto maestro, en este caso 19/1 - las estadísticas en todos los puertos LAG individuales del grupo LAG NO tienen significado y deben ignorarse).
Sin embargo, el comando de soporte técnico "show npu stats debug all_pacs" captura las estadísticas de NPU sobre una base PSC, y lo siguiente muestra que el problema está claramente "asociado con" PSC 12 y su XGLC 28 conectado (predeterminado):
******** show npu stats debug all_pacs ******* Thursday April 26 09:01:41 UTC 2012 Line 524176: debug-pkt-drop-invalid-iphdr 3601919 Line 524245: debug-pkt-drop-invalid-iphdr 265 Line 524303: debug-pkt-drop-invalid-iphdr 141 Line 524407: debug-pkt-drop-invalid-iphdr 3468928 Line 524471: debug-pkt-drop-invalid-iphdr 216 Line 524529: debug-pkt-drop-invalid-iphdr 3701708 Line 524595: debug-pkt-drop-invalid-iphdr 6501414 <= NPU debug
stats for slot 12 ******** show port npu counters ******* Thursday April 26 09:01:40 UTC 2012 Counters for port 19/1 Counter Rx Frames Rx Bytes Tx Frames Tx Bytes -------------------- ------------- --------------- ------------- --------------- Bad IPv4 header 6493067 2820637429 n/a n/a ******** show npu stats debug all_pacs ******* Thursday April 26 09:03:36 UTC 2012 Line 985303: debug-pkt-drop-invalid-iphdr 3601919 Line 985372: debug-pkt-drop-invalid-iphdr 292 Line 985430: debug-pkt-drop-invalid-iphdr 141 Line 985534: debug-pkt-drop-invalid-iphdr 3468928 Line 985598: debug-pkt-drop-invalid-iphdr 226 Line 985656: debug-pkt-drop-invalid-iphdr 3701708 Line 985722: debug-pkt-drop-invalid-iphdr 7190387 <= NPU debug
stats for slot 12 (INCREASING) ******** show port npu counters ******* Thursday April 26 09:03:35 UTC 2012 Counters for port 19/1 Counter Rx Frames Rx Bytes Tx Frames Tx Bytes -------------------- ------------- --------------- ------------- --------------- Bad IPv4 header 7182088 3089244876 n/a n/a
La pregunta sigue siendo ¿qué tarjeta está causando realmente este problema, el PSC 12 conectado al XGLC 28 o al XGLC 28?
Normalmente, los problemas de NPU se resolverían con una migración PSC del PSC 12 conectado al XGLC 28, lo que implica un problema con el PSC. Cuando se intentó esto en una ventana de mantenimiento posterior, no se pudo resolver el problema, al igual que se restableció una tarjeta de línea y se restableció el npumgr.
A continuación se muestra el resultado de la resolución de problemas del reinicio de npumgr, el restablecimiento de XGLC 28 y la migración de PSC 12 a 16, lo que hace que el PSC 16 se conecte al XGLC 28 y, por lo tanto, elimine el problema de PSC 12. Las verificaciones de debug-pkt-drop-invalid-iphdr en aumento se realizaron entre cada uno de los pasos para confirmar que el problema no se resolvió. El cierre de uno de los puertos LAG (27/1) se realizó para obligar a un switch LAG a permanecer conmutado para fines de recolección de datos, y un no shut permitía que el LAG volviera a conmutar cuando se realizaban las pruebas.
[local]XGW# show port util table Saturday April 28 05:03:49 UTC 2012 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 2311 2395 2384 2415 2384 2402 20/1 10G Ethernet 0 0 0 0 0 0 21/1 1000 Ethernet 0 9 0 9 0 9 22/1 1000 Ethernet 4 70 4 77 4 73 23/1 10G Ethernet 2230 2224 2222 2293 2202 2268 26/1 10G Ethernet 0 0 0 0 0 0 27/1 10G Ethernet 2496 2433 2505 2427 2440 2381 28/1 10G Ethernet 0 0 0 0 0 0 [local]XGW(config)# port ether 27/1 Saturday April 28 05:04:44 UTC 2012 [local]XGW(config-port-27/1)# shutdown Saturday April 28 05:04:50 UTC 2012 Sat Apr 28 05:04:50 2012 Internal trap notification 35 (PortLinkDown) card 27
port 1 ifindex 453050368 Sat Apr 28 05:04:50 2012 Internal trap notification 1024 (PortDown) card 27 port
1 ifindex 453050368port type 10G Ethernet Sat Apr 28 05:04:50 2012 Internal trap notification 93 (CardStandby) card 27 [local]XGW# show port table all Saturday April 28 05:04:59 UTC 2012 Port Type Admin Oper Link State Redundant ----- ------------------------ -------- ---- ---- ---------------- ----------- 19/1 10G Ethernet Enabled - Up - None ~19/1 Untagged Enabled Up - Active - 20/1 10G Ethernet Enabled Up Up Active None +19/1 [local]XGW# show port util table Saturday April 28 05:05:42 UTC 2012 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 0 0 2150 2182 2311 2333 20/1 10G Ethernet 1488 1064 0 0 0 0 21/1 1000 Ethernet 0 0 0 9 0 10 22/1 1000 Ethernet 4 70 4 72 4 73 23/1 10G Ethernet 0 0 2163 2225 2182 2251 26/1 10G Ethernet 1353 989 94 68 31 22 28/1 10G Ethernet 372 1042 14 41 4 13 [local]XGW# show npu stats debug all-pacs Saturday April 28 05:07:28 UTC 2012 NPU debug stats for slot 12 debug-pkt-drop-invalid-iphdr 10786357 [local]XGW# show npu stats debug all-pacs Saturday April 28 05:07:47 UTC 2012 NPU debug stats for slot 12 debug-pkt-drop-invalid-iphdr 10966718 [local]XGW# task kill facility npumgr instance 12 Saturday April 28 05:33:18 UTC 2012 Sat Apr 28 05:33:18 2012 Internal trap notification 73 (ManagerFailure) facility
npumgr instance 12 card 12 cpu 1 Sat Apr 28 05:33:18 2012 Internal trap notification 150 (TaskFailed) facility
npumgr instance 12 on card 12 cpu 1 Sat Apr 28 05:33:26 2012 Internal trap notification 35 (PortLinkDown) card 28
port 1 ifindex 469827585 Sat Apr 28 05:33:26 2012 Internal trap notification 1024 (PortDown) card 28 port
1 ifindex 469827585port type 10G Ethernet Sat Apr 28 05:33:26 2012 Internal trap notification 36 (PortLinkUp) card 28 port
1 ifindex 469827585 Sat Apr 28 05:33:26 2012 Internal trap notification 1025 (PortUp) card 28 port 1
ifindex 469827585port type 10G Ethernet [local]XGW# show port util table Saturday April 28 05:34:24 UTC 2012 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 0 0 0 0 0 0 20/1 10G Ethernet 894 723 837 661 935 728 21/1 1000 Ethernet 0 36 0 7 0 7 22/1 1000 Ethernet 4 127 4 78 4 79 23/1 10G Ethernet 0 0 0 0 0 0 26/1 10G Ethernet 906 647 780 571 865 644 28/1 10G Ethernet 356 649 0 0 0 0 [local]XGW# show npu stats debug slot 12 Saturday April 28 05:35:16 UTC 2012 NPU debug stats for slot 12 debug-pkt-drop-invalid-iphdr 540273 [local]XGW# show npu stats debug slot 12 Saturday April 28 05:35:38 UTC 2012 NPU debug stats for slot 12 debug-pkt-drop-invalid-iphdr 692665 Sat Apr 28 05:38:49 2012 Internal trap notification 35 (PortLinkDown) card 28
port 1 ifindex 469827584 Sat Apr 28 05:38:49 2012 Internal trap notification 1024 (PortDown) card 28 port
1 ifindex 469827584port type 10G Ethernet Sat Apr 28 05:38:49 2012 Internal trap notification 35 (PortLinkDown) card 28
port 1 ifindex 469827585 Sat Apr 28 05:38:49 2012 Internal trap notification 60 (CardDown) card 28 Sat Apr 28 05:38:51 2012 Internal trap notification 5 (CardUp) card 28 Sat Apr 28 05:38:51 2012 Internal trap notification 4 (CardRebootRequest) card 28 Sat Apr 28 05:38:51 2012 Internal trap notification 84 (ServiceLossLC) Slots 28
and 44 has configured for card type 10 Gig Ethernet Line Card, but neither active Sat Apr 28 05:38:53 2012 Internal trap notification 55 (CardActive) card 28 Sat Apr 28 05:38:53 2012 Internal trap notification 1111 (ServiceLossLCClear)
Slots 28 and 44 has configured for card type 10 Gig Et hernet Line Card, one of them is active now Sat Apr 28 05:38:53 2012 Internal trap notification 93 (CardStandby) card 28 Sat Apr 28 05:38:55 2012 Internal trap notification 36 (PortLinkUp) card 28 port
1 ifindex 469827584 Sat Apr 28 05:38:55 2012 Internal trap notification 1025 (PortUp) card 28 port 1
ifindex 469827584port type 10G Ethernet Sat Apr 28 05:38:55 2012 Internal trap notification 55 (CardActive) card 28 Sat Apr 28 05:38:55 2012 Internal trap notification 36 (PortLinkUp) card 28 port
1 ifindex 469827585 Sat Apr 28 05:38:55 2012 Internal trap notification 1025 (PortUp) card 28 port 1
ifindex 469827585port type 10G Ethernet [local]XGW# show port util table Saturday April 28 05:39:47 UTC 2012 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 0 0 0 0 0 0 20/1 10G Ethernet 236 174 688 544 816 637 21/1 1000 Ethernet 0 17 0 7 0 7 22/1 1000 Ethernet 3 29 3 69 4 75 23/1 10G Ethernet 0 0 0 0 0 0 26/1 10G Ethernet 201 156 779 568 810 597 28/1 10G Ethernet 114 181 0 0 0 0 [local]XGW# show npu stats debug slot 12 Saturday April 28 05:40:04 UTC 2012 NPU debug stats for slot 12 debug-pkt-drop-invalid-iphdr 2219078 [local]XGW# show npu stats debug slot 12 Saturday April 28 05:40:15 UTC 2012 NPU debug stats for slot 12 debug-pkt-drop-invalid-iphdr 2289375 [local]XGW# show port util table Saturday April 28 05:41:08 UTC 2012 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 0 0 0 0 0 0 20/1 10G Ethernet 769 545 682 528 804 625 21/1 1000 Ethernet 0 0 0 6 0 6 22/1 1000 Ethernet 3 70 3 63 4 73 23/1 10G Ethernet 0 0 0 0 0 0 26/1 10G Ethernet 723 560 634 480 760 561 28/1 10G Ethernet 317 585 81 141 27 47 [local]XGW# show npu stat debug slot 12 clear Saturday April 28 05:41:59 UTC 2012 NPU debug stats for slot 12 debug-pkt-drop-invalid-iphdr 2980554 [local]XGW# show npu stat debug slot 12 clear Saturday April 28 05:42:10 UTC 2012 debug-pkt-drop-invalid-iphdr 60103 Sat Apr 28 05:42:43 2012 Internal trap notification 16 (PACMigrateStart) from
card 12 to card 16 Sat Apr 28 05:43:55 2012 Internal trap notification 17 (PACMigrateComplete) from
card 12 to card 16 Sat Apr 28 05:44:45 2012 Internal trap notification 5 (CardUp) card 12 Sat Apr 28 05:44:45 2012 Internal trap notification 93 (CardStandby) card 12 [local]XGW# show npu stat debug slot 16 clear Saturday April 28 05:44:35 UTC 2012 NPU debug stats for slot 16 debug-pkt-drop-invalid-iphdr 14650 [local]XGW# show npu stat debug slot 16 clear Saturday April 28 05:45:48 UTC 2012 NPU debug stats for slot 16 debug-pkt-drop-invalid-iphdr 70940 Sat Apr 28 05:45:20 2012 Internal trap notification 126 (SRPSwitchoverInitiated) vpn SRP ipaddr 10.209.74.164 Sat Apr 28 05:45:21 2012 Internal trap notification 121 (SRPStandby) vpn SRP
ipaddr 10.209.74.164 rtmod 2 [local]XGW(config)# port ether 27/1 Saturday April 28 05:52:27 UTC 2012 [local]XGW(config-port-27/1)# no shut Saturday April 28 05:52:35 UTC 2012 Sat Apr 28 05:52:35 2012 Internal trap notification 36 (PortLinkUp) card 27 port
1 ifindex 453050368 Sat Apr 28 05:52:35 2012 Internal trap notification 1025 (PortUp) card 27 port 1
ifindex 453050368port type 10G Ethernet Sat Apr 28 05:52:35 2012 Internal trap notification 55 (CardActive) card 27 Sat Apr 28 05:52:35 2012 Internal trap notification 36 (PortLinkUp) card 27 port
1 ifindex 453050369 Sat Apr 28 05:52:35 2012 Internal trap notification 1025 (PortUp) card 27 port 1
ifindex 453050369port type 10G Ethernet [local]XGW# link-aggregation port switch to 19/1 Saturday April 28 05:56:39 UTC 2012 Are you sure? [Yes|No]: yes Saturday April 28 05:56:42 UTC 2012
Sat Apr 28 07:09:46 2012 Internal trap notification 120 (SRPActive) vpn SRP
ipaddr 10.209.74.164 rtmod 2
[local]XGW# show card table
Saturday April 28 06:06:09 UTC 2012
Slot Card Type Oper State SPOF Attach
----------- -------------------------------- ------------- ---- ------
1: PSC Packet Services Card 2 Active No - -
2: PSC Packet Services Card 2 Active No - -
3: PSC Packet Services Card 2 Active No 19 -
4: PSC Packet Services Card 2 Active No 20 -
5: PSC Packet Services Card 2 Active No 21 37
6: PSC Packet Services Card 2 Active No 22 38
7: PSC Packet Services Card 2 Active No 23 -
8: SMC System Management Card Active No 24 25
9: SMC System Management Card Standby - - -
10: PSC Packet Services Card 2 Active No 26 -
11: PSC Packet Services Card 2 Active No 27 -
12: PSC Packet Services Card 2 Standby - - -
13: PSC Packet Services Card 2 Active No - -
14: PSC Packet Services Card 2 Active No - -
15: PSC Packet Services Card 2 Active No - -
16: PSC Packet Services Card 2 Active No 28 -
La conclusión poco probable terminó siendo una tarjeta de línea defectuosa que, cuando fue reemplazada, resolvió el problema.
Nota: cuando se sustituyó el XGLC 28, el sistema volvió a conectar el XGLC de reemplazo a Demux PSC 1 en lugar del PSC 16 previamente conectado. La tarea Card-Slot-Port (CSP) tiene el derecho de adjuntar un XGLC a cualquier PSC libre al que desee, en este caso PSC 1 en lugar de PSC 16. Como resultado, el ensayo del XGLC 28 fue contra el PSC 1 y no PSC 16 o PSC 12, pero en este punto basado en todas las pruebas realizadas hasta ahora (es decir, el problema ocurre si está conectado con el PSC 12 o el PSC 16), se concluyó que los fallos se debieron a XGLC 28 y no a ningún PSC.
Sun Apr 29 05:17:25 2012 Internal trap notification 60 (CardDown) card 28 Sun Apr 29 05:17:25 2012 Internal trap notification 7 (CardRemoved) card 28 Sun Apr 29 05:19:56 2012 Internal trap notification 8 (CardInserted) card 28 Sun Apr 29 05:19:58 2012 Internal trap notification 5 (CardUp) card 28 Sun Apr 29 05:20:00 2012 Internal trap notification 55 (CardActive) card 28 [local]XGW# show port util table Sunday April 29 05:23:53 UTC 2012 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 1817 1770 1852 1868 1899 1929 20/1 10G Ethernet 0 0 0 0 0 0 21/1 1000 Ethernet 0 0 0 7 0 7 22/1 1000 Ethernet 3 55 3 58 3 59 23/1 10G Ethernet 1685 1867 1718 1858 1782 1868 26/1 10G Ethernet 0 0 0 0 0 0 27/1 10G Ethernet 1982 1866 1982 1846 2022 1927 28/1 10G Ethernet 0 0 0 0 0 0 [local]XGW# link-aggregation port switch to 20/1 Sunday April 29 05:33:18 UTC 2012 Are you sure? [Yes|No]: yes Sunday April 29 05:33:21 UTC 2012 2012-Apr-29+05:33:21.124 [lagmgr 179050 warning] [1/0/2337 <lagmgr:0>
lagmgr_state.c:1163] [software internal system critical-info syslog] LAG group
50 (global) with master port 19/1 has changed partner from (007F,00-26-88-8E-
4F-F0,0034) to (007F,00-26-88-A7-FF-F0,0034) [local]LENYKSCJPNR XGW# show port util table Sunday April 29 05:34:05 UTC 2012 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 0 0 1724 1688 1795 1783 20/1 10G Ethernet 1785 1737 112 108 37 36 21/1 1000 Ethernet 0 29 0 8 0 7 22/1 1000 Ethernet 3 55 3 56 3 57 23/1 10G Ethernet 0 0 1430 1522 1609 1720 26/1 10G Ethernet 1632 1790 89 95 29 31 27/1 10G Ethernet 0 0 1719 1669 1865 1780 28/1 10G Ethernet 1840 1738 0 0 0 0 [local]XGW# show npu stats debug slot 1 Sunday April 29 05:34:18 UTC 2012 NPU debug stats for slot 1 debug-pkt-drop-invalid-iphdr 9 [local]XGW# show card table Sunday April 29 05:34:27 UTC 2012 Slot Card Type Oper State SPOF Attach ----------- -------------------------------- ------------- ---- ------ 1: PSC Packet Services Card 2 Active No 28 - 2: PSC Packet Services Card 2 Active No - - 3: PSC Packet Services Card 2 Active No 19 - 4: PSC Packet Services Card 2 Active No 20 - 5: PSC Packet Services Card 2 Active No 21 37 6: PSC Packet Services Card 2 Active No 22 38 7: PSC Packet Services Card 2 Active No 23 - 8: SMC System Management Card Active No 24 25 9: SMC System Management Card Standby - - - 10: PSC Packet Services Card 2 Active No 26 - 11: PSC Packet Services Card 2 Active No 27 - 12: PSC Packet Services Card 2 Standby - - - 13: PSC Packet Services Card 2 Active No - - 14: PSC Packet Services Card 2 Active No - - 15: PSC Packet Services Card 2 Active No - - 16: PSC Packet Services Card 2 Active No - - [local]LENYKSCJPNR XGW# show port npu count 28/1 Sunday April 29 05:35:39 UTC 2012 Counters for port 28/1 Counter Rx Frames Rx Bytes Tx Frames Tx Bytes -------------------- ------------- --------------- ------------- --------------- Bad IPv4 header 0 0 n/a n/a [local]XGW# show npu stats debug all-pac Sunday April 29 05:36:05 UTC 2012 NPU debug stats for slot 1 debug-pkt-drop-invalid-iphdr 32 [local]XGW# show npu stats debug all-pac | grep debug-pkt-drop-invalid-iphdr Sunday April 29 05:36:47 UTC 2012 debug-pkt-drop-invalid-iphdr 41 <== PSC 1 debug-pkt-drop-invalid-iphdr 3722008 debug-pkt-drop-invalid-iphdr 920 debug-pkt-drop-invalid-iphdr 141 debug-pkt-drop-invalid-iphdr 3579872 debug-pkt-drop-invalid-iphdr 47 debug-pkt-drop-invalid-iphdr 3817343 [local]XGW# show port util table Sunday April 29 05:37:52 UTC 2012 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 0 0 301 297 1300 1280 20/1 10G Ethernet 1686 1603 1490 1454 496 484 21/1 1000 Ethernet 0 0 0 6 0 7 22/1 1000 Ethernet 3 53 3 55 3 55 23/1 10G Ethernet 0 0 448 475 1265 1349 26/1 10G Ethernet 1539 1692 1383 1460 461 486 27/1 10G Ethernet 0 0 252 246 1334 1288 28/1 10G Ethernet 1758 1705 1413 1390 471 463