Introducción
Este documento describe el problema relacionado con las alarmas de punto único de fallo (SPOF) en los puertos ASR 5000 para agregación de enlaces (LAG) después de un rebote de puerto. Las falsas alarmas pueden hacer que se abran boletos innecesarios cuando, de hecho, no hay problema de qué preocuparse.
Productos afectados
Cualquier ASR 5000, incluidos los puertos LAG, se verá afectado.
Síntomas
Hay un problema relacionado con el desencadenado innecesario de alarmas de punto único de fallo (SPOF) para tarjetas de línea de 10 GB basadas en LAG (XGLC) en la plataforma ASR 5000. Siempre que se cae un puerto LAG (trampa PortDown), se activa la trampa CardSPOFClear y, siempre que se activa el puerto (trampa PortUp), se activa la trampa CardSPOFAlarm. Los rebotes de puerto pueden deberse a cualquier número de razones, incluidas las migraciones de PSC, los reinicios de npumgr, los fallos de hardware, la recarga del chasis o los problemas de link causados externamente. Este fragmento muestra las trampas SPOF respectivas para un rebote 19/1 del puerto, mientras tanto, un switchover LAG a menudo da como resultado trampas para todos los puertos que pueden rebotar en el proceso.
Tue Jan 21 07:35:55 2014 Internal trap notification 1024 (PortDown) card 19 port 1 port type 10G Ethernet
Tue Jan 21 07:35:55 2014 Internal trap notification 1503 (EntStateOperDisabled) Port(19/1) Admin state:"Locked", Alarm severity:"Major"
Tue Jan 21 07:35:55 2014 Internal trap notification 93 (CardStandby) card 19 type 10 Gig Ethernet Line Card
Tue Jan 21 07:35:55 2014 Internal trap notification 140 (CardSPOFClear) card 19 type 10 Gig Ethernet Line Card
Tue Jan 21 07:40:36 2014 Internal trap notification 1025 (PortUp) card 19 port 1 port type 10G Ethernet
Tue Jan 21 07:40:51 2014 Internal trap notification 139 (CardSPOFAlarm) card 19 type 10 Gig Ethernet Line Card
A partir de la versión v15.0 implementada en enero de 2015, además de las trampas SNMP, el mecanismo alarmante también comenzó a ser notificado. Esta es la alarma coincidente del ejemplo:
******** show alarm outstanding verbose *******
Severity Object Timestamp Alarm ID
-------- ---------- ---------------------------------- ---------------------
Alarm Details
--------------------------------------------------------------------------------
Minor Card 19 Tuesday January 21 07:40:51 5769809167128920064
La tarjeta de línea Ethernet de 10 Gig en la ranura 19 es un único punto de falla. Se necesita una tarjeta de línea Ethernet de 10 Gig en la ranura 20.
Solución
Las alarmas SPOF para las tarjetas configuradas por LAG deben ignorarse y borrarse simplemente por el motivo explicado en el Análisis de la Causa Raíz. El comando clear alarm se puede utilizar para borrar todas las alarmas pendientes (incluidas las que no son SPOF si se desea), o para borrar solamente SPOF específicos especificando el ID de alarma informado por show alarm extraordinario [verbose]. Para el ejemplo anterior:
clear alarm id 5769809167128920064
or
clear alarm all
Nota: Las alarmas permanecen en su lugar indefinidamente a menos que se produzca otro rebote de puerto, en cuyo caso una alarma nueva (como se muestra en la marca de tiempo) reemplaza a la existente.
Análisis de la causa raíz
Debido al diseño de LAG, la redundancia de la tarjeta es realizada por LAG y NO se realiza en el nivel de la tarjeta, de manera que todas las tarjetas configuradas por LAG siempre están en estado activo operacionalmente - ninguna de ellas está en espera. Por lo tanto, la configuración para las tarjetas configuradas por LAG NO especifica ninguna redundancia.
show port info
...
Card 23: card 26:
Card Type: 10 Gig Ethernet Line Card Card Type: 10 Gig Ethernet Line Card
Operational State : Active Operational State : Active
Redundant With : None Redundant With : None
******** show card table all ********
Slot Card Type Oper State SPOF Attach
---------- ---------------------------------------- ------------- ---- ------
19: LC 10 Gig Ethernet Line Card Active Yes 3
20: LC 10 Gig Ethernet Line Card Active Yes 4
21: LC 1000 Ethernet Line Card Active No 5
22: LC 1000 Ethernet Line Card Active No 6
23: LC 10 Gig Ethernet Line Card Active Yes 7
24: SPIO Switch Processor I/O Card Active No 8
25: SPIO Switch Processor I/O Card Active No 8
26: LC 10 Gig Ethernet Line Card Active Yes 10
27: LC 10 Gig Ethernet Line Card Active Yes 11
28: LC 10 Gig Ethernet Line Card Active Yes 12
29: LC 10 Gig Ethernet Line Card Active Yes 13
30: LC 10 Gig Ethernet Line Card Active Yes 14
Mientras tanto, la configuración para las tarjetas no LAG especifica redundancia. Por ejemplo, aquí está la configuración que NO tiene puertos LAG, en cuyo caso las alarmas SPOF tienen importancia y deben investigarse. Esta es la tabla de la tarjeta que muestra los pares respectivos de XGLC activos/en espera.
card 19
redundant with 20
#exit
card 23
redundant with 26
#exit
card 27
redundant with 28
#exit
card 29
redundant with 30
#exit
[local]ASR5000> show card table all
Slot Card Type Oper State SPOF Attach
----------- -------------------------------------- ------------- ---- ------
...
19: LC 10 Gig Ethernet Line Card Active No 3
20: LC 10 Gig Ethernet Line Card Standby - 4
21: LC 1000 Ethernet Line Card Active No 5
22: LC 1000 Ethernet Line Card Active No 6
23: LC 10 Gig Ethernet Line Card Active No 7
24: SPIO Switch Processor I/O Card Active No 8
25: SPIO Switch Processor I/O Card Active No 8
26: LC 10 Gig Ethernet Line Card Standby - 10
27: LC 10 Gig Ethernet Line Card Active No 11
28: LC 10 Gig Ethernet Line Card Standby - 12
29: LC 10 Gig Ethernet Line Card Active No 13
30: LC 10 Gig Ethernet Line Card Standby - 14