Dans le cadre de la documentation associée à ce produit, nous nous efforçons d’utiliser un langage exempt de préjugés. Dans cet ensemble de documents, le langage exempt de discrimination renvoie à une langue qui exclut la discrimination en fonction de l’âge, des handicaps, du genre, de l’appartenance raciale de l’identité ethnique, de l’orientation sexuelle, de la situation socio-économique et de l’intersectionnalité. Des exceptions peuvent s’appliquer dans les documents si le langage est codé en dur dans les interfaces utilisateurs du produit logiciel, si le langage utilisé est basé sur la documentation RFP ou si le langage utilisé provient d’un produit tiers référencé. Découvrez comment Cisco utilise le langage inclusif.
Cisco a traduit ce document en traduction automatisée vérifiée par une personne dans le cadre d’un service mondial permettant à nos utilisateurs d’obtenir le contenu d’assistance dans leur propre langue. Il convient cependant de noter que même la meilleure traduction automatisée ne sera pas aussi précise que celle fournie par un traducteur professionnel.
Cet article présente des idées sur la façon de résoudre différents problèmes liés aux ports des plates-formes ASR 5000 et 5500, y compris les problèmes liés à l'unité de traitement réseau (NPU), et aborde également un peu les problèmes d'agrégation de liaisons (LAG). Ces techniques ne sont pas sorcières et sont en fait principalement connues des ingénieurs, mais souvent une ou plusieurs peuvent être ignorées dans le processus de dépannage simplement en raison d'une supervision dans la précipitation des étapes vers une résolution potentielle. L'article commence par les contrôles d'intégrité liés au port. Ensuite, il expose toutes les approches dans un ordre méthodique. Enfin, il offre une série d'exemples réels qui vont au-delà du dépannage de base des ports pour ceux qui veulent creuser en profondeur.
show snmp trap history
Recherchez des modèles de PortLinkUp et PortLinkDown. Considérez :
- à quelle fréquence cela se produit et sur quelle période
- plusieurs ports ou un seul port ou un autre modèle
- travaux de maintenance que les techniciens peuvent ou non connaître
show port table all
- indique si les liaisons sont actives ou inactives
- Agrégation de liaisons (LAG) - confirmer que les ports sont dans l'état correct, soit + (distribution/active), soit ~ (convenu/veille). D'autres Etats * ou - doivent faire l'objet d'une enquête plus approfondie.
show port info
- diverses informations telles que l'état des liaisons, le mode de port, les paramètres de port, les paramètres d'agrégation de liaisons (LAG), le module SFP, etc.
show card diag
- informations de diagnostic de base, généralement pas si utiles
show rct stats [verbose]
- suit toutes les activités PSC/DPC/SMC/MIO (commutations, migrations, arrêts, etc.) depuis le démarrage
show port use table
- est le débit attendu pour l'heure du jour
- Les ports ECMP (Equal Cost Multi Path) et LAG doivent transmettre de manière assez égale
- La bande passante Rx est sous contrôle de l'autre extrémité
show logic-port use table
- désactive l'utilisation des ports par ID de VLAN
- si les nombres sont petits par rapport à la table d'utilisation des ports, cela implique que les paquets ne parviennent pas à la NPU à partir du port
show port datalink counters <slot/port>
- signale le nombre de paquets sur les ports physiques eux-mêmes
- vérifiez les différents compteurs d'échec pour voir s'il y en a qui augmentent et à quel taux
- Important : il s’agit d’une des rares commandes collectées à deux reprises dans un SSD qui peut s’avérer très utile pour le dépannage de l’augmentation du nombre de paquets en un laps de temps relativement court
show port npu counters <slot/port> [vlan <vlan>]
- tous les ports sont connectés au reste du système via l'unité NPU (Network Processor Unit), soit sur la carte de services de paquets connectée (PSC, ASR 5000) (que le PSC soit directement connecté ou mappé via les cartes RCC (Redundancy Crossbar Cards)), soit sur la sortie MIO (Management Input Output) (ASR 5500) sur laquelle le port est également situé.
- vérifiez les différents compteurs d'échec pour voir s'il y en a qui augmentent et à quel taux
- pour la mise en oeuvre de LAG, les compteurs sont signalés pour le port maître qui capture les totaux sur tous les ports du groupe LAG, et il n'y a donc aucun moyen de savoir quel port est à l'origine des pannes. Dans ce cas, pour ASR 5000, « show port npu stats debug all_pacs » signale des échecs au niveau PSC #, ce qui, espérons-le, aide à pointer vers la carte du coupable.
- Des problèmes ont été observés lorsque l'augmentation des compteurs de défaillance à partir de cette commande est causée par une défaillance sur la carte de ligne, où « show port datalink counters » ne montre pas le problème.
- tous les problèmes de NPU ne sont pas détectés avec cette commande. Il existe d'autres commandes de support technique uniquement NPU (par exemple show npu stats debug all_pacs, show npu stats sf all_pacs, etc.) qui capturent des problèmes de suppression de paquets qui ne sont pas abordés ici.
- Important : il s’agit d’une des rares commandes collectées à deux reprises dans un SSD qui peut s’avérer très utile pour le dépannage de l’augmentation du nombre de paquets en un laps de temps relativement court
show logs
- recherchez toutes les entrées relatives aux ports, y compris les équipements npu, npuctrl, etc.
show port transceiver (ASR 5500 uniquement)
- recherchez des niveaux de lumière cohérents sur tous les ports
Entre chacune des étapes suivantes, vérifiez le résultat des commandes ci-dessus, le cas échéant, pour détecter toute amélioration et/ou tout changement de comportement. Si le problème est sporadique, un délai d'attente approprié peut être nécessaire avant de déclarer la réussite ou l'échec.
Il ne s'agit pas d'une liste difficile et rapide qui doit être exécutée dans l'ordre ou même complètement. Il y a trop de variables qui jouent un rôle dans le dépannage de tels problèmes. Il s'agit donc d'un guide qui permet au moins à l'utilitaire de dépannage d'accéder à toutes les options possibles. Ceux qui ont de nombreuses années d'expérience connaissent probablement certaines de ces approches comme elles s'appliquent à d'autres plates-formes, mais une liste de contrôle des rappels est toujours une bonne idée, et ceux qui ne connaissent pas la plate-forme peuvent ne pas être familiers avec certaines des approches et/ou commandes spécifiques à la plate-forme disponibles.
N'oubliez pas que chaque scénario est différent et que les étapes de dépannage révéleront de nouvelles informations qui dicteront les étapes futures qui différeront d'un scénario à l'autre. Ce n'est qu'un guide.
Les étapes prises en compte et l'ordre pris varient en fonction de la gravité du problème, de l'impact potentiel de l'abonné et du sentiment du client.
Basculement vers le port redondant ou le LAG
- Nécessité de tenir compte du fait que le port en cours de dépannage gère maintenant le trafic OU ne gère pas le trafic
- ASR5000 : les cartes de ligne de taille réelle sont désormais connectées à un autre PSC (NPU), tandis que les cartes de ligne de taille moyenne continueront d'être connectées au même PSC
- la commutation ne change aucun câblage, et donc plus probablement cela ne fera pas de différence dans un scénario de rebondissement de port, mais au moins, si le problème était sur le port actif, l'impact sera réduit car il s'agit maintenant d'un port de secours
Échangez les connexions des câbles avec un port redondant
- selon le câble qui est tiré en premier, le port actif final peut être l'un ou l'autre des ports, de sorte que le port peut devoir être commuté pour revenir à la disposition de départ
- si le problème persiste avec le port en panne, examinez plus attentivement ce port sur l'ASR
- si le problème bascule sur l'autre port, examinez de plus près la connexion de ce port à l'extrémité distante.
Fibres propres
- si le port nettoyé est actif, il doit être rebasculé après le nettoyage
- le nettoyage des fibres a été une activité qui résout souvent les problèmes
Remplacer les éléments du chemin, y compris les câbles Ethernet/fibre optique/tableau de connexions/interconnexions/prises
- si le port en cours de nettoyage est actif, il doit être réactivé après le nettoyage
- il peut être surprenant de savoir à quelle fréquence cette étape résout les problèmes
Remplacement SFP (Small Form-Factor Pluggable) des deux côtés de la connexion
- les SFP peuvent être commandés séparément
- Rechercher les SFP inutilisés à des fins de test
—
ASR 5000 uniquement :
Redémarrage de la carte de ligne
Réinstallation de la carte de ligne
- La réinstallation permet d'effectuer un ensemble complet de redémarrage et elle est plus intrusive et vaut la peine d'être essayée
Migration de la CFP
- Le PSC connecté à la carte de ligne hébergeant le port problématique (show card mappings / show card table all)
Redémarrage PSC
Réinitialisation de la PSC
- Une migration de la CFP entraînera la réinitialisation de la CFP, mais ce n'est pas l'équivalent d'un redémarrage
- De la même manière, une réinitialisation PSC est plus intrusive qu'un redémarrage PSC
- Une réinitialisation de la CFP accomplira un redémarrage complet de la CFP en une seule étape
- Dans tous les cas ci-dessus, si le problème est résolu, une migration pour rendre la CFP active de nouveau serait nécessaire pour confirmer si le problème est entièrement résolu (en supposant que l'activité de la CFP a résolu le problème du renvoi de port). Notez que, selon la configuration de la carte et la configuration de la carte de départ (c.-à-d. la carte de ligne ayant le problème physiquement derrière le PSC connecté ?, etc.), le fait de remettre le PSC en activité peut ou non entraîner le même mappage de la carte de ligne du PSC que lors de l'exercice précédent.
Commutation de carte de gestion du système (SMC)
Redémarrage SMC
Réinstallation SMC
ASR 5500 uniquement :
Commutation MIO
- ceci est différent d'un port ou d'une commutation LAG. Tous les ports actifs de la MIO commutée deviendront en veille. Si le port du problème est déjà actif sur le MIO de secours, la commutation MIO ne change pas l'état du port mais reste une étape valide
—
Rechargement du châssis
- bien que peu probable, il est toujours possible qu'il y ait une sorte d'anomalie qui ne peut être résolue qu'avec un rechargement
Remplacement du matériel sur un commutateur adjacent
Remplacement matériel sur ASR 5x00 (PSC, LC, MIO, SMC ou RCC)
Référence de commande des étapes de correction :
migration de carte de <x> à <y> - migration PSC/DPC
- Si soulever le levier est une autre méthode, ne faites pas cela ET tirez ensuite sur la carte ou sur les résultats d'arrêt de la carte
commutateur de carte de <x> à <y> - commutateur SMC/MIO/LC/RCC
port switch to <x> - non-LAG port switchover
commutateur de port d'agrégation de liens vers <x> - commutation LAG
- X doit être le port LAG maître ou la paire de celui-ci selon la direction
redémarrage de carte X
- la réinitialisation de la carte est une autre option, mais le redémarrage est recommandé
Cet exemple montre les ports LAG actifs recevant un trafic important, même si le châssis est en veille SRP (Service Redundancy Protocol), auquel cas le débit doit être presque nul. La valeur des deux commandes suivantes utilisées conjointement est que les ports affichent un trafic important reçu, mais que le NPU n'affiche aucun trafic. Cela signifie que le trafic est abandonné avant d'atteindre le NPU, peut-être directement aux ports eux-mêmes. Les « compteurs show port datalink » et « show port npu counters » corrélent cela car les compteurs NPU augmentent à peine tandis que les compteurs de liaison de données augmentent rapidement.
[local]PGW-ICSR> show port utilization table Sunday July 26 00:13:32 UTC 2015 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 5/1 1000 Ethernet 0 0 0 0 0 0 5/10 10G Ethernet 0 0 0 0 0 0 5/11 10G Ethernet 0 0 0 0 0 0 5/15 10G Ethernet 0 0 0 0 0 0 5/16 10G Ethernet 0 0 0 0 0 0 5/28 10G Ethernet 105 13 105 13 105 13 5/29 10G Ethernet 0 0 0 0 0 0 6/1 1000 Ethernet 0 0 0 0 0 0 6/10 10G Ethernet 4214 0 4121 0 3993 0 6/11 10G Ethernet 4089 0 4103 0 3995 0 6/15 10G Ethernet 4166 0 4172 0 3996 0 6/16 10G Ethernet 4163 0 4174 0 3997 0 6/28 10G Ethernet 0 0 0 0 0 0 6/29 10G Ethernet 1 0 1 0 1 0 [local]PGW-ICSR> show logical-port utilization table Sunday July 26 00:13:45 UTC 2015 ------ Average Port Utilization (in mbps) ------ Slot/Port vlan Current 5min 15min Rx Tx Rx Tx Rx Tx -------------- -------- -------- -------- -------- -------- -------- 5/10 2427 0 0 0 0 0 0 5/10 2407 0 0 0 0 0 0 5/10 2011 0 0 0 0 0 0 5/10 2405 0 0 0 0 0 0 5/10 2015 0 0 0 0 0 0 5/10 2455 0 0 0 0 0 0 6/10 2427 0 0 0 0 0 0 6/10 2407 0 0 0 0 0 0 6/10 2011 0 0 0 0 0 0 6/10 2405 0 0 0 0 0 0 6/10 2015 0 0 0 0 0 0 6/10 2455 0 0 0 0 0 0 6/29 31 0 0 0 0 0 0
[local]PGW-ICSR> clear port npu counters all
Saturday July 25 01:44:38 UTC 2015
[local]PGW-ICSR> clear port data count all
Saturday July 25 01:44:43 UTC 2015
[local]PGW-ICSR> show port data counters 6/10
Saturday July 25 01:45:30 UTC 2015
rt npu counteCounters for port 6/10:
Line Card 10 Gigabit Ethernet Port
Rx Counter Data | Tx Counter Data
----------------------- -------------- + ----------------------- -------------
RX Bytes 20310895783 | TX Bytes 9746
RX Unicast frames 25564965 | TX Unicast frames 41
RX Multicast frames 85 | TX Multicast frames 48
RX Broadcast frames 0 | TX Broadcast frames 0
RX Size 64 frames 338598 | TX Size 64 frames 9
RX Size 65 .. 127 fr 6881254 | TX Size 65 .. 127 fr 32
RX Size 128 .. 255 fr 4151284 | TX Size 128 .. 255 fr 48
RX Size 256 .. 511 fr 761933 | TX Size 256 .. 511 fr 0
RX Size 512 .. 1023 fr 599377 | TX Size 512 .. 1023 fr 0
RX Size 1024 .. 1518 fr 12678554 | TX Size 1024 .. 1518 fr 0
RX Size 1519 .. 1522 fr 154050 | TX Size 1519 .. 1522 fr 0
[local]PGW-ICSR> show port npu counters 6/10
Saturday July 25 01:45:31 UTC 2015
Counters for port 6/10
Counter Rx Frames Rx Bytes Tx Frames Tx Bytes
---------------------- -------------------- ----------- --------------------
Unicast 147 11716 150 12234
Multicast 870 73376 416 51584
Broadcast 4 240 0 0
IPv4 unicast 66 4436 66 4550
IPv4 non-unicast 238 15232 0 0
IPv6 unicast 83 7400 84 7684
IPv6 non-unicast 632 8144 0 0
Fragments received 0 0 n/a n/a
Packets reassembled 0 0 n/a n/a
Fragments to kernel 0 0 n/a n/a
HW error 0 0 n/a n/a
Port non-operational 0 0 0 0
SRC MAC is multicast 0 0 n/a n/a
Unknown VLAN tag 0 0 n/a n/a
Other protocols 97 8240 n/a n/a
Not IPv4 399 36472 n/a n/a
Bad IPv4 header 0 0 n/a n/a
Cet exemple pour ASR 5000 montre la sortie comparant les compteurs de liaison de données et de processeur. Dans ce cas, les paquets de multidiffusion et de diffusion correspondent entre les commandes, mais le nombre de Rx pour l'unité réseau est inférieur à celui de la liaison de données. La commande « show npu stats debug » peut éventuellement expliquer la différence, mais pas dans tous les cas, comme c'est le cas ici où aucun des compteurs de cette commande ne peut expliquer les différences.
[local]DO-HSGW> clear port npu counters all Thursday August 06 02:05:51 UTC 2015 [local]DO-HSGW> clear port datalink counters all Thursday August 06 02:05:52 UTC 2015 [local]DO-HSGW> show npu stats debug all-pacs clear Thursday August 06 02:05:52 UTC 2015 [local]DO-HSGW> show card table Thursday August 06 02:18:59 UTC 2015 Slot Card Type Oper State SPOF Attach ----------- -------------------------------------- ------------- ---- ------ 5: PSC Packet Services Card 3 Active No 21 37 [local]DO-HSGW> show port npu count 21/1 Thursday August 06 02:13:52 UTC 2015 Counters for port 21/1 sCounter Rx Frames Rx Bytes Tx Frames Tx Bytes -------------------- ------------- --------------- ------------- --------------- Unicast 2502 289800 1726 308932 Multicast 1091 92000 0 0 Broadcast 1231 79781 0 0 IPv4 unicast 2400 283272 1624 304240 IPv4 non-unicast 534 34176 0 0 IPv6 unicast 0 0 0 0 IPv6 non-unicast 539 52982 0 0 Fragments received 0 0 n/a n/a Packets reassembled 0 0 n/a n/a Fragments to kernel 0 0 n/a n/a HW error 0 0 n/a n/a Port non-operational 0 0 0 0 SRC MAC is multicast 0 0 n/a n/a Unknown VLAN tag 0 0 n/a n/a Other protocols 50 7850 n/a n/a Not IPv4 0 0 n/a n/a Bad IPv4 header 0 0 n/a n/a IPv4 MRU exceeded 0 0 n/a n/a TCP tiny fragment 0 0 0 0 No ACL match 0 0 0 0 Filtered by ACL 0 0 0 0 TTL expired 0 0 n/a n/a Flow lookup twice 0 0 n/a n/a Unknown IPv4 class 0 0 n/a n/a Too short: IP 0 0 n/a n/a Too short: ICMP 0 0 0 0 Too short: IGMP 0 0 0 0 Too short: TCP 0 0 0 0 Too short: UDP 0 0 0 0 Too short: IPIP 0 0 n/a n/a Too short: GRE 0 0 n/a n/a Too short: GRE key 0 0 n/a n/a Don't frag discards n/a n/a 0 0 Fragment packets n/a n/a 0 0 Fragment fragments n/a n/a 0 0 IPv4VlanMap dropped 0 0 n/a n/a IPSec NATT keep alive 0 0 n/a n/a MPLS Flow not found 0 0 n/a n/a MPLS unicast 0 0 0 0 Size < 17 0 0 0 0 Size 17 .. 64 1834 117376 102 4692 Size 65 .. 127 1385 113948 36 2520 Size 128 .. 255 1589 225633 1191 170710 Size 256 .. 511 16 4624 397 131010 Size 512 .. 1023 0 0 0 0 Size 1024 .. 2047 0 0 0 0 Size 2048 .. 4095 0 0 0 0 Size 4096 .. 4500 0 0 0 0 Size > 4500 0 0 0 0 [local]DO-HSGW> show port data counters 21/1 Thursday August 06 02:13:52 UTC 2015 how npu Counters for port 21/1: Line Card Gigabit Ethernet Port Rx Counter Data | Tx Counter Data ----------------------- -------------- + ----------------------- ------------- RX Unicast frames 5555 | TX Unicast frames 1726 RX Multicast frames 1091 | TX Multicast frames 0 RX Broadcast frames 1233 | TX Broadcast frames 0 RX Size 64 frames 0 | TX Size 64 frames 102 RX Size 65 .. 127 fr 4219 | TX Size 65 .. 127 fr 36 RX Size 128 .. 255 fr 1681 | TX Size 128 .. 255 fr 1191 RX Size 256 .. 511 fr 49 | TX Size 256 .. 511 fr 397 RX Size 512 .. 1023 fr 1828 | TX Size 512 .. 1023 fr 0 RX Size 1024 .. 1518 fr 18 | TX Size 1024 .. 1518 fr 0 RX Size > 1518 frames 84 | TX Size > 1518 frames 0 RX Bytes OK 1934599 | TX Bytes OK 317264 RX Bytes BAD 0 | TX Bytes BAD 0 RX SHORT OK 0 | TX PAUSE 0 RX SHORT CRC 0 | TX ERR 0 RX OVF 0 | RX NORM CRC 0 | RX LONG OK 0 | RX LONG CRC 0 | RX PAUSE 0 | RX FALS CRS 0 | RX SYM ERR 0 | RX FIFO CORR ECC ERR 0 | TX FIFO CORR ECC ERR 0 RX FIFO UNREC ECC ERR 0 | TX FIFO UNREC ECC ERR 0 RX Disc frames 0 | TX Disc frames 0 RX Disc bytes 0 | TX Disc bytes 0 RX ERR frames 0 | TX ERR frames 0 ----------------------- -------------- + ----------------------- ------------- [local]DO-HSGW> show npu stats debug slot 5 Thursday August 06 02:13:53 UTC 2015 NPU debug stats for slot 5 Total number of NPU debug stat counters: 267 WARN: ---------------------------------- lc-rx-drop (id: 234) 50 INFO: ---------------------------------- csix-idle-cnt (id: 29) 36268853 npu-resent-fc-msg (id: 45) 951 npu-tx-fc-cframe (id: 46) 44701 npu-rx-sf-xon (id: 60) 13316 cp2npu-unk-mac-drop-cnt (id: 153) 177255 ipv6-unk-nexthdr (id: 155) 262 rx-cp-sft-pkt (id: 164) 33439 rx-sf0-sft-pkt (id: 165) 33439 rx-sf1-sft-pkt (id: 166) 33439 lc-rx-arp-slowpath (id: 316) 70 flow-notfound-done-slowpath (id: 325) 1233 flow-lkup-done-slowpath (id: 326) 3473
TX Pause indique que ce port a atteint une charge maximale à un moment donné et a envoyé une trame PAUSE au commutateur homologue, de sorte que le commutateur homologue puisse réduire gracieusement le trafic vers ce port. Cependant, il semble que le commutateur homologue n'est pas activé avec le contrôle de flux et qu'il y a donc des compteurs sur la carte de ligne qui indiquent des pertes de débordement au niveau du port.
Même si l'utilisation moyenne des ports n'atteint pas la valeur de pic (comme 6 GBPS), le port peut recevoir un pic soudain de trafic qui peut conduire à une PANNE TX. Par conséquent, il est conseillé de toujours activer le contrôle de flux au niveau du commutateur homologue au cas où.
show port datalink counters
Counters for port 21/1: Line Card 10 Gigabit Ethernet Port Rx Counter Data | Tx Counter Data ----------------------- -------------- + ----------------------- ------------- RX Unicast frames 11562820841545 | TX Unicast frames 8643405785924 RX Multicast frames 401729121 | TX Multicast frames 0 RX Broadcast frames 16900986 | TX Broadcast frames 0 RX Size 64 frames 2562649224215 | TX Size 64 frames 5324800463761 RX Size 65 .. 127 fr 1827916995441 | TX Size 65 .. 127 fr 1921108746736 RX Size 128 .. 255 fr 527160156402 | TX Size 128 .. 255 fr 377388275894 RX Size 256 .. 511 fr 384674712910 | TX Size 256 .. 511 fr 285180922294 RX Size 512 .. 1023 fr 335734722295 | TX Size 512 .. 1023 fr 248088896685 RX Size 1024 .. 1518 fr 5894848662488 | TX Size 1024 .. 1518 fr 486837840991 RX Size > 1518 frames 29836364100 | TX Size > 1518 frames 0 RX Bytes OK 9248285853715092 | TX Bytes OK 1491301613652484 RX Bytes BAD 5358 | TX Bytes BAD 0 RX SHORT OK 0 | TX PAUSE 639563 RX SHORT CRC 0 | TX ERR 0 RX OVF 12768 | RX NORM CRC 0 | RX LONG OK 0 | RX LONG CRC 0 | RX PAUSE 0 | RX FALS CRS 0 | RX SYM ERR 0 | RX SPI FRAME COUNT 11555373252519 | TX SPI FRAME COUNT 8637801817136 RX SPI LEN ERR 0 | TX SPI LEN ERR 0 RX SPI DIP 2 ERR 0 | TX SPI DIP 4 ERR 0 RX SPI STATUS OOF ERR 0 | TX SPI DATA OOF ERR 0 RX FIFO OVERFLOW 0 | TX FIFO FULL DROP 0 RX PAUSE COUNT 0 | TX DIP 4 PACKET DROP 0 SPI EOP/ABORT 0 | RX FRAGMENTS COUNT 0 | RX MAC ERR 26 | RX JABBER COUNT 0 |
Une commande de très bas niveau (assistance technique uniquement, peut être récupérée à partir du SSD) est « show data congestion slot X ». Dans cet exemple, notez la congestion élevée sur le logement 5 (par défaut connecté à XCLC 21/1) au niveau de l'interface NPU-Switch Fabric (SF). Plus précisément, un grand nombre de messages de contrôle de flux du fabric de commutation vers le NPU, ainsi qu'un nombre élevé de pertes de paquets dans cette même direction, confirment le problème.
******** Data-path congestion information for slot 5 ******** NPU Percentage of Frames Dropped: Subsystem | 5 Sec | 5 Min | 15 Min | Total Frames and Drops -------------|---------|---------|---------|----------------------------- LC Top rx | 0.00% | 0.00% | 0.00% | Frames: 715193480189 | | | | Drops: 0 LC Top tx | 0.00% | 0.00% | 0.00% | Frames: 0 | | | | Drops: 0 LC Bot rx | 0.00% | 0.00% | 0.00% | Frames: 0 | | | | Drops: 0 LC Bot tx | 0.00% | 0.00% | 0.00% | Frames: 0 | | | | Drops: 0 LC RCC1 rx | 0.00% | 0.00% | 0.00% | Frames: 0 | | | | Drops: 0 LC RCC1 tx | 0.00% | 0.00% | 0.00% | Frames: 0 | | | | Drops: 0 LC RCC2 rx | 0.00% | 0.00% | 0.00% | Frames: 0 | | | | Drops: 0 LC RCC2 tx | 0.00% | 0.00% | 0.00% | Frames: 0 | | | | Drops: 0 CPU rx | 0.00% | 0.00% | 0.00% | Frames: 121566003797 | | | | Drops: 0 CPU tx | 0.00% | 0.00% | 0.00% | Frames: 59870967969 | | | | Drops: 35226625 SF A rx | 0.00% | 0.00% | 0.00% | Frames: 224008179 | | | | Drops: 0 SF A tx | 0.01% | 0.00% | 0.00% | Frames: 378241304254 | | | | Drops: 274645028 SF B rx | 0.00% | 0.00% | 0.00% | Frames: 656009419 | | | | Drops: 0 SF B tx | 0.00% | 0.00% | 0.00% | Frames: 392219947264 | | | | Drops: 320394097 EDC rx | 0.00% | 0.00% | 0.00% | Frames: 0 | | | | Drops: 0 EDC tx | 0.00% | 0.00% | 0.00% | Frames: 0 | | | | Drops: 0 NPU Received Flow Control Events: Event | 5 Sec | 5 Min | 15 Min | Total Event Count ----------------|-------------|-------------|-------------|-------------------- rx-sf-xoff | 21668 | 843417 | 2358340 | 828378025 rx-sf-xon | 21811 | 851786 | 2383440 | 873518866 rx-lc-xoff | 0 | 0 | 0 | 0 rx-lc-xon | 0 | 0 | 0 | 0 rx-cp-xoff | 53 | 5021 | 15176 | 17316366 rx-cp-xon | 53 | 5021 | 15176 | 17316366 rx-edc-xoff | 0 | 0 | 0 | 0 rx-edc-xon | 0 | 0 | 0 | 0
Dans cet exemple, des tickets ont commencé à être ouverts en référence à une augmentation des compteurs TX ERR sur le port 5/1, le port de gestion sur ASR 5500. Sur un site, il n'a pas été « remarqué » comme un problème avant qu'après l'exécution d'une MOP qui a mis en oeuvre la création et la génération de fichiers d'enregistrement d'événements, une fonctionnalité d'amélioration du service de facturation. Aucune corrélation n'a pu être établie entre la mise en oeuvre de cette fonctionnalité et une augmentation soudaine de ces pannes, sauf pour noter qu'il y avait également une augmentation soudaine du débit pour le port de gestion, qui ne devrait transporter le trafic de gestion que sur 12/30 lorsque la modification a été effectuée. Ici, la variable txpackets du schéma PORTSch1 est présentée sous forme de graphique montrant l'augmentation :
Un audit du réseau a montré que le problème se posait sur de nombreux noeuds, par exemple, voici un petit extrait de l'audit :
*************** ALPR-DXGW-ICSR *************** show port datalink counters 5/1 | grep "TX ERR" Monday January 04 03:33:14 UTC 2016 RX SHORT CRC 0 | TX ERR 2038860 *************** ANJT-PGW *************** show port datalink counters 5/1 | grep "TX ERR" Monday January 04 03:33:14 UTC 2016 RX SHORT CRC 0 | TX ERR 1975169 *************** AZUS-PGW-00 *************** show port datalink counters 5/1 | grep "TX ERR" Monday January 04 03:33:15 UTC 2016 RX SHORT CRC 0 | TX ERR 1709395 *************** AZUSPND-PGW-00 *************** show port datalink counters 5/1 | grep "TX ERR" Monday January 04 03:33:15 UTC 2016 RX SHORT CRC 0 | TX ERR 1211060
Revenons aux anciens disques SSD (puisque seuls les compteurs de base sont suivis par Bulkstats), on peut voir que l'erreur se produisait lentement jusqu'à 12/30, mais après l'exécution de MOP, l'erreur se produisait à un taux beaucoup plus élevé :
Thursday November 19 13:41:44 UTC 2015 Counters for port 5/1: Line Card Gigabit Ethernet Port Rx Counter Data | Tx Counter Data ----------------------- -------------- + ----------------------- ------------- RX SHORT CRC 0 | TX ERR 5927969 Monday November 30 13:35:45 UTC 2015 Counters for port 5/1: Line Card Gigabit Ethernet Port Rx Counter Data | Tx Counter Data ----------------------- -------------- + ----------------------- ------------- RX SHORT CRC 0 | TX ERR 6116249 Tuesday December 01 13:39:26 UTC 2015 Counters for port 5/1: Line Card Gigabit Ethernet Port Rx Counter Data | Tx Counter Data ----------------------- -------------- + ----------------------- ------------- RX SHORT CRC 0 | TX ERR 6130958 Counters cleared ... [local]ASR5500-PGW> show port datalink counters 5/1 Monday January 04 02:41:29 UTC 2016 Counters for port 5/1: Line Card Gigabit Ethernet Port Rx Counter Data | Tx Counter Data ----------------------- -------------- + ----------------------- ------------- RX Unicast frames 171008921 | TX Unicast frames 221976127 RX SHORT CRC 0 | TX ERR 5852770 ******** show port datalink counters ******* Tuesday January 05 13:38:51 UTC 201 Rx Counter Data | Tx Counter Data ----------------------- -------------- + ----------------------- ------------- RX Unicast frames 216450269 | TX Unicast frames 8080952673 RX SHORT CRC 0 | TX ERR 11497275
******** show port info *******
Tuesday January 05 13:33:07 UTC 2016
Port: 5/1
Port Type : 1000 Ethernet
Configured Duplex : Auto
Configured Speed : Auto
Link State : Up
Link Duplex : Half
Link Speed : 100 Mb Issue fixed ... Wednesday January 06 14:29:28 UTC 2016 Counters for port 5/1: Line Card Gigabit Ethernet Port Rx Counter Data | Tx Counter Data ----------------------- -------------- + ----------------------- ------------- RX SHORT CRC 0 | TX ERR 0
[local]PGW> show port info 5/1
Wednesday January 06 12:58:50 UTC 2016
Port: 5/1
Port Type : 1000 Ethernet
Role : Management Port
Configured Duplex : Auto
Configured Speed : Auto
Link State : Up
Link Duplex : Full
Link Speed : 1000 Mb
Le problème s'est avéré être une incompatibilité dans les paramètres de port entre l'ASR 5500 et le nouveau commutateur auquel il se connecte, le Nexus 7000. La solution consistait à définir les ports des deux extrémités sur négociation automatique. L'ASR 5500 était déjà défini sur auto, tandis que le Nexus était défini manuellement sur full duplex. Correctif :
ASR 5500 (already set to this) port ethernet 5/1 medium speed 1000 duplex full no shutdown bind interface 5/1-MGMT local #exit Nexus 7K (needed to be set to this) interface Ethernet152/1/11 description MGMT-PORT-5/01 switchport switchport access vlan 10 spanning-tree port type edge no snmp trap link-status no shutdown
Il s'avère que le problème s'est produit tout du long mais n'a jamais été remarqué parce que le seul indicateur était le compteur ERR de TX qui n'est pas quelque chose qui peut être mesuré à travers n'importe quel rapport automatisé puisqu'il n'y a pas de variables de bulkstat pour quoi que ce soit au-delà des compteurs de port de base (paquets/octets Tx/Rx, etc.). Mais le problème a été exacerbé lorsque le MOP a été exécuté et comme les paquets Tx/Rx sont capturés par Bulkstats et qu'il s'agit d'un indicateur de performance clé mesuré par le client, il a ensuite été remarqué.
La question suivante était donc de savoir ce qui a provoqué l'augmentation soudaine du trafic ? L'examen de la modification montre le paramètre suivant appelé « via local-context », qui spécifie l'utilisation du port de contexte local (5/1 ou 6/1) pour le nouveau trafic d'événements au lieu du port 5/29 dans le contexte ECS où le trafic d'enregistrement de données d'événements (EDR) existant a toujours été (et continue d'être) envoyé par le port 5/29 existant dans ce contexte. Ce paramètre n'est pas évident car il est rarement utilisé dans la configuration du client.
context ECS
interface 5/29-ECS
ip address 10.192.102.75 255.255.255.0
#exit
session-event-module file name evt-repo rotation volume 40000000 rotation time 120 storage-limit 500000000 exclude-checksum-record time-stamp rotated-format compression gzip event transfer-mode push primary encrypted-url +A19y2j... via local-context module-only edr-module active-charging-service file name FDR70 rotation volume 40000000 rotation time 300 storage-limit 500000000 headers reset-indicator edr-format-name trap-on-file-delete charging-service-name omit compression gzip file-sequence-number rulebase-seq-num cdr use-harddisk cdr remove-file-after-transfer cdr transfer-mode push primary encrypted-url +A0d2...
Les interfaces 24/1 et 25/1 qui composent l'interface 24/1-MGMT connaissent des trames incorrectes, des collisions TX et des collisions TX tardives.
À partir des détails de la présentation :
******** show port datalink counters ******* Friday January 03 14:14:59 UTC 2014 Counters for port 25/1: SPIO 10/100/1000 Ethernet port Rx Counter Data | Tx Counter Data ----------------------- -------------- + ----------------------- ------------- RX Bytes 12808872101 | TX Bytes 20451927433 RX BAD frames 0 | TX BAD frames 1403971 RX Runt frames 0 | TX Runt frames 0 RX Oversize frames 0 | TX Oversize frames 0 RX Good frames 95621882 | TX Good frames 39395979 RX Multicast frames 6686008 | TX Collisions 1501475 RX Broadcast frames 56656415 | TX Excessive collis 0 RX Code ERROR 0 | TX Late Collisions 1403968 RX CRC ERROR 0 | TX CRC ERROR 0 RX length ERROR 0 | TX ABORT 3 RX Align ERROR 0 | ----------------------- -------------- + ----------------------- -------------
Depuis le système un peu plus tard, remarquez l'augmentation des trames incorrectes et des collisions/collisions tardives :
[local]DO-HSGW> show port datalink counters 25/1 Friday January 03 14:26:04 UTC 2014 Counters for port 25/1: SPIO 10/100/1000 Ethernet port Rx Counter Data | Tx Counter Data ----------------------- -------------- + ----------------------- ------------- RX Bytes 12809750383 | TX Bytes 20456667635 RX BAD frames 0 | TX BAD frames 1404930 RX Runt frames 0 | TX Runt frames 0 RX Oversize frames 0 | TX Oversize frames 0 RX Good frames 95628788 | TX Good frames 39400838 RX Multicast frames 6686366 | TX Collisions 1502503 RX Broadcast frames 56659440 | TX Excessive collis 0 RX Code ERROR 0 | TX Late Collisions 1404927 RX CRC ERROR 0 | TX CRC ERROR 0 RX length ERROR 0 | TX ABORT 3 RX Align ERROR 0 | ----------------------- -------------- + ----------------------- -------------
Ceci indique généralement une non-correspondance de configuration à chaque extrémité de l’interface Ethernet. Les deux ports de gestion ont négocié en mode bidirectionnel non simultané :
[local]DO-HSGW> show port info 24/1 Friday January 03 14:33:19 UTC 2014 Port: 24/1 Port Type : 1000 Ethernet Dual Media Role : Management Port Description : (None Set) Controlled By Card : 8 (System Management Card) Redundancy Mode : Port Mode Framing Mode : Unspecified Redundant With : 25/1 Preferred Port : Non-Revertive Physical ifIndex : 402718720 Administrative State : Enabled Configured Duplex : Auto Configured Speed : Auto Media Selection : RJ45 MAC Address : 00-05-47-02-5D-EE Link State : Up Link Duplex : Half Link Speed : 100 Mb Link Aggregation Group : None Logical ifIndex : 402718721 Operational State : Down, Standby SFP Module : Present (1000BASE-SX, M5, M610G SFP+Cu)
L'autre extrémité de la liaison, Cisco Catalyst 6500, a été définie sur Speed = 100 et duplex = full. Pour résoudre le problème, codez l'ASR 5000 en mode bidirectionnel simultané :
port ethernet 24/1 medium speed 100 duplex full no shutdown bind interface 24/1-MGMT local
Ou bien, configurez les DEUX côtés pour qu'ils négocient automatiquement.
Mais avoir un côté comme auto et l'autre comme full pourrait conduire à l'établissement en semi-duplex.
On a observé ce qui suit lorsque le port 23/1 du LAG était coincé en état de négociation LAG après une commutation LAG inattendue :
2015-May-15+16:47:40.410 [snmp 22002 info] [1/0/13147 <lagmgr:0>
trap_api.c:2387] [software internal system syslog] Internal trap notification
1205 (LAGGroupUp) card:19, port:1, partner:(007F,64-87-88-66-F7-C0,0016)
2015-May-15+16:47:40.410 [snmp 22002 info] [1/0/13147 <lagmgr:0>
trap_api.c:2387] [software internal system syslog] Internal trap notification
1204 (LAGGroupDown) card:19, port:1, partner:(007F,64-87-88-67-87-C0,0016)
2015-May-15+16:47:40.410 [lagmgr 179050 warning] [1/0/13147 <lagmgr:0>
lagmgr_state.c:1314] [software internal system critical-info syslog] LAG group
50 (global) with master port 19/1 has changed partner
from (007F,64-87-88-67-87-C0,0016) on 17/1, 19/1, 23/1, 27/1, 29/1
to (007F,64-87-88-66-F7-C0,0016) on 18/1, 20/1, 26/1, 28/1, 30/1
[local]PDSN> show port table | grep LA 17/1 Srvc 10G Ethernet Enabled Up Up Active None LA~ 19/1 18/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1 19/1 Srvc 10G Ethernet Enabled - Up - None LA~ 19/1 20/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1 23/1 Srvc 10G Ethernet Enabled Up Up Active None LA* 19/1 26/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1 27/1 Srvc 10G Ethernet Enabled Up Up Active None LA~ 19/1 28/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1 29/1 Srvc 10G Ethernet Enabled Up Up Active None LA~ 19/1 30/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1
[local]PDSN> show port info 23/1
Port: 23/1
Port Type : 10G Ethernet
Role : Service Port
Description : Ingress-Egress Line Card
Controlled By Card : 7 (Packet Services Card 3)
Redundancy Mode : Port Mode
Framing Mode : Unspecified
Redundant With : Not Redundant
Preferred Port : Non-Revertive
Physical ifIndex : 385941504
Administrative State : Enabled
Configured Duplex : Auto
Configured Speed : Auto
Configured Flow Control : Enabled
MAC Address : 00-05-47-02-A6-96
Link State : Up
Link Duplex : Full
Link Speed : 10 Gb
Flow Control : Enabled
Link Aggregation Group : 50 (global, member)
Link Aggregation LACP : Active, Short, Auto
Link Aggregation Master : 19/1
Link Aggregation State : Agreed with LACP peer
Link Aggregation Actor : (8000,00-05-47-02-B1-97,001A,8000,1701)
Link Aggregation Peer : (007F,64-87-88-67-87-C0,0016,007F,0013)
Logical ifIndex : 385941505
Operational State : Up, Active
SFP Module : Present (10G Base SR)
[local]PDSN>show card diag 23
Card 23:
Counters:
In Service Date : Tue Aug 24 06:58:31 2010 (Estimated)
Status:
IDEEPROM Magic Number : Good
Card Diagnostics : Pass
Current Failure : None
Last Failure : None
Card Usable : Yes
Current Environment:
Temperature: Card : 48 C (limit 90 C)
Temperature: LM87 : 49 C (limit 85 C)
Temperature: PHY : 48 C (limit 90 C)
Voltage: 1.2V : 1.205 V (min 1.140 V, max 1.260 V)
Voltage: 1.2V : 1.205 V (min 1.140 V, max 1.260 V)
Voltage: 2.5V : 2.522 V (min 2.375 V, max 2.625 V)
Voltage: 3.3V : 3.285 V (min 3.135 V, max 3.465 V)
Voltage: 1.8V : 1.805 V (min 1.710 V, max 1.890 V)
Les compteurs de liaison de données n'ont pas présenté de problème :
[local]PDSN# show port datalink counters 23/1 Counters for port 23/1: Line Card 10 Gigabit Ethernet Port Rx Counter Data | Tx Counter Data ----------------------- -------------- + ----------------------- ------------- RX Unicast frames 3782 | TX Unicast frames 6043 RX Multicast frames 3782 | TX Multicast frames 0 RX Broadcast frames 0 | TX Broadcast frames 0 RX Size 64 frames 0 | TX Size 64 frames 0 RX Size 65 .. 127 fr 0 | TX Size 65 .. 127 fr 6043 RX Size 128 .. 255 fr 3782 | TX Size 128 .. 255 fr 0 RX Size 256 .. 511 fr 0 | TX Size 256 .. 511 fr 0 RX Size 512 .. 1023 fr 0 | TX Size 512 .. 1023 fr 0 RX Size 1024 .. 1518 fr 0 | TX Size 1024 .. 1518 fr 0 RX Size > 1518 frames 0 | TX Size > 1518 frames 0 RX Bytes OK 483456 | TX Bytes OK 748092 RX Bytes BAD 0 | TX Bytes BAD 0 RX SHORT OK 0 | TX PAUSE 0 RX SHORT CRC 0 | TX ERR 0 RX OVF 0 | RX NORM CRC 0 | RX LONG OK 0 | RX LONG CRC 0 | RX PAUSE 0 | RX FALS CRS 0 | RX SYM ERR 0 | SPI RX LEN ERR CNT 0 | SPI TX LEN ERR CNT 0 SPI RX DIP2 ERR CNT 0 | SPI TX DIP4 ERR CNT 0 SPI RX STAT OOF ERR CNT 0 | SPI TX DATA OOF ERR CNT 0 RX MAC ERR CNT 0 | RX FIFO CORR ECC ERR 0 | TX FIFO CORR ECC ERR 0 RX FIFO UNRECOV ECC ERR 0 | TX FIFO UNRECOV ECC ERR 0 RX Disc frames 0 | TX Disc frames 0 RX Disc Bytes 0 | TX Disc Bytes 0 RX ERR frames 0 | TX ERR frames 0 RX SPI FRAME COUNT 3782 | TX SPI FRAME COUNT 6044 RX SPI LEN ERR 0 | TX SPI LEN ERR 0 RX SPI DIP 2 ERR 0 | TX SPI DIP 4 ERR 0 RX SPI STATUS OOF ERR 0 | TX SPI DATA OOF ERR 0 RX FIFO OVERFLOW 0 | TX FIFO FULL DROP 0 RX PAUSE COUNT 0 | TX DIP 4 PACKET DROP 0 SPI EOP/ABORT 0 | RX FRAGMENTS COUNT 0 | RX MAC ERR 0 | RX JABBER COUNT 0 | ----------------------- -------------- + ----------------------- -------------
Les compteurs NPU étaient également OK. Voici les compteurs du port 23/1 quelques secondes plus tard et rien de mal ne s'incrémente :
[local]PDSN# show port datalink counters 23/1 Counters for port 23/1: Line Card 10 Gigabit Ethernet Port Rx Counter Data | Tx Counter Data ----------------------- -------------- + ----------------------- ------------- RX Unicast frames 3802 | TX Unicast frames 6066 RX Multicast frames 3802 | TX Multicast frames 0 RX Broadcast frames 0 | TX Broadcast frames 0 RX Size 64 frames 0 | TX Size 64 frames 0 RX Size 65 .. 127 fr 0 | TX Size 65 .. 127 fr 6066 RX Size 128 .. 255 fr 3802 | TX Size 128 .. 255 fr 0 RX Size 256 .. 511 fr 0 | TX Size 256 .. 511 fr 0 RX Size 512 .. 1023 fr 0 | TX Size 512 .. 1023 fr 0 RX Size 1024 .. 1518 fr 0 | TX Size 1024 .. 1518 fr 0 RX Size > 1518 frames 0 | TX Size > 1518 frames 0 RX Bytes OK 486016 | TX Bytes OK 750944 RX Bytes BAD 0 | TX Bytes BAD 0 RX SHORT OK 0 | TX PAUSE 0 RX SHORT CRC 0 | TX ERR 0 RX OVF 0 | RX NORM CRC 0 | RX LONG OK 0 | RX LONG CRC 0 | RX PAUSE 0 | RX FALS CRS 0 | RX SYM ERR 0 | SPI RX LEN ERR CNT 0 | SPI TX LEN ERR CNT 0 SPI RX DIP2 ERR CNT 0 | SPI TX DIP4 ERR CNT 0 SPI RX STAT OOF ERR CNT 0 | SPI TX DATA OOF ERR CNT 0 RX MAC ERR CNT 0 | RX FIFO CORR ECC ERR 0 | TX FIFO CORR ECC ERR 0 RX FIFO UNRECOV ECC ERR 0 | TX FIFO UNRECOV ECC ERR 0 RX Disc frames 0 | TX Disc frames 0 RX Disc Bytes 0 | TX Disc Bytes 0 RX ERR frames 0 | TX ERR frames 0 RX SPI FRAME COUNT 3802 | TX SPI FRAME COUNT 6067 RX SPI LEN ERR 0 | TX SPI LEN ERR 0 RX SPI DIP 2 ERR 0 | TX SPI DIP 4 ERR 0 RX SPI STATUS OOF ERR 0 | TX SPI DATA OOF ERR 0 RX FIFO OVERFLOW 0 | TX FIFO FULL DROP 0 RX PAUSE COUNT 0 | TX DIP 4 PACKET DROP 0 SPI EOP/ABORT 0 | RX FRAGMENTS COUNT 0 | RX MAC ERR 0 | RX JABBER COUNT 0 |
Mais la commande de support technique « show lag event » a montré des événements continus sur le port 23/1. C'est la meilleure façon de voir le problème signalé.
[local]PDSN> show lag event lagmgr event history [4096/4096] May 15 18:36:57.222 50 23/01 New MUX State: DETACHED May 15 18:36:57.222 50 23/01 SYNC cleared May 15 18:36:57.222 50 23/01 COLL disabled May 15 18:36:58.212 50 23/01 New MUX State: WAITING May 15 18:36:58.223 50 23/01 LACP State Change: 0x07:ACTV:TIMO:AGGR ...
La prochaine fenêtre de maintenance, Cisco a contacté et une migration PSC a été effectuée pour remettre les mappages de cartes au mappage par défaut (de sorte que le PSC soit mappé à la carte de ligne physiquement derrière : 7 + 16 = 23), car une migration a été effectuée avant de contacter Cisco.
[local]PDSN card migrate from 16 to 7 Are you sure? [Yes|No]: yes [local]PDSN# show port table | grep LA 17/1 Srvc 10G Ethernet Enabled Up Up Active None LA~ 19/1 18/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1 19/1 Srvc 10G Ethernet Enabled - Up - None LA~ 19/1 20/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1 23/1 Srvc 10G Ethernet Enabled Up Up Active None LA~ 19/1 26/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1 27/1 Srvc 10G Ethernet Enabled Up Up Active None LA~ 19/1 28/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1 29/1 Srvc 10G Ethernet Enabled Up Up Active None LA~ 19/1 30/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1 [local]PDSN# show rct stats RCT stats Details (Last 8 Actions) Action Type From To Start Time Duration ----------------- --------- ---- ---- ------------------------ ---------- Migration Planned 10 15 2015-Jan-12+07:02:33.842 32.911 sec Shutdown N/A 10 0 2015-Jan-12+07:08:35.098 0.218 sec Migration Planned 16 10 2015-Jan-12+07:19:40.842 32.451 sec Shutdown N/A 1 16 2015-Mar-19+05:00:54.430 1.368 sec Migration Planned 16 1 2015-Mar-27+06:05:48.902 19.085 sec Shutdown N/A 16 0 2015-Mar-27+06:13:00.397 0.027 sec Migration Planned 7 16 2015-May-16+07:04:51.264 37.629 sec Migration Planned 16 7 2015-May-16+08:39:48.761 Unfinished RCT stats Summary ----------------- Migrations = 5, Average time = 30.519 sec Switchovers = 0 Migration Planned 16 7 2015-May-16+08:39:48.761 43.248 sec
Sat May 16 08:40:33 2015 Internal trap notification 1257 (MigrateComplete) from card 16 to card 7
Un redémarrage de la carte de ligne 23 a été effectué :
[local]PDSN# card reboot 23 Are you sure? [Yes|No]: yes
Sat May 16 08:41:38 2015 Internal trap notification 4 (CardRebootRequest) card
23 type 10 Gig Ethernet Line Card
Sat May 16 08:41:44 2015 Internal trap notification 1025 (PortUp) card 23 port 1
port type 10G Ethernet
Sat May 16 08:41:44 2015 Internal trap notification 1502 (EntStateOperEnabled)
Port(23/1) Admin state:"Unlocked", Alarm severity:"No active alarm"
Sat May 16 08:41:44 2015 Internal trap notification 55 (CardActive) card 23 type
10 Gig Ethernet Line Card
Le port est maintenant en bon état :
[local]PDSN# show port table | grep LA 17/1 Srvc 10G Ethernet Enabled Up Up Active None LA~ 19/1 18/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1 19/1 Srvc 10G Ethernet Enabled - Up - None LA~ 19/1 20/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1 23/1 Srvc 10G Ethernet Enabled Up Up Active None LA~ 19/1 26/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1 27/1 Srvc 10G Ethernet Enabled Up Up Active None LA~ 19/1 28/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1 29/1 Srvc 10G Ethernet Enabled Up Up Active None LA~ 19/1 30/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1
Mais le côté Juniper avait encore des erreurs (aucun résultat n'est montré ici).
La question n'a toujours pas été réglée du côté de Juniper.
La fibre a ensuite été déplacée de 23/1 à 17/1 et l'erreur est restée avec 23/1 et a été déplacée vers un autre port du côté de Juniper.
Sat May 16 08:46:28 2015 Internal trap notification 1024 (PortDown) card 17 port
1 port type 10G Ethernet Sat May 16 08:46:28 2015 Internal trap notification 93 (CardStandby) card 17
type 10 Gig Ethernet Line Card Sat May 16 08:46:31 2015 Internal trap notification 1024 (PortDown) card 23 port
1 port type 10G Ethernet Sat May 16 08:46:31 2015 Internal trap notification 93 (CardStandby) card 23
type 10 Gig Ethernet Line Card
Sat May 16 08:46:33 2015 Internal trap notification 1025 (PortUp) card 23 port 1
port type 10G Ethernet Sat May 16 08:46:33 2015 Internal trap notification 55 (CardActive) card 23 type
10 Gig Ethernet Line Card Sat May 16 08:46:40 2015 Internal trap notification 1025 (PortUp) card 17 port 1
port type 10G Ethernet Sat May 16 08:46:40 2015 Internal trap notification 55 (CardActive) card 17 type
10 Gig Ethernet Line Card
Les fibres ont été déplacées à l'emplacement d'origine et le problème était toujours lié au port 23/1 (tout cela du point de vue de Juniper parce que, comme mentionné ci-dessus, le problème n'était plus visible sur l'ASR 5000 après le redémarrage de la carte de ligne 23).
Sat May 16 08:51:53 2015 Internal trap notification 1024 (PortDown) card 23 port
1 port type 10G Ethernet Sat May 16 08:51:53 2015 Internal trap notification 93 (CardStandby) card 23
type 10 Gig Ethernet Line Card Sat May 16 08:51:57 2015 Internal trap notification 1024 (PortDown) card 17 port
1 port type 10G Ethernet Sat May 16 08:51:57 2015 Internal trap notification 93 (CardStandby) card 17
type 10 Gig Ethernet Line Card Sat May 16 08:51:58 2015 Internal trap notification 1025 (PortUp) card 23 port 1
port type 10G Ethernet Sat May 16 08:51:58 2015 Internal trap notification 55 (CardActive) card 23 type
10 Gig Ethernet Line Card Sat May 16 08:51:59 2015 Internal trap notification 1025 (PortUp) card 17 port 1
port type 10G Ethernet
Sat May 16 08:51:59 2015 Internal trap notification 55 (CardActive) card 17 type
10 Gig Ethernet Line Card
Le remplacement des SFP entre 23/1 et 17/1 n'a rien changé.
Sat May 16 08:52:50 2015 Internal trap notification 1024 (PortDown) card 23 port
1 port type 10G Ethernet Sat May 16 08:52:50 2015 Internal trap notification 93 (CardStandby) card 23
type 10 Gig Ethernet Line Card Sat May 16 08:52:58 2015 Internal trap notification 1024 (PortDown) card 17 port
1 port type 10G Ethernet Sat May 16 08:52:59 2015 Internal trap notification 93 (CardStandby) card 17
type 10 Gig Ethernet Line Card Sat May 16 08:53:46 2015 Internal trap notification 1025 (PortUp) card 17 port 1
port type 10G Ethernet Sat May 16 08:53:46 2015 Internal trap notification 55 (CardActive) card 17 type
10 Gig Ethernet Line Card Sat May 16 08:53:53 2015 Internal trap notification 1025 (PortUp) card 23 port 1
port type 10G Ethernet Sat May 16 08:53:53 2015 Internal trap notification 55 (CardActive) card 23 type
10 Gig Ethernet Line Card
Une nouvelle carte de ligne 23/1 a résolu le problème du côté de Juniper.
Sat May 16 08:55:39 2015 Internal trap notification 1024 (PortDown) card 23 port
1 port type 10G Ethernet Sat May 16 08:55:39 2015 Internal trap notification 35 (PortLinkDown) ifindex
385941505 adminstate Disabled operstate Down Sat May 16 08:55:39 2015 Internal trap notification 1504 (CiscoFruCardStatusChanged) FRU entity Card : 23 operational status changed to
Offline Sat May 16 08:55:39 2015 Internal trap notification 60 (CardDown) card 23 type
10 Gig Ethernet Line Card Sat May 16 08:55:39 2015 Internal trap notification 1503 (EntStateOperDisabled)
Card(23) Admin state:"Locked", Alarm severity:"Critical" Sat May 16 08:55:39 2015 Internal trap notification 140 (CardSPOFClear) card 23
type 10 Gig Ethernet Line Card Sat May 16 08:55:40 2015 Internal trap notification 84 (ServiceLossLC) Slots 23
and 39 has configured for card type 10 Gig Ethernet Line Card, but neither active
Sat May 16 08:55:41 2015 Internal trap notification 1505
(CiscoFruPowerStatusChanged) FRU entity Card : 23 Power OFF Sat May 16 08:55:41 2015 Internal trap notification 1504
(CiscoFruCardStatusChanged) FRU entity Card : 23 operational status changed to
Empty Sat May 16 08:55:41 2015 Internal trap notification 7 (CardRemoved) card 23 type
10 Gig Ethernet Line Card Sat May 16 08:55:41 2015 Internal trap notification 1507 (CiscoFruRemoved) FRU
entity Card : 23 removed Sat May 16 08:55:41 2015 Internal trap notification 1505
(CiscoFruPowerStatusChanged) FRU entity Card : 23 Power OFF Sat May 16 08:56:19 2015 Internal trap notification 1505
(CiscoFruPowerStatusChanged) FRU entity Card : 23 Power ON Sat May 16 08:56:21 2015 Internal trap notification 1504
(CiscoFruCardStatusChanged) FRU entity Card : 23 operational status changed to
Offline Sat May 16 08:56:21 2015 Internal trap notification 8 (CardInserted) card 23
type 10 Gig Ethernet Line Card Sat May 16 08:56:21 2015 Internal trap notification 1506 (CiscoFruInserted) FRU
entity Card : 23 inserted Sat May 16 08:56:23 2015 Internal trap notification 1504
(CiscoFruCardStatusChanged) FRU entity Card : 23 operational status changed to
Ready Sat May 16 08:56:23 2015 Internal trap notification 5 (CardUp) card 23 type 10
Gig Ethernet Line Card Sat May 16 08:56:23 2015 Internal trap notification 1502 (EntStateOperEnabled)
Card(23) Admin state:"Unlocked", Alarm severity:"No active alarm" Sat May 16 08:56:25 2015 Internal trap notification 1504 (CiscoFruCardStatusChanged) FRU entity Card : 23 operational status changed to
Active Sat May 16 08:56:25 2015 Internal trap notification 55 (CardActive) card 23 type
10 Gig Ethernet Line Card Sat May 16 08:56:26 2015 Internal trap notification 1111 (ServiceLossLCClear)
Slots 23 and 39 has configured for card type 10 Gig Ethernet Line Card, one of
them is active now Sat May 16 08:56:26 2015 Internal trap notification 93 (CardStandby) card 23
type 10 Gig Ethernet Line Card Sat May 16 08:56:28 2015 Internal trap notification 1025 (PortUp) card 23 port 1
port type 10G Ethernet Sat May 16 08:56:28 2015 Internal trap notification 1502 (EntStateOperEnabled)
Port(23/1) Admin state:"Unlocked", Alarm severity:"No active alarm" Sat May 16 08:56:28 2015 Internal trap notification 55 (CardActive) card 23 type
10 Gig Ethernet Line Card
Dans cet exemple suivant, plusieurs des mêmes étapes de dépannage ont été appliquées et méritent d'être étudiées. Il a commencé avec des journaux d'avertissement resmgr 14537 inconnus signalés avec un renvoi du port 25/1, mais a évolué en un problème de port 27/1 et une augmentation des échecs de configuration des appels.
2015-May-03+05:29:21.083 [resmgr 14537 warning] [8/0/4643 <rmmgr:80>
_resource_cpu.c:4974] [software internal system critical-info syslog] The CPU
8/0's network i/f cpeth0 is receiving 803.7 Mbit/sec over the past 5 min.
L'utilisation des ports était inégale sur le port 27/1 :
[local]PDSN# show port utilization table Monday May 04 17:49:02 UTC 2015 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 1058 1049 1034 1050 1022 1042 20/1 10G Ethernet 0 0 0 0 0 0 23/1 10G Ethernet 1108 1064 1114 1033 1102 1032 26/1 10G Ethernet 0 0 0 0 0 0 27/1 10G Ethernet 1002 2472 989 2456 981 2440 28/1 10G Ethernet 0 0 0 0 0 0
Du côté Juniper MX-960 de l'interface PDSN en question, les erreurs d'entrée ont augmenté de façon constante :
show interfaces xe-0/1/2 extensive | grep Error BPDU Error: None, MAC-REWRITE Error: None, Loopback: None, Input errors: Errors: 2432742, Drops: 0, Framing errors: 0, Runts: 0, Policed discards: 0,
L3 incompletes: 2432742, L2 channel errors: 0, L2 mismatch timeouts: 0,
FIFO errors: 0, Resource errors: 0 Output errors: Carrier transitions: 1, Errors: 0, Drops: 0, Collisions: 0, Aged packets: 0,
FIFO errors: 0, HS link CRC errors: 0, MTU errors: 0, Resource errors: 0 Bit errors 0 Errored blocks 1 CRC/Align errors 0 0 FIFO errors 0 0 Total errors 0 0 Output packet error count 0 {master} show interfaces xe-0/1/2 extensive | grep Error BPDU Error: None, MAC-REWRITE Error: None, Loopback: None, Input errors: Errors: 2432851, Drops: 0, Framing errors: 0, Runts: 0, Policed discards: 0,
L3 incompletes: 2432851, L2 channel errors: 0, L2 mismatch timeouts: 0, FIFO errors: 0, Resource errors: 0 Output errors: Carrier transitions: 1, Errors: 0, Drops: 0, Collisions: 0, Aged packets: 0, FIFO errors: 0, HS link CRC errors: 0, MTU errors: 0, Resource errors: 0 Bit errors 0 Errored blocks 1 CRC/Align errors 0 0 FIFO errors 0 0 Total errors 0 0 Output packet error count 0
Les ports du PDSN ont été nettoyés et, par conséquent, il y a eu une commutation LAG et le déséquilibre des ports a disparu sur les ports nouvellement actifs (même numérotés), ainsi que les erreurs du côté Juniper s'arrêtant. Les erreurs CHAP et LCP précédemment détectées liées aux configurations d'appels IP mobiles se sont également arrêtées.
[local]PDSN# show port utilization table Thursday May 07 15:27:46 UTC 2015 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ---
19/1 10G Ethernet 0 0 0 0 0 0 20/1 10G Ethernet 908 875 901 879 904 884 23/1 10G Ethernet 0 0 0 0 0 0 26/1 10G Ethernet 916 857 922 856 929 861 27/1 10G Ethernet 0 0 0 0 0 0 28/1 10G Ethernet 835 883 838 880 844 889 37/1 1000 Ethernet 0 0 0 0 0 0 [local]PDSN# show port table
Thursday May 07 15:22:11 UTC 2015
Port Role Type Admin Oper Link State Pair Redundant
----- ---- ------------------------ -------- ---- ---- ------- ----- ----
19/1 Srvc 10G Ethernet Enabled - Up - None LA~ 19/1
20/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1
21/1 Srvc 1000 Ethernet Enabled - Up - 37/1 L2 Link
23/1 Srvc 10G Ethernet Enabled Up Up Active None LA~ 19/1
24/1 Mgmt 1000 Ethernet Dual Media Enabled Up Up Active 25/1 L2 Link
24/2 Mgmt 1000 Ethernet Dual Media Disabled Down Down Active 25/2 L2 Link
24/3 Mgmt RS232 Serial Console Enabled Down Down Active 25/3 L2 Link
24/4 Mgmt BITS T1/E1 Timing Disabled Down Down Active 25/4 L2 Link
25/1 Mgmt 1000 Ethernet Dual Media Enabled Down Up Standby 24/1 L2 Link
25/2 Mgmt 1000 Ethernet Dual Media Disabled Down Down Standby 24/2 L2 Link
25/3 Mgmt RS232 Serial Console Enabled Down Down Standby 24/3 L2 Link
25/4 Mgmt BITS T1/E1 Timing Disabled Down Down Standby 24/4 L2 Link
26/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1
27/1 Srvc 10G Ethernet Enabled Up Up Active None LA~ 19/1
28/1 Srvc 10G Ethernet Enabled Up Up Active None LA+ 19/1
37/1 Srvc 1000 Ethernet Enabled - Up - 21/1 L2 Link
Après avoir réinitialisé les statistiques de port et renvoyé le LAG aux ports impairs, les erreurs d'entrée sur le Juniper ont recommencé à augmenter. Comme le chemin avait déjà été nettoyé, il a été décidé de contourner complètement le chemin existant, en remplaçant les deux SFP (port 0/1/2 sur le Juniper et port 27/1 sur le PDSN) et en exécutant une fibre directement entre les noeuds. Une fois que le trafic a été renvoyé à un LAG impair, les erreurs d’entrée ont continué à s’incrémenter exactement comme cela a été observé avec le chemin existant. L'utilisation des ports est également revenue à un déséquilibre sur le port 27.
show interfaces xe-0/1/2 extensive | grep Error
BPDU Error: None, MAC-REWRITE Error: None, Loopback: None,
Input errors:
Errors: 2898, Drops: 0, Framing errors: 114, Runts: 0, Policed discards: 0,
L3 incompletes: 2784, L2 channel errors: 0, L2 mismatch timeouts: 0,
FIFO errors: 0, Resource errors: 0
Comme les SFP et la fibre étaient tous deux complètement nouveaux et que le chemin était une ligne droite entre les noeuds, il semblerait que les erreurs d'entrée commencent en amont des fibres, peut-être dans le PDSN XCLC 27. Le trafic a échoué jusqu'aux ports pair pour arrêter l'impact pour le moment avant de décider des prochaines étapes. Juniper a confirmé les paquets IPv4/IPv6 défectueux à partir du port ASR 27.
Dans une fenêtre de maintenance ultérieure, les fibres ont été échangées entre les ports 23 et 27 :
Mon May 11 05:33:52 2015 Internal trap notification 1024 (PortDown) card 23 port
1 port type 10G Ethernet Mon May 11 05:33:52 2015 Internal trap notification 93 (CardStandby) card 23
type 10 Gig Ethernet Line Card Mon May 11 05:34:12 2015 Internal trap notification 1024 (PortDown) card 27 port
1 port type 10G Ethernet Mon May 11 05:34:12 2015 Internal trap notification 93 (CardStandby) card 27
type 10 Gig Ethernet Line Card Mon May 11 05:34:13 2015 Internal trap notification 1025 (PortUp) card 27 port 1
port type 10G Ethernetalarm" Mon May 11 05:34:13 2015 Internal trap notification 55 (CardActive) card 27 type
10 Gig Ethernet Line Card Mon May 11 05:34:14 2015 Internal trap notification 1024 (PortDown) card 27 port
1 port type 10G Ethernet Mon May 11 05:34:14 2015 Internal trap notification 93 (CardStandby) card 27
type 10 Gig Ethernet Line Card Mon May 11 05:34:20 2015 Internal trap notification 1025 (PortUp) card 27 port 1
port type 10G Ethernet Mon May 11 05:34:21 2015 Internal trap notification 55 (CardActive) card 27 type
10 Gig Ethernet Line Card Mon May 11 05:34:58 2015 Internal trap notification 1025 (PortUp) card 23 port 1
port type 10G Ethernet Mon May 11 05:34:58 2015 Internal trap notification 55 (CardActive) card 23 type
10 Gig Ethernet Line Card
Et après qu'un port de commutation LAG 27 a continué à envoyer des erreurs et le déséquilibre de port.
Mon May 11 05:37:20 2015 Internal trap notification 1204 (LAGGroupDown) card:19,
port:1, partner:(007F,2C-21-72-5E-57-C0,0016) Mon May 11 05:37:20 2015 Internal trap notification 1205 (LAGGroupUp) card:19,
port:1, partner:(007F,2C-21-72-1A-B7-C0,0016) [local]NWBLWICZPN2 DO-PDSN> show port utilization table
Monday May 11 05:40:06 UTC 2015
------ Average Port Utilization (in mbps) ------
Port Type Current 5min 15min
Rx Txx Rx Tx Rx Tx
----- ------------------------ ------- ------- ------- ------- ------- ----
19/1 10G Ethernet 357 386 137 138 45 46
20/1 10G Ethernet 0 0 178 168 314 301
23/1 10G Ethernet 346 349 173 185 57 61
26/1 10G Ethernet 0 0 197 189 324 316
27/1 10G Ethernet 404 1921 147 701 49 233
28/1 10G Ethernet 0 0 207 226 299 318 Mon May 11 05:40:42 2015 Internal trap notification 39 (AAAAuthSvrUnreachable)
server 1 ip address 209.165.200.225 Mon May 11 05:41:05 2015 Internal trap notification 40 (AAAAuthSvrReachable)
server 1 ip address 209.165.200.225 Mon May 11 05:41:42 2015 Internal trap notification 39 (AAAAuthSvrUnreachable)
server 1 ip address 209.165.200.225 Mon May 11 05:42:05 2015 Internal trap notification 40 (AAAAuthSvrReachable)
server 1 ip address 209.165.200.225 Mon May 11 05:49:42 2015 Internal trap notification 39 (AAAAuthSvrUnreachable)
server 1 ip address 209.165.200.225 Mon May 11 05:50:04 2015 Internal trap notification 40 (AAAAuthSvrReachable)
server 1 ip address 209.165.200.225 Mon May 11 05:52:42 2015 Internal trap notification 39 (AAAAuthSvrUnreachable)
server 1 ip address 209.165.200.225 Mon May 11 05:53:05 2015 Internal trap notification 40 (AAAAuthSvrReachable)
server 1 ip address 209.165.200.225 Mon May 11 05:54:29 2015 Internal trap notification 1204 (LAGGroupDown) card:19,
port:1, partner:(007F,2C-21-72-1A-B7-C0,0016) Mon May 11 05:54:29 2015 Internal trap notification 1205 (LAGGroupUp) card:19,
port:1, partner:(007F,2C-21-72-5E-57-C0,0016)
Les fibres ont été échangées :
Mon May 11 05:59:38 2015 Internal trap notification 1024 (PortDown) card 23 port
1 port type 10G Ethernet Mon May 11 05:59:38 2015 Internal trap notification 93 (CardStandby) card 23
type 10 Gig Ethernet Line Card Mon May 11 05:59:43 2015 Internal trap notification 1024 (PortDown) card 27 port
1 port type 10G Ethernet Mon May 11 05:59:43 2015 Internal trap notification 93 (CardStandby) card 27
type 10 Gig Ethernet Line Card Mon May 11 05:59:46 2015 Internal trap notification 1025 (PortUp) card 23 port 1
port type 10G Ethernet Mon May 11 05:59:46 2015 Internal trap notification 55 (CardActive) card 23 type
10 Gig Ethernet Line Card Mon May 11 05:59:54 2015 Internal trap notification 1025 (PortUp) card 27 port 1
port type 10G Ethernet Mon May 11 05:59:54 2015 Internal trap notification 55 (CardActive) card 27 type
10 Gig Ethernet Line Card
XCLC 27 a été réinstallé :
Mon May 11 06:02:02 2015 Internal trap notification 1024 (PortDown) card 27 port
1 port type 10G Ethernet Mon May 11 06:02:02 2015 Internal trap notification 60 (CardDown) card 27 type
10 Gig Ethernet Line Card Mon May 11 06:02:04 2015 Internal trap notification 7 (CardRemoved) card 27 type
10 Gig Ethernet Line Card Mon May 11 06:03:04 2015 Internal trap notification 8 (CardInserted) card 27
type 10 Gig Ethernet Line Card Mon May 11 06:03:06 2015 Internal trap notification 5 (CardUp) card 27 type 10
Gig Ethernet Line Card Mon May 11 06:03:08 2015 Internal trap notification 55 (CardActive) card 27 type 10 Gig Ethernet Line Card Mon May 11 06:03:09 2015 Internal trap notification 93 (CardStandby) card 27
type 10 Gig Ethernet Line Card Mon May 11 06:03:11 2015 Internal trap notification 1025 (PortUp) card 27 port 1
port type 10G Ethernet Mon May 11 06:03:11 2015 Internal trap notification 55 (CardActive) card 27 type
10 Gig Ethernet Line Card
Le LAG a été rendu actif à nouveau et le problème était toujours visible.
Mon May 11 06:08:21 2015 Internal trap notification 1204 (LAGGroupDown) card:19,
port:1, partner:(007F,2C-21-72-5E-57-C0,0016) Mon May 11 06:08:21 2015 Internal trap notification 1205 (LAGGroupUp) card:19,
port:1, partner:(007F,2C-21-72-1A-B7-C0,0016) Mon May 11 06:12:42 2015 Internal trap notification 39 (AAAAuthSvrUnreachable)
server 1 ip address 209.165.200.225 Mon May 11 06:13:04 2015 Internal trap notification 40 (AAAAuthSvrReachable)
server 1 ip address 209.165.200.225 Mon May 11 06:14:42 2015 Internal trap notification 39 (AAAAuthSvrUnreachable)
server 1 ip address 209.165.200.225 Mon May 11 06:15:05 2015 Internal trap notification 40 (AAAAuthSvrReachable)
server 1 ip address 209.165.200.225 Mon May 11 06:15:42 2015 Internal trap notification 39 (AAAAuthSvrUnreachable)
server 1 ip address 209.165.200.225 Mon May 11 06:16:07 2015 Internal trap notification 40 (AAAAuthSvrReachable)
server 1 ip address 209.165.200.225
Une migration PSC de PSC 11 (se trouve derrière la carte de ligne 27) vers 16 élimine le problème lorsque le LAG passe à des ports pairs (prévu).
Mon May 11 06:26:03 2015 Internal trap notification 1256 (MigrateStart) from
card 11 to card 16 Mon May 11 06:26:40 2015 Internal trap notification 1024 (PortDown) card 27 port
1 port type 10G Ethernet Mon May 11 06:26:40 2015 Internal trap notification 55 (CardActive) card 27 type
10 Gig Ethernet Line Card Mon May 11 06:26:41 2015 Internal trap notification 55 (CardActive) card 16 type
Packet Services Card 3 Mon May 11 06:26:41 2015 Internal trap notification 55 (CardActive) card 40 type
Redundancy Crossbar Card Mon May 11 06:26:41 2015 Internal trap notification 55 (CardActive) card 41 type
Redundancy Crossbar Card Mon May 11 06:26:41 2015 Internal trap notification 60 (CardDown) card 11 type
Packet Services Card 3 Mon May 11 06:26:42 2015 Internal trap notification 1257 (MigrateComplete) from
card 11 to card 16 Mon May 11 06:26:42 2015 Internal trap notification 1025 (PortUp) card 27 port 1
port type 10G Ethernet Mon May 11 06:27:55 2015 Internal trap notification 5 (CardUp) card 11 type
Packet Services Card 3 Mon May 11 06:27:55 2015 Internal trap notification 93 (CardStandby) card 11
type Packet Services Card 3
PSC 11 a été réinstallé puis redémarré (ce dernier devrait être inutile)
Mon May 11 06:39:48 2015 Internal trap notification 60 (CardDown) card 11 type
Packet Services Card 3 Mon May 11 06:40:00 2015 Internal trap notification 7 (CardRemoved) card 11 type
Packet Services Card 3 Mon May 11 06:40:42 2015 Internal trap notification 13 (CardMismatch) card 11
type Unknown Card (0x00000000) Mon May 11 06:40:45 2015 Internal trap notification 8 (CardInserted) card 11
type Packet Services Card 3 Mon May 11 06:44:57 2015 Internal trap notification 4 (CardRebootRequest) card
11 type Packet Services Card 3 Mon May 11 06:46:44 2015 Internal trap notification 7 (CardRemoved) card 11 type
Packet Services Card 3 Mon May 11 06:46:59 2015 Internal trap notification 8 (CardInserted) card 11
type Packet Services Card 3 Mon May 11 06:50:20 2015 Internal trap notification 5 (CardUp) card 11 type
Packet Services Card 3 Mon May 11 06:50:20 2015 Internal trap notification 93 (CardStandby) card 11
type Packet Services Card 3
La migration a été reportée à PSC 11 et la question a recommencé. Le problème semble avoir été isolé sur PSC 11 connecté à XGLC 27.
Mon May 11 06:51:55 2015 Internal trap notification 1256 (MigrateStart) from
card 16 to card 11 Mon May 11 06:52:37 2015 Internal trap notification 1024 (PortDown) card 27 port
1 port type 10G Ethernet Mon May 11 06:52:37 2015 Internal trap notification 93 (CardStandby) card 40
type Redundancy Crossbar Card Mon May 11 06:52:37 2015 Internal trap notification 93 (CardStandby) card 41
type Redundancy Crossbar Card Mon May 11 06:52:37 2015 Internal trap notification 55 (CardActive) card 27 type
10 Gig Ethernet Line Card Mon May 11 06:52:38 2015 Internal trap notification 55 (CardActive) card 11 type
Packet Services Card 3 Mon May 11 06:52:38 2015 Internal trap notification 60 (CardDown) card 16 type
Packet Services Card 3 Mon May 11 06:52:38 2015 Internal trap notification 1257 (MigrateComplete) from
card 16 to card 11 Mon May 11 06:52:38 2015 Internal trap notification 1025 (PortUp) card 27 port 1
port type 10G Ethernet Mon May 11 06:53:42 2015 Internal trap notification 39 (AAAAuthSvrUnreachable)
server 1 ip address 209.165.200.225 Mon May 11 06:53:52 2015 Internal trap notification 5 (CardUp) card 16 type
Packet Services Card 3 Mon May 11 06:53:52 2015 Internal trap notification 93 (CardStandby) card 16 type Packet Services Card 3 Mon May 11 06:54:07 2015 Internal trap notification 40 (AAAAuthSvrReachable)
server 1 ip address 209.165.200.225
Une migration a été effectuée vers PSC 16 pour résoudre le problème pour le moment jusqu'à ce qu'un remplacement de RMA :
Mon May 11 06:56:07 2015 Internal trap notification 1256 (MigrateStart) from
card 11 to card 16 Mon May 11 06:56:43 2015 Internal trap notification 1024 (PortDown) card 27 port
1 port type 10G Ethernet Mon May 11 06:56:43 2015 Internal trap notification 55 (CardActive) card 27 type
10 Gig Ethernet Line Card Mon May 11 06:56:44 2015 Internal trap notification 55 (CardActive) card 16 type
Packet Services Card 3 Mon May 11 06:56:44 2015 Internal trap notification 55 (CardActive) card 40 type
Redundancy Crossbar Card Mon May 11 06:56:44 2015 Internal trap notification 55 (CardActive) card 41 type
Redundancy Crossbar Card Mon May 11 06:56:44 2015 Internal trap notification 60 (CardDown) card 11 type
Packet Services Card 3 Mon May 11 06:56:44 2015 Internal trap notification 1257 (MigrateComplete) from
card 11 to card 16 Mon May 11 06:56:44 2015 Internal trap notification 1025 (PortUp) card 27 port 1
port type 10G Ethernet Mon May 11 06:57:58 2015 Internal trap notification 5 (CardUp) card 11 type
Packet Services Card 3 [local]PDSN> show rct stats Monday May 11 07:08:26 UTC 2015 RCT stats Details (Last 4 Actions) Action Type From To Start Time Duration ----------------- --------- ---- ---- ------------------------ ----------
Migration Planned 11 16 2015-May-11+06:26:04.373 36.453 sec Shutdown N/A 11 0 2015-May-11+06:39:48.153 0.223 sec Migration Planned 16 11 2015-May-11+06:51:55.785 41.630 sec Migration Planned 11 16 2015-May-11+06:56:08.452 35.037 sec RCT stats Summary ----------------- Migrations = 3, Average time = 37.707 sec Switchovers = 0 [local]PDSN> show card mappings Monday May 11 07:10:22 UTC 2015 Slot Mapping Slot ----------------------------------- -------------- -------------------------- 17 None - 18 None - 19 10 Gig Ethernet Line Card <-- direct --> 3 Packet Services Card 3 20 10 Gig Ethernet Line Card <-- direct --> 4 Packet Services Card 3 21 1000 Ethernet Line Card <-- direct --> 5 Packet Services Card 3 22 None - 23 10 Gig Ethernet Line Card <-- direct --> 7 Packet Services Card 3 24 Switch Processor I/O Card <------------> 8 System Management Card 25 Switch Processor I/O Card <------------> 8 System Management Card 26 10 Gig Ethernet Line Card <-- direct --> 10 Packet Services Card 3 27 10 Gig Ethernet Line Card <--- RCCs ---> 16 Packet Services Card 3 28 10 Gig Ethernet Line Card <-- direct --> 12 Packet Services Card 3
Mais la RMA n'a toujours pas résolu le problème.
[local]PDSN# show port utilization table verbose Tuesday May 12 06:04:57 UTC 2015 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 333.497 331.132 345.255 347.328 354.989 358.539 20/1 10G Ethernet 0.003 0.000 0.003 0.000 0.003 0.000 23/1 10G Ethernet 361.103 334.488 353.180 354.668 363.226 363.388 26/1 10G Ethernet 0.002 0.000 0.002 0.000 0.002 0.000 27/1 10G Ethernet 309.096 1897 335.379 1892 339.740 890 28/1 10G Ethernet 0.003 0.000 0.003 0.000 0.003 0.000 37/1 1000 Ethernet 0.014 0.005 0.014 0.018 0.014 0.016
Il a fallu recharger le châssis pour résoudre finalement le problème. Aucune cause première n'a jamais été déterminée. Mais le point ici est que les étapes de dépannage prises pour tenter de résoudre le problème ont finalement fonctionné avec un rechargement. Parfois, les résultats ne correspondent pas aux attentes initiales en fonction des étapes de dépannage effectuées. On pensait que la RAM allait certainement résoudre le problème, mais ce n'est pas le cas. Néanmoins, des mesures appropriées ont été prises pour éliminer les coupables potentiels.
Un basculement LAG impair vers des ports pairs (19, 23, 27 => 20, 26, 28) ne se maintiendrait pas et reviendrait dans une minute. Cela peut impliquer un problème avec un ou plusieurs ports LAG ne pouvant pas maintenir la connexion. Notez la diminution de l'utilisation des ports, mais le jeu de données est limité en raison de la courte durée pendant laquelle les ports pairs restent actifs :
[XGWout]XGW# show port util table Thursday April 26 07:17:31 UTC 2012 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 895 907 906 931 939 983 20/1 10G Ethernet 0 0 20 14 6 4 21/1 1000 Ethernet 0 0 0 3 0 3 22/1 1000 Ethernet 3 46 3 46 3 47 23/1 10G Ethernet 948 946 883 917 918 956 26/1 10G Ethernet 0 0 16 11 5 3 27/1 10G Ethernet 949 950 989 934 1029 955 28/1 10G Ethernet 0 0 4 14 1 4 [XGWout]XGW# link-aggregation port switch to 20/1 Thursday April 26 07:20:20 UTC 2012 Are you sure? [Yes|No]: yes Thursday April 26 07:20:22 UTC 2012 2012-Apr-26+07:20:22.826 [lagmgr 179050 warning] [1/0/2337 <lagmgr:0>
lagmgr_state.c:1163] [software internal system critical-info syslog] LAG group
50 (global) with master port 19/1 has changed partner from (007F,00-26-88-8E-
4F-F0,0034) to (007F,00-26-88-A7-FF-F0,0034)
Apr 26 07:21:28 kslxmsce2.msc.vzwnet.com evlogd: [local-60sec28.393]
[lagmgr 179050 warning] [1/0/2337 <lagmgr:0> lagmgr_state.c:1163]
[software internal system critical-info syslog] LAG group 50 (global)
with master port 19/1 has changed partner from
(007F,00-26-88-A7-FF-F0,0034) to (007F,00-26-88-8E-4F-F0,0034) [XGWout]XGW# show port util table Thursday April 26 07:20:46 UTC 2012 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 0 0 896 917 927 965 20/1 10G Ethernet 678 526 45 33 15 11 21/1 1000 Ethernet 0 0 0 3 0 3 22/1 1000 Ethernet 3 45 3 46 3 46 23/1 10G Ethernet 0 0 881 898 903 943 26/1 10G Ethernet 627 442 16 11 5 3 27/1 10G Ethernet 0 0 874 850 980 914 28/1 10G Ethernet 138 436 15 47 5 15 [XGWout]XGW# show port util table Thursday April 26 07:24:58 UTC 2012 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 847 911 742 719 860 874 20/1 10G Ethernet 0 0 137 104 52 39 21/1 1000 Ethernet 0 0 0 4 0 4 22/1 1000 Ethernet 3 48 3 47 3 47 23/1 10G Ethernet 840 804 710 718 837 862 26/1 10G Ethernet 0 0 133 95 50 35 27/1 10G Ethernet 833 814 671 697 883 856 28/1 10G Ethernet 0 0 33 92 12 35
Afin de dépanner plus loin, un des ports LAG (27/1) a été désactivé, forçant la commutation LAG à rester en place et à ne pas revenir (le système ne bascule pas à moins que les ports de basculement aient une capacité supérieure à celle des ports actuellement actifs). Comme vous pouvez le voir ci-dessous, l'utilisation des ports diminue considérablement sur les ports EVEN. Lorsque le port 27/1 est réactivé, le LAG revient aux ports impairs sans intervention en raison de la capacité accrue des ports EVEN.
[local]XGW# show port util table Thursday April 26 08:53:47 UTC 2012 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 670 639 654 609 590 556 20/1 10G Ethernet 0 0 0 0 0 0 21/1 1000 Ethernet 0 20 0 3 0 2 22/1 1000 Ethernet 3 41 3 40 7 83 23/1 10G Ethernet 598 676 574 662 535 585 26/1 10G Ethernet 0 0 0 0 0 0 27/1 10G Ethernet 662 612 658 608 611 585 28/1 10G Ethernet 0 0 0 0 0 0 [local]XGW(config)# port ether 27/1 Thursday April 26 08:53:58 UTC 2012 [local]XGW(config-port-27/1)# shut Thursday April 26 08:54:02 UTC 2012 Thu Apr 26 08:54:02 2012 Internal trap notification 35 (PortLinkDown) card 27
port 1 ifindex 453050368 Thu Apr 26 08:54:02 2012 Internal trap notification 1024 (PortDown) card 27 port 1 ifindex 453050368port type 10G Ethernet Thu Apr 26 08:54:02 2012 Internal trap notification 93 (CardStandby) card 27 [local]XGW# show port util table Thursday April 26 08:54:26 UTC 2012 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 0 0 634 596 625 591 20/1 10G Ethernet 371 278 27 19 9 6 21/1 1000 Ethernet 0 0 0 3 0 2 22/1 1000 Ethernet 3 39 3 40 3 86 23/1 10G Ethernet 0 0 573 654 572 627 26/1 10G Ethernet 346 268 0 0 0 0 28/1 10G Ethernet 107 233 0 0 0 0 [local]XGW# show port util table Thursday April 26 08:57:11 UTC 2012 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 0 0 375 349 552 520 20/1 10G Ethernet 445 342 203 156 67 52 21/1 1000 Ethernet 0 0 0 3 0 2 22/1 1000 Ethernet 4 50 3 42 3 40 23/1 10G Ethernet 0 0 223 260 465 515 26/1 10G Ethernet 390 323 215 169 71 56 28/1 10G Ethernet 214 302 84 148 28 49
[local]XGW# show port util table
Thursday April 26 09:00:18 UTC 2012
------ Average Port Utilization (in mbps) ------
Port Type Current 5min 15min
Rx Tx Rx Tx Rx Tx
----- ------------------------ ------- ------- ------- ------- ------- -------
19/1 10G Ethernet 0 0 0 0 428 401
20/1 10G Ethernet 414 339 410 320 145 113
21/1 1000 Ethernet 0 0 0 2 0 3
22/1 1000 Ethernet 4 56 3 48 3 42
23/1 10G Ethernet 0 0 0 0 345 391
26/1 10G Ethernet 373 307 391 312 147 117
28/1 10G Ethernet 244 287 203 292 71 106
[local]XGW# show port util table
Thursday April 26 09:08:33 UTC 2012
------ Average Port Utilization (in mbps) ------
Port Type Current 5min 15min
Rx Tx Rx Tx Rx Tx
----- ------------------------ ------- ------- ------- ------- ------- -------
19/1 10G Ethernet 0 0 0 0 37 36
20/1 10G Ethernet 346 302 394 315 358 284
21/1 1000 Ethernet 0 11 0 4 0 3
22/1 1000 Ethernet 4 86 4 80 4 59
23/1 10G Ethernet 0 0 0 0 36 41
26/1 10G Ethernet 331 278 354 307 339 281
28/1 10G Ethernet 252 253 245 273 203 255
[local]XGW# config
Thursday April 26 09:08:43 UTC 2012
[local]XGW(config)# port ether 27/1
Thursday April 26 09:08:49 UTC 2012
[local]XGW(config-port-27/1)# no shut
Thursday April 26 09:08:53 UTC 2012
Thu Apr 26 09:08:53 2012 Internal trap notification 55 (CardActive) card 27
Thu Apr 26 09:08:53 2012 Internal trap notification 36 (PortLinkUp) card 27 port
1 ifindex 453050369
Thu Apr 26 09:08:53 2012 Internal trap notification 1025 (PortUp) card 27 port 1
ifindex 453050369port type 10G Ethernet
[local]XGW# show port util table
Thursday April 26 09:10:11 UTC 2012
------ Average Port Utilization (in mbps) ------
Port Type Current 5min 15min
Rx Tx Rx Tx Rx Tx
----- ------------------------ ------- ------- ------- ------- ------- -------
19/1 10G Ethernet 698 656 0 0 0 0
20/1 10G Ethernet 0 0 370 300 395 315
21/1 1000 Ethernet 0 0 0 3 0 3
22/1 1000 Ethernet 3 85 4 88 4 66
23/1 10G Ethernet 618 702 0 0 0 0
26/1 10G Ethernet 0 0 310 270 357 298
27/1 10G Ethernet 681 624 44 36 14 12
28/1 10G Ethernet 0 0 235 251 227 27
Il n'est pas évident sur quel port le problème existe, et l'utilisation de Tx n'est pas si inégale.
« show port npu counters » montre clairement un problème avec le compteur d'erreurs « Bad IPv4 header » augmentant à un taux élevé (et cela ne devrait pas se produire du tout), mais en raison de cette implémentation LAG, basée sur la mise en oeuvre actuelle, tous les compteurs sont cumulatifs pour tous les ports LAG dans un groupe LAG, et donc il ne peut pas être déterminé quel port a le problème - il pourrait être n'importe lequel. (les statistiques de tous les ports combinés se trouvent sous le port maître, dans ce cas 19/1 - les statistiques de tous les ports LAG individuels du groupe LAG n'ont AUCUNE signification et doivent être ignorées).
Mais la commande de support technique « show npu stats debug all_pacs » capture les statistiques NPU sur une base PSC, et ceci montre que le problème est clairement « associé à » PSC 12 et à son XGLC 28 (par défaut) connecté :
******** show npu stats debug all_pacs ******* Thursday April 26 09:01:41 UTC 2012 Line 524176: debug-pkt-drop-invalid-iphdr 3601919 Line 524245: debug-pkt-drop-invalid-iphdr 265 Line 524303: debug-pkt-drop-invalid-iphdr 141 Line 524407: debug-pkt-drop-invalid-iphdr 3468928 Line 524471: debug-pkt-drop-invalid-iphdr 216 Line 524529: debug-pkt-drop-invalid-iphdr 3701708 Line 524595: debug-pkt-drop-invalid-iphdr 6501414 <= NPU debug
stats for slot 12 ******** show port npu counters ******* Thursday April 26 09:01:40 UTC 2012 Counters for port 19/1 Counter Rx Frames Rx Bytes Tx Frames Tx Bytes -------------------- ------------- --------------- ------------- --------------- Bad IPv4 header 6493067 2820637429 n/a n/a ******** show npu stats debug all_pacs ******* Thursday April 26 09:03:36 UTC 2012 Line 985303: debug-pkt-drop-invalid-iphdr 3601919 Line 985372: debug-pkt-drop-invalid-iphdr 292 Line 985430: debug-pkt-drop-invalid-iphdr 141 Line 985534: debug-pkt-drop-invalid-iphdr 3468928 Line 985598: debug-pkt-drop-invalid-iphdr 226 Line 985656: debug-pkt-drop-invalid-iphdr 3701708 Line 985722: debug-pkt-drop-invalid-iphdr 7190387 <= NPU debug
stats for slot 12 (INCREASING) ******** show port npu counters ******* Thursday April 26 09:03:35 UTC 2012 Counters for port 19/1 Counter Rx Frames Rx Bytes Tx Frames Tx Bytes -------------------- ------------- --------------- ------------- --------------- Bad IPv4 header 7182088 3089244876 n/a n/a
La question est toujours de savoir quelle carte est à l'origine de ce problème, le PSC 12 connecté à XGLC 28, ou XGLC 28 lui-même ?
En règle générale, les problèmes liés aux NPU seraient résolus par une migration de PSC de PSC 12 connectée à XGLC 28, ce qui implique un problème avec la PSC. Lorsque cette tentative a été effectuée dans une fenêtre de maintenance ultérieure, elle n'a pas résolu le problème, de même qu'une réinitialisation de carte de ligne et une réinitialisation de npumgr.
Voici les résultats de dépannage de npumgr reset, XGLC 28 reset et de la migration de PSC 12 à 16, ce qui fait que PSC 16 est connecté à XGLC 28 et élimine donc PSC 12 comme problème. Les vérifications de l'augmentation de debug-pkt-drop-Invalid-iphdr ont été effectuées entre chaque étape pour confirmer que le problème n'a pas été résolu. L'arrêt de l'un des ports LAG (27/1) a été effectué pour forcer le basculement d'un LAG à rester commuté à des fins de collecte de données, et une fermeture non autorisée pour le LAG à revenir en arrière une fois les tests effectués.
[local]XGW# show port util table Saturday April 28 05:03:49 UTC 2012 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 2311 2395 2384 2415 2384 2402 20/1 10G Ethernet 0 0 0 0 0 0 21/1 1000 Ethernet 0 9 0 9 0 9 22/1 1000 Ethernet 4 70 4 77 4 73 23/1 10G Ethernet 2230 2224 2222 2293 2202 2268 26/1 10G Ethernet 0 0 0 0 0 0 27/1 10G Ethernet 2496 2433 2505 2427 2440 2381 28/1 10G Ethernet 0 0 0 0 0 0 [local]XGW(config)# port ether 27/1 Saturday April 28 05:04:44 UTC 2012 [local]XGW(config-port-27/1)# shutdown Saturday April 28 05:04:50 UTC 2012 Sat Apr 28 05:04:50 2012 Internal trap notification 35 (PortLinkDown) card 27
port 1 ifindex 453050368 Sat Apr 28 05:04:50 2012 Internal trap notification 1024 (PortDown) card 27 port
1 ifindex 453050368port type 10G Ethernet Sat Apr 28 05:04:50 2012 Internal trap notification 93 (CardStandby) card 27 [local]XGW# show port table all Saturday April 28 05:04:59 UTC 2012 Port Type Admin Oper Link State Redundant ----- ------------------------ -------- ---- ---- ---------------- ----------- 19/1 10G Ethernet Enabled - Up - None ~19/1 Untagged Enabled Up - Active - 20/1 10G Ethernet Enabled Up Up Active None +19/1 [local]XGW# show port util table Saturday April 28 05:05:42 UTC 2012 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 0 0 2150 2182 2311 2333 20/1 10G Ethernet 1488 1064 0 0 0 0 21/1 1000 Ethernet 0 0 0 9 0 10 22/1 1000 Ethernet 4 70 4 72 4 73 23/1 10G Ethernet 0 0 2163 2225 2182 2251 26/1 10G Ethernet 1353 989 94 68 31 22 28/1 10G Ethernet 372 1042 14 41 4 13 [local]XGW# show npu stats debug all-pacs Saturday April 28 05:07:28 UTC 2012 NPU debug stats for slot 12 debug-pkt-drop-invalid-iphdr 10786357 [local]XGW# show npu stats debug all-pacs Saturday April 28 05:07:47 UTC 2012 NPU debug stats for slot 12 debug-pkt-drop-invalid-iphdr 10966718 [local]XGW# task kill facility npumgr instance 12 Saturday April 28 05:33:18 UTC 2012 Sat Apr 28 05:33:18 2012 Internal trap notification 73 (ManagerFailure) facility
npumgr instance 12 card 12 cpu 1 Sat Apr 28 05:33:18 2012 Internal trap notification 150 (TaskFailed) facility
npumgr instance 12 on card 12 cpu 1 Sat Apr 28 05:33:26 2012 Internal trap notification 35 (PortLinkDown) card 28
port 1 ifindex 469827585 Sat Apr 28 05:33:26 2012 Internal trap notification 1024 (PortDown) card 28 port
1 ifindex 469827585port type 10G Ethernet Sat Apr 28 05:33:26 2012 Internal trap notification 36 (PortLinkUp) card 28 port
1 ifindex 469827585 Sat Apr 28 05:33:26 2012 Internal trap notification 1025 (PortUp) card 28 port 1
ifindex 469827585port type 10G Ethernet [local]XGW# show port util table Saturday April 28 05:34:24 UTC 2012 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 0 0 0 0 0 0 20/1 10G Ethernet 894 723 837 661 935 728 21/1 1000 Ethernet 0 36 0 7 0 7 22/1 1000 Ethernet 4 127 4 78 4 79 23/1 10G Ethernet 0 0 0 0 0 0 26/1 10G Ethernet 906 647 780 571 865 644 28/1 10G Ethernet 356 649 0 0 0 0 [local]XGW# show npu stats debug slot 12 Saturday April 28 05:35:16 UTC 2012 NPU debug stats for slot 12 debug-pkt-drop-invalid-iphdr 540273 [local]XGW# show npu stats debug slot 12 Saturday April 28 05:35:38 UTC 2012 NPU debug stats for slot 12 debug-pkt-drop-invalid-iphdr 692665 Sat Apr 28 05:38:49 2012 Internal trap notification 35 (PortLinkDown) card 28
port 1 ifindex 469827584 Sat Apr 28 05:38:49 2012 Internal trap notification 1024 (PortDown) card 28 port
1 ifindex 469827584port type 10G Ethernet Sat Apr 28 05:38:49 2012 Internal trap notification 35 (PortLinkDown) card 28
port 1 ifindex 469827585 Sat Apr 28 05:38:49 2012 Internal trap notification 60 (CardDown) card 28 Sat Apr 28 05:38:51 2012 Internal trap notification 5 (CardUp) card 28 Sat Apr 28 05:38:51 2012 Internal trap notification 4 (CardRebootRequest) card 28 Sat Apr 28 05:38:51 2012 Internal trap notification 84 (ServiceLossLC) Slots 28
and 44 has configured for card type 10 Gig Ethernet Line Card, but neither active Sat Apr 28 05:38:53 2012 Internal trap notification 55 (CardActive) card 28 Sat Apr 28 05:38:53 2012 Internal trap notification 1111 (ServiceLossLCClear)
Slots 28 and 44 has configured for card type 10 Gig Et hernet Line Card, one of them is active now Sat Apr 28 05:38:53 2012 Internal trap notification 93 (CardStandby) card 28 Sat Apr 28 05:38:55 2012 Internal trap notification 36 (PortLinkUp) card 28 port
1 ifindex 469827584 Sat Apr 28 05:38:55 2012 Internal trap notification 1025 (PortUp) card 28 port 1
ifindex 469827584port type 10G Ethernet Sat Apr 28 05:38:55 2012 Internal trap notification 55 (CardActive) card 28 Sat Apr 28 05:38:55 2012 Internal trap notification 36 (PortLinkUp) card 28 port
1 ifindex 469827585 Sat Apr 28 05:38:55 2012 Internal trap notification 1025 (PortUp) card 28 port 1
ifindex 469827585port type 10G Ethernet [local]XGW# show port util table Saturday April 28 05:39:47 UTC 2012 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 0 0 0 0 0 0 20/1 10G Ethernet 236 174 688 544 816 637 21/1 1000 Ethernet 0 17 0 7 0 7 22/1 1000 Ethernet 3 29 3 69 4 75 23/1 10G Ethernet 0 0 0 0 0 0 26/1 10G Ethernet 201 156 779 568 810 597 28/1 10G Ethernet 114 181 0 0 0 0 [local]XGW# show npu stats debug slot 12 Saturday April 28 05:40:04 UTC 2012 NPU debug stats for slot 12 debug-pkt-drop-invalid-iphdr 2219078 [local]XGW# show npu stats debug slot 12 Saturday April 28 05:40:15 UTC 2012 NPU debug stats for slot 12 debug-pkt-drop-invalid-iphdr 2289375 [local]XGW# show port util table Saturday April 28 05:41:08 UTC 2012 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 0 0 0 0 0 0 20/1 10G Ethernet 769 545 682 528 804 625 21/1 1000 Ethernet 0 0 0 6 0 6 22/1 1000 Ethernet 3 70 3 63 4 73 23/1 10G Ethernet 0 0 0 0 0 0 26/1 10G Ethernet 723 560 634 480 760 561 28/1 10G Ethernet 317 585 81 141 27 47 [local]XGW# show npu stat debug slot 12 clear Saturday April 28 05:41:59 UTC 2012 NPU debug stats for slot 12 debug-pkt-drop-invalid-iphdr 2980554 [local]XGW# show npu stat debug slot 12 clear Saturday April 28 05:42:10 UTC 2012 debug-pkt-drop-invalid-iphdr 60103 Sat Apr 28 05:42:43 2012 Internal trap notification 16 (PACMigrateStart) from
card 12 to card 16 Sat Apr 28 05:43:55 2012 Internal trap notification 17 (PACMigrateComplete) from
card 12 to card 16 Sat Apr 28 05:44:45 2012 Internal trap notification 5 (CardUp) card 12 Sat Apr 28 05:44:45 2012 Internal trap notification 93 (CardStandby) card 12 [local]XGW# show npu stat debug slot 16 clear Saturday April 28 05:44:35 UTC 2012 NPU debug stats for slot 16 debug-pkt-drop-invalid-iphdr 14650 [local]XGW# show npu stat debug slot 16 clear Saturday April 28 05:45:48 UTC 2012 NPU debug stats for slot 16 debug-pkt-drop-invalid-iphdr 70940 Sat Apr 28 05:45:20 2012 Internal trap notification 126 (SRPSwitchoverInitiated) vpn SRP ipaddr 10.209.74.164 Sat Apr 28 05:45:21 2012 Internal trap notification 121 (SRPStandby) vpn SRP
ipaddr 10.209.74.164 rtmod 2 [local]XGW(config)# port ether 27/1 Saturday April 28 05:52:27 UTC 2012 [local]XGW(config-port-27/1)# no shut Saturday April 28 05:52:35 UTC 2012 Sat Apr 28 05:52:35 2012 Internal trap notification 36 (PortLinkUp) card 27 port
1 ifindex 453050368 Sat Apr 28 05:52:35 2012 Internal trap notification 1025 (PortUp) card 27 port 1
ifindex 453050368port type 10G Ethernet Sat Apr 28 05:52:35 2012 Internal trap notification 55 (CardActive) card 27 Sat Apr 28 05:52:35 2012 Internal trap notification 36 (PortLinkUp) card 27 port
1 ifindex 453050369 Sat Apr 28 05:52:35 2012 Internal trap notification 1025 (PortUp) card 27 port 1
ifindex 453050369port type 10G Ethernet [local]XGW# link-aggregation port switch to 19/1 Saturday April 28 05:56:39 UTC 2012 Are you sure? [Yes|No]: yes Saturday April 28 05:56:42 UTC 2012
Sat Apr 28 07:09:46 2012 Internal trap notification 120 (SRPActive) vpn SRP
ipaddr 10.209.74.164 rtmod 2
[local]XGW# show card table
Saturday April 28 06:06:09 UTC 2012
Slot Card Type Oper State SPOF Attach
----------- -------------------------------- ------------- ---- ------
1: PSC Packet Services Card 2 Active No - -
2: PSC Packet Services Card 2 Active No - -
3: PSC Packet Services Card 2 Active No 19 -
4: PSC Packet Services Card 2 Active No 20 -
5: PSC Packet Services Card 2 Active No 21 37
6: PSC Packet Services Card 2 Active No 22 38
7: PSC Packet Services Card 2 Active No 23 -
8: SMC System Management Card Active No 24 25
9: SMC System Management Card Standby - - -
10: PSC Packet Services Card 2 Active No 26 -
11: PSC Packet Services Card 2 Active No 27 -
12: PSC Packet Services Card 2 Standby - - -
13: PSC Packet Services Card 2 Active No - -
14: PSC Packet Services Card 2 Active No - -
15: PSC Packet Services Card 2 Active No - -
16: PSC Packet Services Card 2 Active No 28 -
La conclusion peu probable a fini par être une carte de ligne défectueuse, qui une fois remplacée, a résolu le problème.
Note: lorsque XGLC 28 a été remplacé, le système a réinstallé le XGLC de remplacement à Demux PSC 1 au lieu du PSC 16 précédemment joint. La tâche CSP (Card-Slot-Port) a le droit d'associer un XGLC à tout PSC gratuit qu'elle souhaite, dans ce cas PSC 1 au lieu de PSC 16. Par conséquent, l'évaluation de XGLC 28 était contraire à la CFP 1 et non pas à la CFP 16 ou à la CFP 12, mais à ce stade, en se fondant sur tous les essais effectués jusqu'à présent (c.-à-d. la question se pose si elle est liée à la CFP 12 ou à la CFP 16), on avait conclu que les échecs étaient attribuables à la XGLC 28 et non à aucune CFP.
Sun Apr 29 05:17:25 2012 Internal trap notification 60 (CardDown) card 28 Sun Apr 29 05:17:25 2012 Internal trap notification 7 (CardRemoved) card 28 Sun Apr 29 05:19:56 2012 Internal trap notification 8 (CardInserted) card 28 Sun Apr 29 05:19:58 2012 Internal trap notification 5 (CardUp) card 28 Sun Apr 29 05:20:00 2012 Internal trap notification 55 (CardActive) card 28 [local]XGW# show port util table Sunday April 29 05:23:53 UTC 2012 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 1817 1770 1852 1868 1899 1929 20/1 10G Ethernet 0 0 0 0 0 0 21/1 1000 Ethernet 0 0 0 7 0 7 22/1 1000 Ethernet 3 55 3 58 3 59 23/1 10G Ethernet 1685 1867 1718 1858 1782 1868 26/1 10G Ethernet 0 0 0 0 0 0 27/1 10G Ethernet 1982 1866 1982 1846 2022 1927 28/1 10G Ethernet 0 0 0 0 0 0 [local]XGW# link-aggregation port switch to 20/1 Sunday April 29 05:33:18 UTC 2012 Are you sure? [Yes|No]: yes Sunday April 29 05:33:21 UTC 2012 2012-Apr-29+05:33:21.124 [lagmgr 179050 warning] [1/0/2337 <lagmgr:0>
lagmgr_state.c:1163] [software internal system critical-info syslog] LAG group
50 (global) with master port 19/1 has changed partner from (007F,00-26-88-8E-
4F-F0,0034) to (007F,00-26-88-A7-FF-F0,0034) [local]LENYKSCJPNR XGW# show port util table Sunday April 29 05:34:05 UTC 2012 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 0 0 1724 1688 1795 1783 20/1 10G Ethernet 1785 1737 112 108 37 36 21/1 1000 Ethernet 0 29 0 8 0 7 22/1 1000 Ethernet 3 55 3 56 3 57 23/1 10G Ethernet 0 0 1430 1522 1609 1720 26/1 10G Ethernet 1632 1790 89 95 29 31 27/1 10G Ethernet 0 0 1719 1669 1865 1780 28/1 10G Ethernet 1840 1738 0 0 0 0 [local]XGW# show npu stats debug slot 1 Sunday April 29 05:34:18 UTC 2012 NPU debug stats for slot 1 debug-pkt-drop-invalid-iphdr 9 [local]XGW# show card table Sunday April 29 05:34:27 UTC 2012 Slot Card Type Oper State SPOF Attach ----------- -------------------------------- ------------- ---- ------ 1: PSC Packet Services Card 2 Active No 28 - 2: PSC Packet Services Card 2 Active No - - 3: PSC Packet Services Card 2 Active No 19 - 4: PSC Packet Services Card 2 Active No 20 - 5: PSC Packet Services Card 2 Active No 21 37 6: PSC Packet Services Card 2 Active No 22 38 7: PSC Packet Services Card 2 Active No 23 - 8: SMC System Management Card Active No 24 25 9: SMC System Management Card Standby - - - 10: PSC Packet Services Card 2 Active No 26 - 11: PSC Packet Services Card 2 Active No 27 - 12: PSC Packet Services Card 2 Standby - - - 13: PSC Packet Services Card 2 Active No - - 14: PSC Packet Services Card 2 Active No - - 15: PSC Packet Services Card 2 Active No - - 16: PSC Packet Services Card 2 Active No - - [local]LENYKSCJPNR XGW# show port npu count 28/1 Sunday April 29 05:35:39 UTC 2012 Counters for port 28/1 Counter Rx Frames Rx Bytes Tx Frames Tx Bytes -------------------- ------------- --------------- ------------- --------------- Bad IPv4 header 0 0 n/a n/a [local]XGW# show npu stats debug all-pac Sunday April 29 05:36:05 UTC 2012 NPU debug stats for slot 1 debug-pkt-drop-invalid-iphdr 32 [local]XGW# show npu stats debug all-pac | grep debug-pkt-drop-invalid-iphdr Sunday April 29 05:36:47 UTC 2012 debug-pkt-drop-invalid-iphdr 41 <== PSC 1 debug-pkt-drop-invalid-iphdr 3722008 debug-pkt-drop-invalid-iphdr 920 debug-pkt-drop-invalid-iphdr 141 debug-pkt-drop-invalid-iphdr 3579872 debug-pkt-drop-invalid-iphdr 47 debug-pkt-drop-invalid-iphdr 3817343 [local]XGW# show port util table Sunday April 29 05:37:52 UTC 2012 ------ Average Port Utilization (in mbps) ------ Port Type Current 5min 15min Rx Tx Rx Tx Rx Tx ----- ------------------------ ------- ------- ------- ------- ------- ------- 19/1 10G Ethernet 0 0 301 297 1300 1280 20/1 10G Ethernet 1686 1603 1490 1454 496 484 21/1 1000 Ethernet 0 0 0 6 0 7 22/1 1000 Ethernet 3 53 3 55 3 55 23/1 10G Ethernet 0 0 448 475 1265 1349 26/1 10G Ethernet 1539 1692 1383 1460 461 486 27/1 10G Ethernet 0 0 252 246 1334 1288 28/1 10G Ethernet 1758 1705 1413 1390 471 463