概要
このドキュメントでは、Border Gateway Protocol(BGP)ピアが、BGPPeerSessionDown トラップと共に、それをトリガーしたイベントのタイミングに関してダウンとマークされるタイミングについて説明します。 ピアがダウンとマークされるまでに要する時間は、ホールド タイマーの時間未満です。 この問題は Cisco アグリゲーション サービス ルータ(ASR)5000 で報告されましたが、ASR 5500 にも当てはまります。
問題
このような場合、ASR 5000 上の Demux パケット スイッチングカード(PSC)1 で、マイクロ エンジンの問題により、npumgr プロセスの再起動がありました。これは一時的な問題として珍しいことではありません(RMA は必要ありません)。
2015-Jun-13+13:51:44.198 [sft 58000 info] [1/0/4255 <sft:100>
sft_monitor.c:115]
[software internal system critical-info syslog] SFT : Forced 1 times RX
packet at slot 1, cpu 0, inst 100, inflight packets 30
2015-Jun-13+13:51:45.306 [sft 58000 info] [1/0/4255 <sft:100>
sft_monitor.c:115]
[software internal system critical-info syslog] SFT : Forced 81 times RX
packet at slot 1, cpu 0, inst 100, inflight packets 110
2015-Jun-13+13:51:45.205 [sft 58000 info] [1/0/4255 <sft:100>
sft_monitor.c:115]
[software internal system critical-info syslog] SFT : Forced 71 times RX
packet at slot 1, cpu 0, inst 100, inflight packets 100
Sat Jun 13 13:51:45 2015 Internal trap notification 73 (ManagerFailure)
facility npumgr instance 1 card 1 cpu 1
2015-Jun-13+13:51:45.335 [npuctrl 16019 error] [8/0/4729 <npuctrl:0>
rl_sf_handler.c:2570] [software internal system syslog] SF CTRL:
monitoring_recovery:
Task packet test failed on failed_card 1, calling npuctrl_sf_insert_card()
2015-Jun-13+13:51:48.469 [npuctrl 16019 error] [8/0/4729 <npuctrl:0>
rl_sf_handler.c:2558] [software internal system syslog] SF CTRL:
monitoring_recovery:
too many sf insert calls on failed_card 1, cnt = 1 calling
npuctrl_restart_npumgr()
Sat Jun 13 13:51:48 2015 Internal trap notification 150 (TaskFailed)
facility npumgr instance 1 on card 1 cpu 1
2015-Jun-13+13:51:48.470 [npuctrl 16020 info] [8/0/4729 <npuctrl:0>
npuctrl_func.c:230] [software internal system critical-info syslog]
CTRL: restart npumgr instance 1
2015-Jun-13+13:51:48.547 [rct 13012 info] [8/0/4643 <rct:0> rct_task.c:323]
[software internal system critical-info syslog] Death notification of task
npumgr/1 on 1/1 sent to parent task npuctrl/0
Sat Jun 13 13:51:58 2015 Internal trap notification 1099 (ManagerRestart)
facility npumgr instance 1 card 1 cpu 1
Sat Jun 13 13:51:58 2015 Internal trap notification 151 (TaskRestart)
facility npumgr instance 1 on card 1 cpu 1
2015-Jun-13+13:51:58.376 [npuctrl 16018 info] [8/0/4729 <npuctrl:0>
npuctrl_msg.c:241] [software internal system critical-info syslog]
task facility npumgr instance 1 created
エンジニアリング スキャナはこれをよくキャプチャします。
%%%%%%%%%%%%% SFT : Forced X times RX packet at slot Y %%%%%%%%%%%%%
May be a case of Ucode storage corruption. Please check techzone article
2015-Jun-13+13:51:48.729 [sft 58000 info] [1/0/4255 sft_monitor.c:115]
[software internal system critical-info syslog] SFT : Forced 321 times
RX packet at slot 1, cpu 0, inst 100, inflight packets 238(Count: 33,
First seen: 2015-Jun-13+13:51:44.903,
Last seen: 2015-Jun-13+13:51:48.729)
これらの Simple Network Management Protocol(SNMP)トラップは、企業ゲートウェイ上のすべての BGP ピアがダウンした 10 秒間のウィンドウを示します。
Sat Jun 13 13:52:00 2015 Internal trap notification 119 (BGPPeerSessionDown)
vpn Egress-MPLS14 ipaddr 55.54.84.107
Sat Jun 13 13:52:02 2015 Internal trap notification 119 (BGPPeerSessionDown)
vpn Egress-MPLS16 ipaddr 55.54.84.123
Sat Jun 13 13:52:03 2015 Internal trap notification 119 (BGPPeerSessionDown)
vpn Egress-MPLS06 ipaddr 55.54.84.43
Sat Jun 13 13:52:04 2015 Internal trap notification 119 (BGPPeerSessionDown)
vpn Egress-MPLS04 ipaddr 55.54.84.26
Sat Jun 13 13:52:04 2015 Internal trap notification 119 (BGPPeerSessionDown)
vpn Egress-MPLS14 ipaddr 55.54.84.106
Sat Jun 13 13:52:04 2015 Internal trap notification 119 (BGPPeerSessionDown)
vpn Egress-MPLS05 ipaddr 55.54.84.35
Sat Jun 13 13:52:04 2015 Internal trap notification 119 (BGPPeerSessionDown)
vpn Egress-MPLS02 ipaddr 55.54.84.11
Sat Jun 13 13:52:04 2015 Internal trap notification 119 (BGPPeerSessionDown)
vpn EXGWin ipaddr 55.55.245.4
Sat Jun 13 13:52:05 2015 Internal trap notification 119 (BGPPeerSessionDown)
vpn Egress-MPLS16 ipaddr 55.54.84.122
Sat Jun 13 13:52:05 2015 Internal trap notification 119 (BGPPeerSessionDown)
vpn Egress-MPLS12 ipaddr 55.54.84.91
Sat Jun 13 13:52:05 2015 Internal trap notification 119 (BGPPeerSessionDown)
vpn Egress-MPLS01 ipaddr 55.54.84.3
Sat Jun 13 13:52:05 2015 Internal trap notification 119 (BGPPeerSessionDown)
vpn Egress-MPLS11 ipaddr 55.54.84.83
Sat Jun 13 13:52:05 2015 Internal trap notification 119 (BGPPeerSessionDown)
vpn Egress-MPLS15 ipaddr 55.54.84.115
Sat Jun 13 13:52:05 2015 Internal trap notification 119 (BGPPeerSessionDown)
vpn Egress-MPLS01 ipaddr 55.54.84.2
Sat Jun 13 13:52:06 2015 Internal trap notification 119 (BGPPeerSessionDown)
vpn Egress-MPLS04 ipaddr 55.54.84.27
Sat Jun 13 13:52:06 2015 Internal trap notification 119 (BGPPeerSessionDown)
vpn Egress-MPLS05 ipaddr 55.54.84.34
Sat Jun 13 13:52:06 2015 Internal trap notification 119 (BGPPeerSessionDown)
vpn Egress-MPLS11 ipaddr 55.54.84.82
Sat Jun 13 13:52:06 2015 Internal trap notification 119 (BGPPeerSessionDown)
vpn Egress-MPLS06 ipaddr 55.54.84.42
Sat Jun 13 13:52:07 2015 Internal trap notification 119 (BGPPeerSessionDown)
vpn Ingress ipaddr 55.55.245.5
Sat Jun 13 13:52:07 2015 Internal trap notification 119 (BGPPeerSessionDown)
vpn Egress-MPLS03 ipaddr 55.54.84.18
Sat Jun 13 13:52:07 2015 Internal trap notification 119 (BGPPeerSessionDown)
vpn Egress-MPLS10 ipaddr 55.54.84.254
Sat Jun 13 13:52:08 2015 Internal trap notification 119 (BGPPeerSessionDown)
vpn Egress-MPLS03 ipaddr 55.54.84.19
Sat Jun 13 13:52:08 2015 Internal trap notification 119 (BGPPeerSessionDown)
vpn Egress-MPLS15 ipaddr 55.54.84.114
Sat Jun 13 13:52:09 2015 Internal trap notification 119 (BGPPeerSessionDown)
vpn Egress-MPLS02 ipaddr 55.54.84.10
Sat Jun 13 13:52:10 2015 Internal trap notification 119 (BGPPeerSessionDown)
vpn Egress-MPLS13 ipaddr 55.54.84.98
Sat Jun 13 13:52:10 2015 Internal trap notification 119 (BGPPeerSessionDown)
vpn Egress-MPLS12 ipaddr 55.54.84.90
BGP は Demux PSC 1 で制御されます。この場合、これは問題が発生したカードです。 したがって、BGP がダウンすることは予想外ではありません。 さらに、これはアクティブなインター シャーシ セッション リカバリ(ICSR)- テクノロジー シャーシであったため、サービス冗長性プロトコル(SRP)スイッチオーバーがありました。
[local]Enterprise_XGW> show srp call-loss statistics
Switchover-9 started at : Sat Jun 13 13:52:06 2015, took 3 seconds to finish.
Switchover reason : BGP failure
Total number of active calls at switchover time : 714711
解決策
質問
トラップ ログにより、インシデントが 13:51:45 に発生した場合、ピアが BGP ホールドタイマーの時間になるや否やダウンすることは予想されないのですか?
回答
これらすべてのピアの BGP 設定はこれと同じです。
timers bgp keepalive-interval 10 holdtime-interval 60
60 秒間に設定した場合、ピアとのネゴシエーションはより低い値、すなわち 30 秒を受け入れます。
******** show ip bgp neighbors *******
Saturday June 13 14:42:38 UTC 2015
BGP neighbor is 55.55.245.4, remote AS 22394, local AS 64873, external link
BGP version 4, remote router ID 55.54.244.197
BGP state = Established,up for 5d04h29m
Hold time is 30 seconds, keepalive interval is 10 seconds
Configured Hold time is 60 seconds, keepalive interval is 10 seconds
イベントが 13:51:45 であった場合、13:52:00 と 13:52:10 の間にダウンしたピアはどのように説明できるでしょうか。
答えは、最初のログが表示される前に、ネットワーク プロセッサ ユニット(NPU)の問題により、接続が侵害された可能性があるということです。 たとえば 13:51:40 に 5 秒と仮定します。 各 BGP ピアのペアは、それぞれ自身の「サイクル」で 10 秒ごとにキープアライブを送信/受信します。 BGP ピアのペアは、各ペアには同じ設定(10 秒)がされていますが、キープアライブ間隔について相互に同期していません。 キープアライブの間隔が 10 秒であるため、どの 10 秒間にも、すべてのピアがキープアライブを送信したと仮定できます。 接続が 13:51:40 に故障した場合、すべてのピアのペアは、それぞれのサイクルに基づき、最後のキープアライブを 13:51:30 と 13:51:40 の間に送信しました(各ペアは他のペアとは無関係であることを忘れないでください)。 この場合、この期間後にキープアライブを受信することはありません。つまり、30 秒の期限切れが 13:52:00 ~ 13:52:10 の間に発生したことを意味し、このときにすべてのビアが正確にダウンとマークされました。
要約すると、接続が故障した時点の後(それを判断できるかどうかは別の問題です)、BGP は、ホールド タイム間隔と、ホールド タイム間隔から設定されたキープアライブ間隔を引いた時間のどこかで、ダウンとマークされることが予想されます。 この場合、それは 20 ~ 30 秒の間です。
関連情報