NCS4016 上のライン カード(LC)に関する問題のトラブルシューティング
概要
このドキュメントでは、Cisco 4000 シリーズ Network Convergence System(NCS4016)上のライン カードに関する問題のトラブルシューティング方法、ライン カードの障害状態、および考えられる理由と復旧処理について説明します。
背景説明
NCS4016 は 16 LC(0 ~ 15 スロット)シャーシであり、各 LC には 200G の容量があります。 NCS4016 シャーシで LC を起動する際の基本的なイベント シーケンスは次のとおりです。
- LC は、9 つの電源ゾーン(0 ~ 8)に分割されています。 これらの電源ゾーンはすべて CCC(カード コントローラ チップ)で制御されます。
- 最初にゾーン 0 が電源投入されます。これにより、CPU 複合ユニットの電源がオンになり、LC の基本ロジックが起動されます。
- ゾーン 0 が電源投入されると、 CCC が電源投入インタープリタを実行し、基本的なデバイスを設定してから、CPU の RESET 状態が解除されます (CPU の電源がオフになっている場合は、RESET 状態のままです)。
- 上記の内容が LC 起動中に基本機能として実行されます。 ゾーン 1 から 8 のいずれかに問題がある場合、そのゾーンに対応するスライスの電源だけオンになりません。 ただし、ゾーン 0 に問題があると、LC 全体が電源オフの状態になります。
はじめる前に
トラブルシューティングを開始する前に、次のコマンドをメモしておくことを推奨します。
- sysadmin(Calvados)VM に接続(またはログイン)します。起動に失敗したカードは XR VM に表示されず、sysadmin VM でしか障害のステータスと理由を確認できないためです。
- ソフトウェアの状態が operational(動作可能)になるのは、CPU が存在するカードだけです。 他のカードでは N/A(該当なし)となりますが、ハードウェアは「operational」として表示されます。
すべての LC および RP が動作可能な場合は、以下の出力が表示されます。
sysadmin-vm:0_RP0# show platform
Tue Aug 18 19:57:02.631 UTC
Location Card Type HW State SW State Config State
----------------------------------------------------------------------------
0/0 NCS4K-2H-O-K OPERATIONAL N/A NSHUT
0/5 NCS4K-24LR-O-S OPERATIONAL N/A NSHUT
0/6 NCS4K-20T-O-S OPERATIONAL N/A NSHUT
0/8 NCS4K-2H-O-K OPERATIONAL N/A NSHUT
0/RP0 NCS4K-RP OPERATIONAL OPERATIONAL NSHUT
0/FC1 NCS4016-FC-M OPERATIONAL N/A NSHUT
0/CI0 NCS4K-CRAFT OPERATIONAL N/A NSHUT
0/FT0 NCS4K-FTA OPERATIONAL N/A NSHUT
0/FT1 NCS4K-FTA OPERATIONAL N/A NSHUT
0/PT0 NCS4K-AC-PEM OPERATIONAL N/A NSHUT
0/PT1 NCS4K-AC-PEM OPERATIONAL N/A NSHUT
0/EC0 NCS4K-ECU OPERATIONAL N/A NSHUT
sysadmin-vm:0_RP0#
以下に、LC が停止する一般的な HW および SW の障害状態と、その理由について説明します。
状態 1: HW_FAILED
この状態は、電源に問題があるか、CCC 電源投入インタープリタで電源投入シーケンスを完了できなかったために、カードの起動が失敗したことを示唆します。
推奨処置:
以下のコマンドの出力を調べます。
# sysadmin-vm:0_RP1# は card> のプラットフォーム 詳細 位置 <location を示します
上記のコマンドの出力で、「Last Event」と「Last Event Reason: 」を調べると、障害の理由がわかります。
sysadmin-vm:0_RP1# show platform detail location 0/fc1
Sat Jul 4 13:52:14.782 UTC
Platform Information for 0/FC1
PID : NCS4016-FC-M
説明: "NCS 4016 Agnostic Cross Connect - Multichassis "
VID/SN : V01
HW Oper State : OPERATIONAL
SW Oper State : N/A
設定: "NSHUT RST"
HW Version : 1.0
Last Event : HW_EVENT_FAILURE
Last Event Reason : ""Intial discovery FAIL EXIT0 , power request on, but not finish ccc-pon startup power_control 0x00000001"
上記の障害状態では、CCC コントローラのステータスを調べて、障害が発生した特定の場所を確認することもできます。 「SET」と表示されている電源ゾーンのステータスを調べてください。 LC によって、起動する電源ゾーンは異なるためです。
sysadmin-vm:0_RP0# show controller ccc power detail location 0/RP0
Tue Aug 18 18:33:30.245 UTC
Power detail : Zone information for 0/RP0:
---------------------------------------------------------
| Power Zone | Power Status | Power Contrl | Power Fault |
---------------------------------------------------------
| 0 | どうぞ | SET | -- |
| 1 | どうぞ | -- | -- |
| 2 | OK | SET | -- |
| 3 | どうぞ | -- | -- |
| 4 | OK | SET | -- |
| 5 | -- | -- | -- |
| 6 | どうぞ | -- | -- |
| 7 | -- | -- | -- |
| 8 | OK | SET | -- |
sysadmin-vm:0_RP0#
復旧処理:
- 次のコマンドを実行して、LC のソフト リセットを試みます。
# card> リロードの sysadmin-vm:0_RP1# hw-module 位置 <location
- ソフト リセットで問題が解決されない場合は、カードの物理的な活性挿抜(OIR)を行う必要があります。
状態 2: POWERED_ON
この状態は、CPU がない LC 上で見られます。NCS4k のすべての LC カードには CPU がありません。
推奨処置:
sysadmin-vm:0_RP1# show platform
0/FC0 NC4K-FC OPERATIONAL N/A NSHUT
0/FC1 NC4K-FC POWERED_ON N/A NSHUT
0/FC2 NC4K-FC OPERATIONAL N/A NSHUT
この場合、ファブリック ドライバはカードを自力で復旧しようと試みますが、3 分以内に ASIC を検出できない場合は失敗し、カードが POWERED_ON 状態になります。
シャーシ内に存在するすべてのカードが正常に電源投入されている場合は、以下のような出力になります。
sysadmin-vm:0_RP0# show controller ccc power summary
Tue Aug 18 19:09:37.575 UTC
CCC Power Summary :
Location Card Type Power State
----------------------------------------------------------------
0/0 NCS4K-2H-O-K ON
0/FC1 NCS4016-FC-M ON
0/5 NCS4K-24LR-O-S ON
0/6 NCS4K-20T-O-S ON
0/RP0 NCS4K-RP ON
0/8 NCS4K-2H-O-K ON
sysadmin-vm:0_RP0#
復旧処理:
- LC または FC で状態 2(POWERED_ON)が続く場合は、次のコマンドを実行して、LC のソフト リセットを試みます。
# card> リロードの sysadmin-vm:0_RP1# hw-module 位置 <location
- ソフト リセットで問題が解決されない場合は、カードの物理的な OIR を行う必要があります。
状態 3: PRESENT
これは、検出されたカードが電源オフ状態になっていることを意味します。 設定でカードが電源オフになるように設定されている場合、これは有効な状態です。 環境に関するアラームが原因でカードが強制的にシャットダウンされ、CCC ドライバが I2C 障害によってカードを検出できなかった可能性があります。
推奨処置:
sysadmin-vm:0_RP1# show platform detail location <カードの位置>
上記の出力で「Last Event : 」と「Last Event Reason : 」というエラー メッセージが表示されます。
アラーム状態が原因でカードがシャットダウンした場合、アラームを確認するには、以下のコマンドを実行することもできます。 以下の出力に、それぞれのカードの位置に関するアラーム状態が示されます。
sysadmin-vm:0_RP0# show alarms
Tue Aug 18 18:03:35.421 UTC
-------------------------------------------------------------------------------
Active Alarms
-------------------------------------------------------------------------------
Location Severity Group Set time Description
-------------------------------------------------------------------------------
0/PT0-PM0 major environ 05/22/70 04:56:45 Power Module Error (PM_NO_INPUT_DETECTED).
0/PT0-PM0 major environ 05/22/70 04:56:45 Power Module Output Disabled (PM_OUTPUT_EN_PIN_HI).
0/PT0-PM2 major environ 05/22/70 04:56:45 Power Module Error (PM_NO_INPUT_DETECTED).
0/PT0-PM2 major environ 05/22/70 04:56:45 Power Module Output Disabled (PM_OUTPUT_EN_PIN_HI).
0/PT0-PM3 major environ 05/22/70 04:56:45 Power Module Error (PM_NO_INPUT_DETECTED).
0/PT0-PM3 major environ 05/22/70 04:56:45 Power Module Output Disabled (PM_OUTPUT_EN_PIN_HI).
0/PT1-PM1 major environ 05/22/70 04:56:45 Power Module Error (PM_NO_INPUT_DETECTED).
また、同じコマンドを実行して、カードの位置ごとの出力を調べることもできます。
sysadmin-vm:0_RP1# show alarms brief card location <カードの位置>
復旧処理:
- 次のコマンドを実行して、LC のソフト リセットを試みます。
# card> リロードの sysadmin-vm:0_RP1# hw-module 位置 <location
- ソフト リセットで問題が解決されない場合は、カードの物理的な OIR を行う必要があります。
状態 4: UNKNOWN
この状態の最も一般的な原因は、CCC ドライバがカードから IDPROM を読み取れなかったこと、または CCC ドライバが IDPROM 破損を検出したためにカードを検出できなかったことにあります。
sysadmin-vm:0_RP1# show platform
Sat Jul 4 15:27:50.478 UTC
Location Card Type HW State SW State Config State
----------------------------------------------------------------------------
0/1 UNKNOWN POWERED_ON OPERATIONAL NSHUT
復旧処理:
- 次のコマンドを実行して、LC のソフト リセットを試みます。
# card> リロードの sysadmin-vm:0_RP1# hw-module 位置 <location
- ソフト リセットで問題が解決されない場合は、カードの物理的な OIR を行う必要があります。
- 物理的な OIR で解決できない場合は、カードの RMA が推奨されます。
状態 5: SW_INACTIVE
カードが SW_INACTIVE 状態になるには、HW が operational になる必要があることに注意してください。 カードがこの状態になる一般的な原因は、ホスト OS が SSD にアクセスできないことにあります。
推奨処置:
カードに制御イーサネット接続があるかどうかを確認します。
sysadmin-vm:0_RP1# show controller switch reachable
Sat Jul 4 16:31:33.690 UTC
Rack Card Switch
--------------------
0 RP0 RP-SW
0 RP1 RP-SW
0 LC0 LC-SW
0 LC1 LC-SW
0 LC2 LC-SW
0 LC4 LC-SW
カードに制御イーサネット接続がない場合は、カードに対して以下のコマンドを実行して、イーサネット プロトコル状態を確認します。 プロトコルの状態は、「Active」または「Standby」でなければなりません。他の状態になっている場合は、接続に問題があります。
sysadmin-vm:0_RP0# show controller switch mlap location 0/RP0/RP-SW
Tue Aug 18 18:08:22.343 UTC
Rack Card Switch Rack Serial Number
--------------------------------------
0 RP0 RP-SW SAL19058RDF
Phys Admin Protocol Forward Protocol
Port State State State State Type Connects To
--------------------------------------------------------------------------
0 Down Up Down - Internal LC15
1 Down Up Down - Internal LC7
2 Down Up Down - Internal LC13
3 Down Up Down - Internal LC12
4 Down Up Down - Internal LC14
5 Down Up Down - Internal LC11
6 Up Up Active Forwarding Internal LC6
7 Up Up Active Forwarding Internal LC5
8 Down Up Down - Internal LC1
9 Down Up Down - Internal LC4
10 Down Up Down - Internal LC3
11 Down Up Down - Internal LC10
16 Up Up Active Forwarding Internal LC0
17 Up Up Active Forwarding Internal LC8
26 Down Up Down - Internal LC2
27 Down Up Down - Internal LC9
32 Down Up Down - Internal MATESC (RP0 Ctrl)
33 Down Up Down - Internal MATESC (RP1 Ctrl)
36 Up Up Active Forwarding Internal CCC (RP0 Ctrl)
37 Up Up Rem Managed Forwarding Internal CCC (RP1 Ctrl)
52 Down Up Down - External SFP+ 1
54 Down Up Down - External SFP+ 0
復旧処理:
ポートがダウンしていることを確認した場合は、カードの CPU コンソールにアクセスして、カードが応答するかどうかを確認してください。 アクセスすると、カードが SW_INACTIVE 状態になった理由を示唆するメッセージがスローされます。
sysadmin-vm:0_RP1# attach location <カードの位置>
最終手段は、カードのイメージを生成しなおすことです。
#reimage_chassis –このステップ前の s <slot id> はしかし技術者と相談します。
関連リンク:
http://www.cisco.com/c/en/us/products/collateral/optical-networking/network-convergence-system-4000-series/data_sheet_c78-729222.html#
http://www.cisco.com/c/en/us/td/docs/routers/ncs4000/software/install/guide/b_sysadmin-ig-ncs4k/b_sysadmin-ig-ncs4k_chapter_010.html