はじめに
このドキュメントでは、NCS XRプラットフォームでファンモジュールの障害をトラブルシューティングする方法について説明します。
前提条件
要件
次の項目に関する知識があることが推奨されます。
注:Cisco IOS® XR CLIおよびadmin CLIへのアクセス権が必要であることを推奨します。
注:Cisco IOS® XR CLIおよびadmin CLIへのアクセス権が必要であることを推奨します。
使用するコンポーネント
このドキュメントの情報は、次のソフトウェアとハードウェアのバージョンに基づいています。
これには、次のシリーズが含まれますが、これらに限定されません。
- NCS 540 シリーズ
- NCS 560 シリーズ
- NCS 5500 シリーズ
- NCS 5700 シリーズ
このドキュメントの情報は、特定のラボ環境にあるデバイスに基づいて作成されました。このドキュメントで使用するすべてのデバイスは、クリアな(デフォルト)設定で作業を開始しています。本稼働中のネットワークでは、各コマンドによって起こる可能性がある影響を十分確認してください。
背景説明
Cisco NCS XRルータシリーズには、さまざまなユースケースとパフォーマンスレベル向けに設計された複数のプラットフォームが含まれており、各プラットフォームは個別のファンモジュールタイプとシステムアーキテクチャを備えています。
・ Cisco NCS 540シリーズ:これは、5G NRバックホール、FTTx、およびエンタープライズブランチ展開などの100G未満の帯域幅のアプリケーションを対象とした低密度のXRルータです。3+1のファン冗長設計と側面から側面への強制空冷を備えたファンモジュールを使用します。電源装置は1+1 AC/DC冗長性で固定されており、システムはコンフォーマルコーティングで耐久性が高く、クラスCのタイミングコンプライアンスをサポートしています。
・ Cisco NCS 560シリーズ:このモジュラシステムには3つの高速モジュラファントレイが含まれており、動作させるためにはファントレイの実装が必要です。これらのファントレイには冗長ファンが搭載されており、現場でのメンテナンスが可能です。システムをシャットダウンせずに交換できます。このシステムは、シングルファン障害での運用をサポートし、周囲温度に基づいてファントレイの再挿入の時間制限を適用します。また、エアーフローを最適化するダストフィルタも内蔵しています。電源装置はACおよびDCオプションを備えたモジュール式で、ロードシェアリングと保護スキームをサポートします。
・ Cisco NCS 5500シリーズ:この耐障害性に優れたモジュラルータプラットフォームは、データセンターおよび高性能ネットワーキング環境向けに設計されています。保守性と冗長性をサポートするモジュラ式の現場交換可能なファンモジュールを備えています。トラブルシューティングでは、システムログのチェック、ハードウェアステータス、およびソフトウェアパッケージの管理を行い、システムの安定性を維持します。このプラットフォームは、モジュラパッケージと復元機能を備えたCisco IOS® XRソフトウェアをサポートします。
・ Cisco NCS 5700シリーズ:NCS 5500プラットフォームに基づくこのシリーズには、拡張フォワーディングASIC設計が含まれ、Cisco IOS® XR7 OSが稼働します。NCS-57B1-6D24やNCS-57B1-5DSEなどのバリアントがあります。このシステムは、現場交換可能なファントレイと電源を備えたモジュラ式で、高可用性と耐障害性をサポートします。ファントレイは、冗長性とホットスワップを実現するように設計されています。Cisco IOS® XR7 OSは、システムと障害管理を監視する高度なソフトウェア機能を提供します。
問題
Cisco NCS XRルータのファンの障害は、システムの冷却と信頼性に影響します。問題の性質と重大度は、ファンモジュールの設計とサービサビリティの違いにより、プラットフォームによって異なります。NCS 540シリーズには、3+1冗長設計の固定された現場交換可能ではないファンモジュールを使用するモデルがいくつかあります。この場合、通常はファンに障害が発生すると、ユニット全体の修理または交換が必要になります。これにより、ダウンタイムが長くなり、トラブルシューティングがより複雑になる可能性があります。
NCS 560、5500、および5700シリーズと、NCS 540シリーズの一部のモデルでは、冗長性とホットスワップ用に設計されたモジュラ式の現場交換可能なファントレイを採用しています。これにより、シングルファンの障害時にも運用を継続でき、システムをシャットダウンせずにメンテナンスを容易に行うことができます。
これらのモジュラシステムでファン障害が発生すると、システムアラートがトリガーされ、周囲温度の制約を監視する必要があります。また、最適なエアーフローとシステムの安定性を維持するために、ファントレイを適切なタイミングで再挿入する必要があります。全体的に見て、NCS XRルータのファンに障害が発生すると、過熱、パフォーマンスの低下、およびハードウェアの潜在的な損傷のリスクが生じます。このため、迅速な検出、診断、特定のルータシリーズおよびファンアーキテクチャに合わせた適切な修復アクションが必要になります。
NCS XRプラットフォームにおけるファンモジュールの障害解決手順
NCS XRプラットフォームにおけるファンモジュール障害のトラブルシューティング手順は、一般に一貫したアプローチの概要を示しており、モデルが固定ファンモジュールとモジュラファントレイのどちらを使用するかに応じて、特定の物理的なアクションが異なります。
ステップ 1:CLIの初期検証
Cisco IOS® XR CLIでルータにログインし、次のコマンドを実行してファントレイと個々のファンのステータスを識別します。これらのコマンドは、Cisco IOS® XRを実行するすべてのNCS XRプラットフォームに共通です。
ステップ1.1Plarformのステータスの確認:このコマンドを実行して、ファントレイ障害であるか、ファントレイ内の1つ以上のFAN障害であるかを特定します。
コマンド出力例:
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#show platform
Thu Jul 24 12:33:45.143
Node Type State Config state
--------------------------------------------------------------------------------
0/RP0/CPU0 N540X-12Z16G-SYS-D(Active) IOS XR RUN NSHUT
0/PM0 N540-PSU-FIXED-D OPERATIONAL NSHUT
0/PM1 N540-PSU-FIXED-D OPERATIONAL NSHUT
0/FT0 N540-FAN OPERATIONAL NSHUT
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#
注:すべてのファントレイが「動作可能」な場合(すべてのファントレイが動作可能)、ファントレイは正常に動作していると結論付けることができます。また、いずれかのファントレイが動作していない場合は、ファントレイが障害状態であることを示します。
手順1.2.障害が発生したファンモジュールの特定:このコマンドを実行して、ファントレイ内の個々のファンのステータスと速度をチェックします。
コマンド出力例:
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#show environment fan
Thu Jul 24 12:33:09.673
=========================================================================================
Fan speed (rpm)
Location FRU Type FAN_0 FAN_1 FAN_2 FAN_3
-----------------------------------------------------------------------------------------
0/FT0 N540-FAN 25680 0 25440 26130
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#
注:値が「0」の場合、または同じトレイ内の他のファンと比較してRPM値が著しく低い場合は、ファンに障害があるか、またはファンに障害があることを示しています。
手順1.3.アラームからのファンモジュール障害の確認:このコマンドを実行して、ファン関連のアラームがないかシステムアラームをチェックします。
ログの例を次に示します。
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#show alarms brief system active
Thu Jul 24 12:33:23.874
------------------------------------------------------------------------------------
Active Alarms
------------------------------------------------------------------------------------
Location Severity Group Set Time Description
------------------------------------------------------------------------------------
0/FT0 Minor Environ 07/24/2025 10:35:44 WIB Fan 1: Out of tolerance
0/FT0 Minor Environ 07/24/2025 10:35:44 WIB Sensor in failed state
0 Minor Environ 07/24/2025 10:35:44 WIB Sensor in failed state
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#
注:「Fan X: Out of tolerance」または「Sensor in failed state」を示すアラームメッセージは、ファンの障害を確認します。
注:「Fan X: Out of tolerance」または「Sensor in failed state」を示すアラームメッセージでファンの障害を確認できます。
ステップ 2:環境および物理的検査
環境要因は、ファンの動作とシステム全体の冷却に大きく影響する可能性があります。
-
周囲条件:
- ルータの周囲の温度とエアーフローを確認し、動作制限内にあることを確認します。高温になると、ファンの動作が困難になったり、早期に障害が発生したりする可能性があります。
- 目詰まりや不適切な設置が原因で通気が妨げられるダストフィルタやエアプレナムがないか確認します。
-
障害物や破損の目視検査:
- ファンモジュール/トレイに、ファンが自由に回転しないような目に見える汚れ、配線のゆるみ、障害物がないかどうかを確認します。埃の蓄積は、ファンの問題の一般的な原因です。
- モジュラファントレイが搭載されたプラットフォーム(NCS 560、NCS 5500、NCS 5700、一部のNCS 540モデルなど)では、安全に操作できる場合、動作ガイドライン内に、疑わしいファントレイを慎重に引き出すことを検討します。各ファンに回転していないブレードや目に見える破損がないかどうかを目視で確認します。トレイが出ている間に、ファンおよびシャーシスロット内にほこりが付着していないかを確認します。
- ファンモジュールが固定されているプラットフォーム(一部のNCS 540モデルなど)では、ファンモジュールとコネクタの目視検査には制限がありますが、破損や障害の外部からの徴候がないかどうかに関係なく、検査を実施する必要があります。
ステップ 3:既知の問題とバグの確認
ハードウェアの交換に進む前に、確認されたファンの障害が、ソフトウェアまたはハードウェアの既知の不具合と一致するかどうかを確認することを推奨します。
- Cisco Bug Search Tool:「NCS XR fan failure」、「NCS [model number] fan」などのキーワードや、デバイスで実行されている特定のCisco IOS® XRバージョンを使用して、Cisco Bug Search Tool(BST)を検索します。ファンの誤報告や実際の障害を引き起こす可能性がある既知の問題を探します。
- シスコサポートドキュメント:シスコおよびコミュニティフォーラムのサポートドキュメントをレビューして、同様の問題と推奨される回避策または修正がないか確認します。
ステップ 4:是正措置と交換
次の手順は、NCS XRプラットフォームのファンモジュールのタイプによって異なります。
固定ファンモジュールを搭載したNCS XRプラットフォーム(一部のNCS 540モデルなど)向け
固定ファンモジュールを搭載したモデルは、通常はホットスワップ可能ではありません。
- 電源の再投入:初期チェックと環境調整で問題が解決しない場合は、ルータの電源の再投入を実行します。これにより、一時的な問題が解決し、ファンモジュールが正しく再初期化される場合があります。
- 交換(RMA):電源の再投入後にファンモジュールの障害が確認された場合、通常はユニットまたはシャーシ全体のReturn Merchandise Authorization(RMA)が必要です。
注:固定ファンモジュールを交換するには、ルータの電源をオフにする必要があるため、計画的なダウンタイムが必要です。
モジュラファントレイを搭載したNCS XRプラットフォーム(ほとんどのNCS 540、NCS 560、NCS 5500、NCS 5700モデルなど)
これらのプラットフォームには、ホットスワップ可能なモジュラファントレイが搭載されています。
-
再装着(JACK-OUTおよびJACK-IN - JOJI):
- 障害が発生したファンモジュールが取り付けられているファントレイで、JACK-OUT(RJ-A)およびJACK-IN(JOJI)の手順を慎重に実行します。 これには、ファントレイを物理的に取り外してから再挿入する作業が含まれます。
- ファントレイを引き出している間に、ファンの回転を妨げている可能性のある埃や配線がないかどうかを詳細に目視検査します。再挿入時にすべてのファンが回転するかどうかを確認することもできます。
- 取り付け直した後、「show environment fan」を使用してステータスを再度確認します。
-
交換(RMA):取り付け直した後もいずれかのファンモジュールが引き続き障害状態であるか、ファントレイが稼働しない状態のままである場合は、ファントレイのRMAに進みます。
- 証拠のログを収集する:「show logging | include FAN」をもう一度実行して、文書化のためにファントレイJOJIに関連するログを収集します。
ログの例を次に示します。
RP/0/RP0/CPU0:N540-24Z8Q2C-SYS# show logging | include FAN
0/RSP0/ADMIN0:Jul 12 01:39:25.215 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_REMOVAL : Location: 0/FT0, Serial#: N/A
0/RSP0/ADMIN0:Jul 12 01:39:26.522 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_INSERTION : Location: 0/FT0, Serial #: N/A
0/RSP0/ADMIN0:Jul 12 01:39:26.522 : shelf_mgr[4169]: %INFRA-SHELF_MGR-6-CARD_HW_OPERATIONAL : Card: 0/FT0 hardware state going to Operational
0/RSP0/ADMIN0:Jul 12 01:42:23.584 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_REMOVAL : Location: 0/FT0, Serial#: N/A
0/RSP0/ADMIN0:Jul 12 01:44:40.495 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_INSERTION : Location: 0/FT0, Serial #:N/A
0/RSP0/ADMIN0:Jul 12 01:44:40.495 : shelf_mgr[4169]: %INFRA-SHELF_MGR-6-CARD_HW_OPERATIONAL : Card: 0/FT0
- 製品ID(PID)とシリアル番号(SN)の収集:RMAプロセスに必要な、故障したファントレイのPIDとSNを取得します。
コマンド出力例:
Command Syntax:
RP/0/RP0/CPU0:N540-24Z8Q2C-SYS# show inventory location <location of failed FAN tray>
Sample command:
RP/0/RP0/CPU0:N540-24Z8Q2C-SYS# show inventory location 0/FT0
NAME: "0/FT0", DESCR: "NCS 540 Fan"
PID: N540-FAN , VID: N/A, SN: N/A
- RMAに進みます。不良ファントレイについて、CiscoとのRMAプロセスを開始します。