はじめに
このドキュメントでは、ASR9kのFANモジュールの障害をトラブルシューティングする方法について説明します。
前提条件
要件
次の項目に関する知識があることが推奨されます。
注:Cisco IOS® XR CLIおよびadmin CLIへのアクセス権が必要であることを推奨します。
使用するコンポーネント
このドキュメントの情報は、次のソフトウェアとハードウェアのバージョンに基づいています。
- ASR 9000シリーズには、ASR 9001、ASR 9006、ASR 9010、ASR 9901、ASR 9906、ASR 9910、ASR 9912、ASR 9922など、さまざまなモデルがあります。
このドキュメントの情報は、特定のラボ環境にあるデバイスに基づいて作成されました。このドキュメントで使用するすべてのデバイスは、クリアな(デフォルト)設定で作業を開始しています。本稼働中のネットワークでは、各コマンドによって起こる可能性がある影響を十分確認してください。
背景説明
Cisco ASR 9000シリーズアグリゲーションサービスルータ(ASR9k)は、サービスプロバイダーネットワーク向けに設計された高性能ルータで、ネットワーク環境の要求をサポートする拡張性、信頼性、高度な機能を提供します。ASR9kルータは、モジュラ式のハードウェアアーキテクチャを提供し、多様なネットワーク要件を満たすための柔軟な設定と拡張を可能にします。
ASR9kルータファミリには次のものがあります。
・ モジュラ設計:ASR9kルータは、ルートプロセッサ、ラインカード、ファントレイなどのモジュラコンポーネントを搭載しており、ネットワークの運用を中断することなく、アップグレードやメンテナンスを容易に行えます。
・ 冷却システム:たとえば、ASR 9001モデルは、冗長ファンを搭載した前面からアクセス可能なファントレイを1つ使用して、継続的な冷却を実現します。ファントレイは、側面から側面へのエアーフローをサポートし、ソフトウェアリリース4.3.0以降では、特定の周囲温度制限のある状態での活性挿抜(OIR)が可能なため、メンテナンス性が向上しています。
・ 高可用性:ASR9kシリーズは、冗長電源と冗長ファンをサポートしており、高可用性に貢献し、ダウンタイムを最小限に抑えます。
・ パフォーマンスと拡張性:大規模なアグリゲーションとエッジルーティングを処理できるように設計されたASR9kルータは、サービスプロバイダーのコアおよびエッジネットワークに適した高スループットと高度なルーティングプロトコルをサポートします。
・ ソフトウェア機能:ルータではCisco IOS® XRソフトウェアが稼働します。このソフトウェアは、キャリアグレードの信頼性、モジュール性、およびプログラマビリティを提供し、進化するネットワーク需要に対応します。
問題
ASR 9000シリーズルータのファンモジュールまたはファントレイに障害が発生すると、冷却が不十分になり、重要なハードウェアコンポーネントが過熱する可能性があります。この過熱は、システムの不安定性、パフォーマンスの低下、予期しないシャットダウン、または恒久的なハードウェアの損傷を引き起こし、最終的にネットワークの可用性とサービスの信頼性に影響を与える可能性があります。デバイスの健全性を維持するうえで冷却システムが果たす重要な役割を考えると、サービスプロバイダー環境においてネットワークの中断を防ぎ、ハイアベイラビリティを維持するためには、ファンの障害をタイムリーに検出して軽減することが不可欠です。
ASR9kのファンモジュール障害を解決する手順
ASR 9000シリーズルータのファンモジュール障害をトラブルシューティングする手順では、一般に、モデル間で一貫したアプローチが概説されています。モデルで使用する物理アクションは、固定ファンモジュールとモジュラファントレイのどちらを使用するかに応じて異なります。
ステップ 1:CLIの初期検証
Cisco IOS® XR CLIでルータにログインし、次のコマンドを実行してファントレイと個々のファンのステータスを識別します。これらのコマンドは、Cisco IOS® XRを実行するすべてのASR 9000プラットフォームで共通です。
手順1.1 Plarformステータスの確認:このコマンドを実行して、ファントレイ障害であるか、ファントレイ内の1つ以上のFAN障害であるかを特定します。
コマンド出力例:
RP/0/RSP0/CPU0:ASR-9006#show platform
Wed Jul 16 12:16:00.408 IST
Node Type State Config state
--------------------------------------------------------------------------------
0/RSP0/CPU0 A9K-RSP5-SE(Active) IOS XR RUN NSHUT
0/RSP1/CPU0 A9K-RSP5-SE(Standby) IOS XR RUN NSHUT
0/FT0 ASR-9006-FAN-V2 OPERATIONAL NSHUT
0/FT1 ASR-9006-FAN-V2 OPERATIONAL NSHUT
0/0/CPU0 A9K-MOD200-SE IOS XR RUN NSHUT
0/0/0 A9K-MPA-20X1GE OK
0/1/CPU0 A9K-8X100GE-SE IOS XR RUN NSHUT
0/2/CPU0 A9K-MOD200-SE IOS XR RUN NSHUT
0/2/0 A9K-MPA-20X10GE OK
0/PT0 A9K-DC-PEM-V2 OPERATIONAL NSHUT
RP/0/RSP0/CPU0:ASR-9006#
注:すべてのファントレイが「動作可能」な場合(すべてのファントレイが動作可能)、ファントレイは正常に動作していると結論付けることができます。また、いずれかのファントレイが動作していない場合は、ファントレイが障害状態であることを示します。
ステップ 1.2:障害が発生したファンモジュールの特定:このコマンドを実行して、ファントレイ内の個々のファンの状態と速度を確認します。
コマンド出力例:
RP/0/RSP0/CPU0:ASR-9006#admin show environment fan
Wed Jul 16 12:16:09.843 IST
=============================================================================
Fan speed (rpm)
Location FRU Type FAN_0 FAN_1 FAN_2 FAN_3 FAN_4 FAN_5
-----------------------------------------------------------------------------
0/FT0 ASR-9006-FAN-V2 - 7710 7590 8970 7500 7530
0/FT1 ASR-9006-FAN-V2 7590 7560 7590 7590 7560 7560
0/PT0-PM0 PWR-2KW-DC-V2 8022 8559
0/PT0-PM1 PWR-2KW-DC-V2 6280 6237
0/PT0-PM2 PWR-2KW-DC-V2 7914 8559
0/PT0-PM3 PWR-2KW-DC-V2 7978 8516
RP/0/RSP0/CPU0:ASR-9006#
注:同じトレイ内の他のファンと比較して、ダッシュ(-)、または大幅に低いRPM値は、ファンの障害または障害を示している可能性があります。
ステップ 1.3:ログからのファンモジュール障害の確認:このコマンドを実行して、ファン関連のアラームがないかシステムログをチェックします。
ログの例を次に示します。
RP/0/RSP0/CPU0:ASR-9006# show logging | include FAN
0/RSP0/ADMIN0:2025 Jul 10 07:52:41.797 IST: canbus_driver[4134]: %PLATFORM-CANB_SERVER-3-ALARM_INDICATION : Raise alarm from CBC0 in slot 0/FT0, alarm code CBC_ALRM_AT_LEAST_ONE_FAN_FAILED
0/RSP0/ADMIN0:2025 Jul 10 07:53:42.798 IST: canbus_driver[4134]: %PLATFORM-CANB_SERVER-3-ALARM_INDICATION : Raise alarm from CBC0 in slot 0/FT0, alarm code CBC_ALRM_AT_LEAST_ONE_FAN_FAILED
0/RSP0/ADMIN0:2025 Jul 10 07:54:43.800 IST: canbus_driver[4134]: %PLATFORM-CANB_SERVER-3-ALARM_INDICATION : Raise alarm from CBC0 in slot 0/FT0, alarm code CBC_ALRM_AT_LEAST_ONE_FAN_FAILED
0/RSP0/ADMIN0:2025 Jul 10 07:55:44.799 IST: canbus_driver[4134]: %PLATFORM-CANB_SERVER-3-ALARM_INDICATION : Raise alarm from CBC0 in slot 0/FT0, alarm code CBC_ALRM_AT_LEAST_ONE_FAN_FAILED
ステップ 2:環境および物理的検査
環境要因は、ファンの動作とシステム全体の冷却に大きく影響する可能性があります。
-
周囲条件:
- ルータの周囲の温度とエアーフローを確認し、動作制限内にあることを確認します。高温になると、ファンの動作が困難になったり、早期に障害が発生したりする可能性があります。
- 目詰まりや不適切な設置が原因で通気が妨げられるダストフィルタやエアプレナムがないか確認します。
-
障害物や破損の目視検査:
- ファンモジュール/トレイに、ファンが自由に回転しないような目に見える汚れ、配線のゆるみ、障害物がないかどうかを確認します。埃の蓄積は、ファンの問題の一般的な原因です。
- モジュール式ファントレイを備えたモデル(ASR 9006、9010、ASR 99xxなど)の場合、安全に使用でき、運用ガイドライン内であれば、疑わしいファントレイを注意深く引き出します。各ファンに回転していないブレードや目に見える破損がないかどうかを目視で確認します。トレイが出ている間に、ファンおよびシャーシスロット内にほこりが付着していないかを確認します。
- ファンモジュールが固定されたモデル(ASR 9001など)の場合、ファンモジュールとコネクタの目視検査には制限がありますが、破損や障害の外部からの徴候がないかどうかの確認は必要です。
ステップ 3:既知の問題とバグの確認
ハードウェアの交換に進む前に、確認されたファンの障害が、ソフトウェアまたはハードウェアの既知の不具合と一致するかどうかを確認することを推奨します。
- Cisco Bug Search Tool:Cisco Bug Search Tool(BST)で、「ASR 9000 fan failure」、「ASR [model number] fan」などのキーワードや、デバイスで実行されている特定のCisco IOS® XRバージョンを使用して検索を行います。ファンの誤報告や実際の障害を引き起こす可能性がある既知の問題を探します。
- シスコのサポートドキュメント:シスコのサポートドキュメントとコミュニティフォーラムで、同様の問題と推奨される回避策または修正について確認します。
ステップ 4:是正措置と交換
次の手順は、ASR 9000シリーズルータのファンモジュールのタイプによって異なります。
固定ファンモジュール搭載のASR 9000シリーズ(ASR 9001など)の場合:
ASR 9001などのモデルには、ホットスワップ非対応の固定ファンモジュールが搭載されています。
- 電源の再投入:初期チェックと環境調整で問題が解決しない場合は、ルータの電源の再投入を実行します。これにより、一時的な問題が解決し、ファンモジュールが正しく再初期化される場合があります。
- 交換(RMA):電源の再投入後にファンモジュールの障害が確認された場合、通常はシャーシ全体のReturn Merchandise Authorization(RMA)が必要です。
注:固定ファンモジュールを交換するには、ルータの電源をオフにする必要があるため、計画的なダウンタイムが必要です。
モジュラファントレイを搭載したASR 9000シリーズ(ASR 9006、ASR 9010、ASR 99xxモデルなど)
これらのモデルには、ホットスワップ可能なモジュラファントレイが搭載されています。
-
再装着(JACK-OUTおよびJACK-IN - JOJI):
- 障害が発生したファンモジュールが取り付けられているファントレイで、JACK-OUT(RJ-A)およびJACK-IN(JOJI)の手順を慎重に実行します。 これには、ファントレイを物理的に取り外してから再挿入する作業が含まれます。
- ファントレイを引き出している間に、ファンの回転を妨げている可能性のある埃や配線がないかどうかを詳細に目視検査します。再挿入時にすべてのファンが回転するかどうかを確認することもできます。
- 取り付け直した後、「admin show environment fan」を使用してステータスを再度確認します。
-
交換(RMA):ファンモジュールが引き続き障害状態であるか、または取り付け直してもファントレイが稼働しない場合は、ファントレイのRMAに進みます。
- 証拠ログの収集:文書化を目的として、再度「show logging | include FAN」を実行し、ファントレイJOJIに関連するログを収集します。
ログの例を次に示します。
RP/0/RSP0/CPU0:ASR-9006# show logging | include FAN
0/RSP0/ADMIN0:Jul 12 01:39:25.215 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_REMOVAL : Location: 0/FT0, Serial#:FOC222XXX
0/RSP0/ADMIN0:Jul 12 01:39:26.522 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_INSERTION : Location: 0/FT0, Serial #:FOC222XXX
0/RSP0/ADMIN0:Jul 12 01:39:26.522 : shelf_mgr[4169]: %INFRA-SHELF_MGR-6-CARD_HW_OPERATIONAL : Card: 0/FT0 hardware state going to Operational
0/RSP0/ADMIN0:Jul 12 01:42:23.584 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_REMOVAL : Location: 0/FT0, Serial#:FOC222XXX
0/RSP0/ADMIN0:Jul 12 01:44:40.495 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_INSERTION : Location: 0/FT0, Serial #:FOC222XXX
0/RSP0/ADMIN0:Jul 12 01:44:40.495 : shelf_mgr[4169]: %INFRA-SHELF_MGR-6-CARD_HW_OPERATIONAL : Card: 0/FT0
- 製品ID(PID)とシリアル番号(SN)の収集:RMAプロセスに必要な、故障したファントレイのPIDとSNを取得します。
コマンド出力例:
Command Syntax:
RP/0/RSP0/CPU0:ASR-9006# show inventory location <location of failed FAN tray>
Sample command:
RP/0/RSP0/CPU0:ASR-9006# show inventory location 0/FT0
NAME: "0/FT0", DESCR: "ASR-9006 Fan Tray V2"
PID: ASR-9006-FAN-V2 , VID: V02, SN: FOC222XXX
- RMAに進みます。不良ファントレイについて、CiscoとのRMAプロセスを開始します。