简介
本文档介绍如何对ASR9k中的风扇模块故障进行故障排除。
先决条件
要求
Cisco 建议您了解以下主题:
注意:Cisco建议您必须能够访问Cisco IOS® XR CLI和管理CLI。
使用的组件
本文档中的信息基于以下软件和硬件版本:
- ASR 9000系列包含多种型号,包括ASR 9001、ASR 9006、ASR 9010、ASR 9901、ASR 9906、ASR 9910、ASR 9912和ASR 9922等。
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。
背景信息
Cisco ASR 9000系列聚合服务路由器(ASR9k)是专为服务提供商网络设计的高性能路由器,具备可扩展性、可靠性和高级功能,可支持网络环境需求。ASR9k路由器提供模块化硬件架构,允许灵活配置和扩展,以满足各种网络需求。
ASR9k路由器系列包括:
·模块化设计:ASR9k路由器采用模块化组件(如路由处理器、线卡和风扇托架),可在不中断网络操作的情况下轻松进行升级和维护。
·冷却系统:例如,ASR 9001型号使用包含冗余风扇的单个前面访问风扇托架,以确保持续冷却。风扇托架支持侧对侧气流,从软件版本4.3.0开始,可以在特定环境温度限制下在线插拔(OIR),从而提高适用性。
•高可用性:ASR9k系列支持冗余电源和风扇,有助于实现高可用性,并最大限度地减少停机时间。
•性能和可扩展性:ASR9k路由器旨在处理大规模聚合和边缘路由,支持适用于服务提供商核心和边缘网络的高吞吐量和高级路由协议。
·软件功能:路由器运行Cisco IOS® XR软件,该软件提供运营商级可靠性、模块性和可编程性,以支持不断发展的网络需求。
问题
ASR 9000系列路由器中的风扇模块或风扇托架故障可能导致冷却不充分,导致关键硬件组件过热。此过热可能导致系统不稳定、性能下降、意外关机或永久硬件损坏,最终影响网络可用性和服务可靠性。鉴于冷却系统在维护设备运行状况方面的关键作用,及时检测和缓解风扇故障对于防止网络中断和维持服务提供商环境中的高可用性至关重要。
解决ASR9k中的FAN模块故障的步骤
排除ASR 9000系列路由器中风扇模块故障的过程通常概括了各种型号的一致方法,具体物理操作因型号使用固定风扇模块还是模块化风扇托架而异。
步骤1.初始CLI验证
在Cisco IOS® XR CLI中登录到路由器,然后执行这些命令以确定风扇托架和单个风扇的状态。这些命令在运行Cisco IOS® XR的所有ASR 9000平台中均常见。
第1.1步检查平台状态:运行此命令可确定是风扇托架故障还是风扇托架中的一个或多个风扇故障。
命令输出示例:
RP/0/RSP0/CPU0:ASR-9006#show platform
Wed Jul 16 12:16:00.408 IST
Node Type State Config state
--------------------------------------------------------------------------------
0/RSP0/CPU0 A9K-RSP5-SE(Active) IOS XR RUN NSHUT
0/RSP1/CPU0 A9K-RSP5-SE(Standby) IOS XR RUN NSHUT
0/FT0 ASR-9006-FAN-V2 OPERATIONAL NSHUT
0/FT1 ASR-9006-FAN-V2 OPERATIONAL NSHUT
0/0/CPU0 A9K-MOD200-SE IOS XR RUN NSHUT
0/0/0 A9K-MPA-20X1GE OK
0/1/CPU0 A9K-8X100GE-SE IOS XR RUN NSHUT
0/2/CPU0 A9K-MOD200-SE IOS XR RUN NSHUT
0/2/0 A9K-MPA-20X10GE OK
0/PT0 A9K-DC-PEM-V2 OPERATIONAL NSHUT
RP/0/RSP0/CPU0:ASR-9006#
注意:如果所有风扇托架都处于“OPERATIONAL”(运行)状态,则您可以断定,风扇托架工作正常。否则,如果任何风扇托架处于非工作状态,则表示风扇托架处于故障状态。
步骤1.2.确定发生故障的风扇模块:运行此命令可检查风扇托架中单个风扇的状态和速度。
命令输出示例:
RP/0/RSP0/CPU0:ASR-9006#admin show environment fan
Wed Jul 16 12:16:09.843 IST
=============================================================================
Fan speed (rpm)
Location FRU Type FAN_0 FAN_1 FAN_2 FAN_3 FAN_4 FAN_5
-----------------------------------------------------------------------------
0/FT0 ASR-9006-FAN-V2 - 7710 7590 8970 7500 7530
0/FT1 ASR-9006-FAN-V2 7590 7560 7590 7590 7560 7560
0/PT0-PM0 PWR-2KW-DC-V2 8022 8559
0/PT0-PM1 PWR-2KW-DC-V2 6280 6237
0/PT0-PM2 PWR-2KW-DC-V2 7914 8559
0/PT0-PM3 PWR-2KW-DC-V2 7978 8516
RP/0/RSP0/CPU0:ASR-9006#
注意:与同一托盘中的其他风扇相比,破折号(“ — ”)或明显较低的RPM值可能表示风扇发生故障或故障。
步骤1.3.从日志验证风扇模块故障:运行此命令可检查与风扇相关的警报的系统日志。
示例日志:
RP/0/RSP0/CPU0:ASR-9006# show logging | include FAN
0/RSP0/ADMIN0:2025 Jul 10 07:52:41.797 IST: canbus_driver[4134]: %PLATFORM-CANB_SERVER-3-ALARM_INDICATION : Raise alarm from CBC0 in slot 0/FT0, alarm code CBC_ALRM_AT_LEAST_ONE_FAN_FAILED
0/RSP0/ADMIN0:2025 Jul 10 07:53:42.798 IST: canbus_driver[4134]: %PLATFORM-CANB_SERVER-3-ALARM_INDICATION : Raise alarm from CBC0 in slot 0/FT0, alarm code CBC_ALRM_AT_LEAST_ONE_FAN_FAILED
0/RSP0/ADMIN0:2025 Jul 10 07:54:43.800 IST: canbus_driver[4134]: %PLATFORM-CANB_SERVER-3-ALARM_INDICATION : Raise alarm from CBC0 in slot 0/FT0, alarm code CBC_ALRM_AT_LEAST_ONE_FAN_FAILED
0/RSP0/ADMIN0:2025 Jul 10 07:55:44.799 IST: canbus_driver[4134]: %PLATFORM-CANB_SERVER-3-ALARM_INDICATION : Raise alarm from CBC0 in slot 0/FT0, alarm code CBC_ALRM_AT_LEAST_ONE_FAN_FAILED
步骤2.环境和实物检查
环境因素可显着影响风扇运行和系统整体冷却。
-
环境条件:
- 检验路由器周围的环境温度和气流,确保它处于运行限制内。高温会使风扇工作更困难或过早失效。
- 检查是否有任何灰尘过滤器或气室可能堵塞或安装不当,从而限制气流。
-
物理检查是否有障碍物/损坏:
- 检查风扇模块/托架是否有任何可能妨碍风扇自由旋转的碎片、电缆松动或障碍物。灰尘堆积是风扇问题的常见原因。
- 对于带有模块化风扇托架的型号(例如,ASR 9006、9010、ASR 99xx),如果这样做安全并且符合操作指南,请小心拉出怀疑有问题的风扇托架。目视检查各个风扇是否未旋转的刀片或是否有明显的损坏。当托盘退出时,检查风扇和机箱插槽内是否有灰尘。
- 对于具有固定风扇模块(例如,ASR 9001)的型号,对风扇模块和连接器的物理检查是有限的,但是仍然必须检查是否有任何外部损坏或阻塞迹象。
步骤3.检查已知问题和错误
在继续进行硬件更换之前,建议检查观察到的风扇故障是否与任何已知软件或硬件缺陷一致。
- Cisco Bug Search Tool:使用关键字(如“ASR 9000风扇故障”、“ASR [型号]风扇”和设备上运行的特定Cisco IOS® XR版本)搜索Cisco Bug Search Tool(BST)。查找可能导致风扇错误报告或实际故障的已知问题。
- 思科支持文档:查看思科支持文档和社区论坛,了解所报告的类似问题以及推荐的解决方法或修复方法。
步骤4.补救行动和替换
后续步骤取决于ASR 9000系列路由器中的风扇模块的类型。
对于具有固定风扇模块的ASR 9000系列(例如,ASR 9001):
ASR 9001等型号具有不可热插拔的固定风扇模块。
- 重新通电:如果初始检查和环境调整不能解决问题,请对路由器重新通电。这有时可以清除瞬态问题并允许风扇模块正确重新初始化。
- 更换(RMA):如果风扇模块在重新通电后确认发生故障,则通常需要对整个机箱进行退货授权(RMA)。
注意:更换固定风扇模块需要计划内停机,因为必须关闭路由器电源。
适用于带有模块化风扇托架的ASR 9000系列(例如,ASR 9006、ASR 9010、ASR 99xx型号)
这些型号采用可热插拔的模块化风扇托架。
-
重新拔插(插孔和插孔 — JOJI):
- 在包含有故障的风扇模块的风扇托架上仔细执行插孔和插孔(JOJI)程序。 这涉及以物理方式移除风扇托架,然后重新插入。
- 在拉出风扇托架时,对可能妨碍风扇旋转的碎片或配线松动进行彻底的目视检查。您还可以观察所有风扇在重新插入时是否尝试旋转。
- 重新拔插后,使用“admin show environment fan”再次验证状态。
-
更换(RMA):如果风扇模块仍处于故障状态,或者风扇托架在重新拔插后保持非工作状态,则继续风扇托架的RMA。
- 收集证据日志:运行" show logging | include FAN ",以捕获与风扇托架JOJI相关的日志,以供记录之用。
示例日志:
RP/0/RSP0/CPU0:ASR-9006# show logging | include FAN
0/RSP0/ADMIN0:Jul 12 01:39:25.215 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_REMOVAL : Location: 0/FT0, Serial#:FOC222XXX
0/RSP0/ADMIN0:Jul 12 01:39:26.522 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_INSERTION : Location: 0/FT0, Serial #:FOC222XXX
0/RSP0/ADMIN0:Jul 12 01:39:26.522 : shelf_mgr[4169]: %INFRA-SHELF_MGR-6-CARD_HW_OPERATIONAL : Card: 0/FT0 hardware state going to Operational
0/RSP0/ADMIN0:Jul 12 01:42:23.584 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_REMOVAL : Location: 0/FT0, Serial#:FOC222XXX
0/RSP0/ADMIN0:Jul 12 01:44:40.495 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_INSERTION : Location: 0/FT0, Serial #:FOC222XXX
0/RSP0/ADMIN0:Jul 12 01:44:40.495 : shelf_mgr[4169]: %INFRA-SHELF_MGR-6-CARD_HW_OPERATIONAL : Card: 0/FT0
- 收集产品ID(PID)和序列号(SN):获取RMA流程所需的故障风扇托架的PID和SN。
命令输出示例:
Command Syntax:
RP/0/RSP0/CPU0:ASR-9006# show inventory location <location of failed FAN tray>
Sample command:
RP/0/RSP0/CPU0:ASR-9006# show inventory location 0/FT0
NAME: "0/FT0", DESCR: "ASR-9006 Fan Tray V2"
PID: ASR-9006-FAN-V2 , VID: V02, SN: FOC222XXX
- 继续执行RMA:对有故障的风扇托架向思科启动RMA流程。