简介
本文档介绍如何排除NCS XR平台中的风扇模块故障。
先决条件
要求
Cisco 建议您了解以下主题:
注意:Cisco建议您必须能够访问Cisco IOS® XR CLI和管理CLI。
注意:Cisco建议您必须能够访问Cisco IOS® XR CLI和管理CLI。
使用的组件
本文档中的信息基于以下软件和硬件版本:
这包括(但不限于)以下系列:
- NCS 540系列
- NCS 560系列
- NCS 5500系列
- NCS 5700系列
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。
背景信息
思科NCS XR路由器系列包括多种针对不同使用案例和性能级别设计的平台,每种平台都有不同的风扇模块类型和系统架构:
·思科NCS 540系列:这是一款小密度XR路由器,适用于100G以下带宽应用,如5G NR回程、FTTx和企业分支机构部署。它使用具有3+1风扇冗余设计和侧对侧强制空气冷却的风扇模块。电源采用1+1交流/直流冗余固定,系统采用保形涂层加固并支持C类时序合规性。
·思科NCS 560系列:此模块化系统包括三个高速模块化风扇托架,必须安装这些托架才能运行。这些风扇托架包含冗余风扇,可现场维修,因此无需关闭系统即可进行更换。系统支持在单个风扇发生故障时运行,并根据环境温度实施重新插入风扇托架的时间限制。它还具有内置的灰尘过滤器以优化气流。电源采用模块化设计,提供交流和直流选项,支持负载分担和保护方案。
·思科NCS 5500系列:此高故障恢复能力的模块化路由器平台专为数据中心和高性能网络环境而设计。它采用模块化、可现场更换的风扇模块,可支持可维护性和冗余。故障排除包括系统日志检查、硬件状态和管理软件包以维护系统稳定性。该平台支持具有模块化软件包和恢复功能的Cisco IOS® XR软件。
·思科NCS 5700系列:此系列以NCS 5500平台为基础,包括增强的转发ASIC设计,并运行Cisco IOS® XR7 OS。它有NCS-57B1-6D24和NCS-57B1-5DSE等变体。该系统采用模块化设计,具有可现场更换的风扇托架和电源,支持高可用性和故障恢复能力。风扇托架专为冗余和热插拔而设计。Cisco IOS® XR7 OS提供监控系统和故障管理的高级软件功能。
问题
思科NCS XR路由器中的风扇故障会影响系统冷却和可靠性。由于风扇模块设计和适用性的差异,问题的性质和严重程度因平台而异。NCS 540系列中有几种型号使用固定的、不可现场更换的风扇模块,采用3+1冗余设计。在这里,风扇故障通常需要维修或更换整个设备。这可能会导致更长的停机时间和更复杂的故障排除。
NCS 560、5500和5700系列以及NCS 540系列中的少数型号采用了模块化、可现场更换的风扇托架,旨在实现冗余和热插拔。这样可以在单个风扇发生故障时继续运行,而且无需关闭系统即可更轻松地维护。
这些模块化系统中的风扇故障可能会触发系统警报,需要监控环境温度限制,并需要及时重新插入风扇托架,以保持最佳的气流和系统稳定性。总体而言,NCS XR路由器中的风扇故障会导致过热、性能下降和潜在的硬件损坏风险。这就需要针对特定路由器系列和风扇架构进行快速检测、诊断和适当的补救措施。
解决NCS XR平台中的风扇模块故障的程序
NCS XR平台中风扇模块故障的故障排除过程通常概述一致的方法,具体物理操作因型号使用固定风扇模块还是模块化风扇托架而异。
步骤1.初始CLI验证
在Cisco IOS® XR CLI中登录到路由器,然后执行这些命令以确定风扇托架和单个风扇的状态。这些命令在运行Cisco IOS® XR的所有NCS XR平台中常用。
第1.1步检查平台状态:运行此命令可确定是风扇托架故障还是风扇托架中的一个或多个风扇故障。
命令输出示例:
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#show platform
Thu Jul 24 12:33:45.143
Node Type State Config state
--------------------------------------------------------------------------------
0/RP0/CPU0 N540X-12Z16G-SYS-D(Active) IOS XR RUN NSHUT
0/PM0 N540-PSU-FIXED-D OPERATIONAL NSHUT
0/PM1 N540-PSU-FIXED-D OPERATIONAL NSHUT
0/FT0 N540-FAN OPERATIONAL NSHUT
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#
注意:如果所有风扇托架都处于“OPERATIONAL”(运行)状态,则您可以断定,风扇托架工作正常。否则,如果任何风扇托架处于非工作状态,则表示风扇托架处于故障状态。
步骤1.2.确定故障风扇模块:运行此命令可检查风扇托架中单个风扇的状态和速度。
命令输出示例:
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#show environment fan
Thu Jul 24 12:33:09.673
=========================================================================================
Fan speed (rpm)
Location FRU Type FAN_0 FAN_1 FAN_2 FAN_3
-----------------------------------------------------------------------------------------
0/FT0 N540-FAN 25680 0 25440 26130
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#
注意:如果值为“0”,或者与同一托盘中的其他风扇相比RPM值显着降低,则表示风扇出现故障或故障。
步骤1.3.从警报验证风扇模块故障:运行此命令可检查与风扇相关的警报的系统警报。
示例日志:
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#show alarms brief system active
Thu Jul 24 12:33:23.874
------------------------------------------------------------------------------------
Active Alarms
------------------------------------------------------------------------------------
Location Severity Group Set Time Description
------------------------------------------------------------------------------------
0/FT0 Minor Environ 07/24/2025 10:35:44 WIB Fan 1: Out of tolerance
0/FT0 Minor Environ 07/24/2025 10:35:44 WIB Sensor in failed state
0 Minor Environ 07/24/2025 10:35:44 WIB Sensor in failed state
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#
注意:警报消息指示“Fan X:超出容差”或“传感器处于故障状态”确认风扇故障。
注意:警报消息指示“Fan X:超出容差”或“传感器处于故障状态”确认风扇故障。
步骤2.环境和实物检查
环境因素可显着影响风扇运行和系统整体冷却。
-
环境条件:
- 检验路由器周围的环境温度和气流,确保它处于运行限制内。高温会使风扇工作更困难或过早失效。
- 检查是否有任何灰尘过滤器或气室可能堵塞或安装不当,从而限制气流。
-
物理检查是否有障碍物/损坏:
- 检查风扇模块/托架是否有任何可能妨碍风扇自由旋转的碎片、电缆松动或障碍物。灰尘堆积是风扇问题的常见原因。
- 对于采用模块化风扇托架的平台(例如,NCS 560、NCS 5500、NCS 5700和某些NCS 540型号),如果这样做安全并且符合操作指南,请考虑小心拉出可疑的风扇托架。目视检查各个风扇是否未旋转的刀片或是否有明显的损坏。当托盘退出时,检查风扇和机箱插槽内是否有灰尘。
- 对于具有固定风扇模块(例如,某些NCS 540型号)的平台,风扇模块和连接器的物理检查是有限的,但仍必须执行以检查是否有任何外部损坏或障碍迹象。
步骤3.检查已知问题和错误
在继续进行硬件更换之前,建议检查观察到的风扇故障是否与任何已知软件或硬件缺陷一致。
- Cisco Bug Search Tool:使用关键字(如“NCS XR fan failure”、“NCS [model number] fan”和设备上运行的特定Cisco IOS® XR版本)搜索Cisco Bug Search Tool(BST)。查找可能导致风扇错误报告或实际故障的已知问题。
- 思科支持文档:查看思科和社区论坛的支持文档,了解所报告的类似问题以及推荐的解决方法或修复方法。
步骤4.补救行动和替换
后续步骤取决于NCS XR平台中的风扇模块的类型。
对于具有固定风扇模块的NCS XR平台(例如,某些NCS 540型号)
带有固定风扇模块的型号通常不能热插拔。
- 重新通电:如果初始检查和环境调整不能解决问题,请对路由器重新通电。这有时可以清除瞬态问题并允许风扇模块正确重新初始化。
- 更换(RMA):如果风扇模块在重新通电后确认发生故障,则通常需要对整个设备或机箱进行退货授权(RMA)。
注意:更换固定风扇模块需要计划内停机,因为必须关闭路由器电源。
对于具有模块化风扇托架的NCS XR平台(例如,大多数NCS 540、NCS 560、NCS 5500、NCS 5700型号)
这些平台配有热插拔模块化风扇托架。
-
重新拔插(插孔和插孔 — JOJI):
- 在包含有故障的风扇模块的风扇托架上仔细执行插孔和插孔(JOJI)程序。 这涉及以物理方式移除风扇托架,然后重新插入。
- 在拉出风扇托架时,对可能妨碍风扇旋转的碎片或配线松动进行彻底的目视检查。您还可以观察所有风扇在重新插入时是否尝试旋转。
- 重新拔插后,使用“show environment fan”再次检验状态。
-
更换(RMA):如果任何风扇模块仍处于故障状态,或者风扇托架在重新拔插后保持非工作状态,则继续使用风扇托架的RMA。
- 收集证据日志:运行“show logging | include FAN"再次捕获与风扇托架JOJI相关的日志以供文档之用。
示例日志:
RP/0/RP0/CPU0:N540-24Z8Q2C-SYS# show logging | include FAN
0/RSP0/ADMIN0:Jul 12 01:39:25.215 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_REMOVAL : Location: 0/FT0, Serial#: N/A
0/RSP0/ADMIN0:Jul 12 01:39:26.522 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_INSERTION : Location: 0/FT0, Serial #: N/A
0/RSP0/ADMIN0:Jul 12 01:39:26.522 : shelf_mgr[4169]: %INFRA-SHELF_MGR-6-CARD_HW_OPERATIONAL : Card: 0/FT0 hardware state going to Operational
0/RSP0/ADMIN0:Jul 12 01:42:23.584 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_REMOVAL : Location: 0/FT0, Serial#: N/A
0/RSP0/ADMIN0:Jul 12 01:44:40.495 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_INSERTION : Location: 0/FT0, Serial #:N/A
0/RSP0/ADMIN0:Jul 12 01:44:40.495 : shelf_mgr[4169]: %INFRA-SHELF_MGR-6-CARD_HW_OPERATIONAL : Card: 0/FT0
- 收集产品ID(PID)和序列号(SN):获取RMA过程所需的故障风扇托架的PID和SN。
命令输出示例:
Command Syntax:
RP/0/RP0/CPU0:N540-24Z8Q2C-SYS# show inventory location <location of failed FAN tray>
Sample command:
RP/0/RP0/CPU0:N540-24Z8Q2C-SYS# show inventory location 0/FT0
NAME: "0/FT0", DESCR: "NCS 540 Fan"
PID: N540-FAN , VID: N/A, SN: N/A
- 继续执行RMA:对有故障的风扇托架向思科启动RMA流程。