本文档介绍如何对思科NCS XR平台中的电源单元(PSU)故障进行故障排除。
Cisco 建议您了解以下主题:
注意:Cisco建议您必须能够访问Cisco IOS XR CLI和管理CLI。
本文档中的信息基于以下软件和硬件版本(包括但不限于以下系列):
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。
思科NCS XR路由器系列包括多种针对不同使用案例和性能级别而设计的平台,每种平台都采用不同的电源架构:
思科NCS 540系列:这是一款小密度XR路由器,适用于100G以下带宽应用,如5G NR回程、FTTx和企业分支机构部署。此系列中的某些型号使用具有1+1 AC/DC冗余的固定电源,这意味着电源单元已集成到机箱中,不可现场更换。其他NCS 540型号可以采用模块化电源。
思科NCS 560系列:此模块化系统包括具有交流和直流选项的模块化电源,支持负载分担和保护方案。这些电源通常可现场维修和热插拔,无需关闭系统即可进行更换,并确保高可用性。
思科NCS 5500系列:此高故障恢复能力的模块化路由器平台专为数据中心和高性能网络环境而设计。它采用模块化、可现场更换的PSU,可支持可维护性和冗余。该平台支持具有模块化软件包和恢复功能的Cisco IOS XR软件。
思科NCS 5700系列:此系列以NCS 5500平台为基础,包括增强的转发ASIC设计,并运行Cisco IOS XR7 OS。该系统采用模块化,具有可现场更换的PSU,并支持高可用性和故障恢复能力。PSU旨在实现冗余和热插拔。Cisco IOS XR7 OS提供监控系统和故障管理的高级软件功能。
由Cisco NCS XR路由器中的PM组成的PSU或电源托盘(PT)是负责转换并向系统提供稳定电源的关键硬件组件。PSU/PT通常支持热插拔,并支持冗余和负载共享。可以安装多个PSU在一个模块出现故障时提供备用电源,从而提高系统可用性并最大限度地减少停机时间。
出现故障或未检测到的PSU可能导致系统错误、阻止线路卡正确启动,并导致系统不稳定或完全关闭。这可能会严重影响路由器的运行和网络服务的连续性。由于PSU设计和适用性的差异,问题的性质和严重程度因平台而异。对于具有固定PSU的型号(例如,某些NCS 540系列),发生故障通常需要维修或更换整个设备,从而导致较长的停机时间。模块化系统(例如,NCS 560、5500、5700和大约540型号)允许在单个PSU出现故障时继续运行,并可在不关闭系统的情况下更轻松地进行维护。
解决NCS XR平台中的PSU故障的程序
NCS XR平台中PSU故障的故障排除过程通常概述一致的方法,具体物理操作因型号使用固定PSU还是模块化PSU而异。
在Cisco IOS XR CLI中登录路由器,然后执行这些命令以确定PSU的状态。这些命令在运行Cisco IOS XR的所有NCS XR平台上通用。
步骤1.1.检查平台状态:运行此命令以确定它是否为PSU故障。
命令输出示例:
RP/0/RP0/CPU0:NCS-540-B-LNT#show platform
Thu Dec 11 10:06:59.917 +0530
Node Type State Config state
--------------------------------------------------------------------------------
0/RP0/CPU0 N540X-16Z4G8Q2C-D(Active) IOS XR RUN NSHUT
0/PM0 N540-PSU-FIXED-D OPERATIONAL NSHUT
0/PM1 N540-PSU-FIXED-D OFFLINE NSHUT
0/FT0 N540-X-BB-FAN OPERATIONAL NSHUT
注意:如果所有电源模块(例如,'0/PM0', '0/PM1')都处于'OPERATIONAL'状态,则您可以断定电源工作正常。否则,如果任何电源模块处于非操作状态或故障状态,则表示PSU故障。
步骤1.2.识别故障电源模块:运行此命令以检查各个PSU的状态和详细信息。
RP/0/RP0/CPU0:NCS-540-B-LNT#show environment power
Thu Dec 11 12:50:16.275 +0530
================================================================================
CHASSIS LEVEL POWER INFO: 0
================================================================================
Total output power capacity : 300W
Total output power required : 175W
Total power input : N/A
Total power output : 97W
================================================================================
Power Supply Status
Module Type
================================================================================
0/PM1 N540-PSU-FIXED-D OFFLINE
0/PM0 N540-PSU-FIXED-D OK
RP/0/RP0/CPU0:KOL_ISK_901_1AC_M_CNCS540R543#
注意:电源模块的“故障”或“无电源”状态或与其他模块相比显着低/零的输入/输出值表示电源出现故障或故障。
步骤1.3.从警报中验证电源模块故障:运行此命令可检查与电源相关的警报的系统警报。
RP/0/RP0/CPU0:NCS-540-B-LNT#show alarms brief
Thu Dec 11 12:50:02.667 +0530
show alarms brief system active
--------------------------------------------------------------------------------
Active Alarms for 0/RP0
--------------------------------------------------------------------------------
Location Severity Group Set Time Description
--------------------------------------------------------------------------------
0/PM1 Major Environ 10/19/2025 12:30:42 +0530 Power Module Generic Fault (PM_GENERIC_FAULT)
0/PM1 Major Environ 10/19/2025 12:30:42 +0530 Power Module Error (PM_I2C_ACCESS_ERROR)
0 Major Environ 10/19/2025 12:30:42 +0530 Power Group redundancy lost
--------------------------------------------------------------------------------
注意:指示“Power Group Redundancy Lost”或“Power Module Error”确认风扇故障的警报消息。
环境因素可能会严重影响电源运行和系统整体稳定性。
1.环境条件:
检验路由器周围的环境温度和气流,确保它处于运行限制内。高温会导致电源过热,降低电源效率,并导致过早故障。
检查PSU和机箱通风口周围是否有气流障碍。确保通风良好,散热通路畅通。
确认电源(例如,交流插座、直流电源)稳定且在NCS系列路由器的指定电压和电流范围内。
2.对障碍物/损害进行实地检查:
检查PSU是否存在任何可能妨碍连通性的可见碎片、电缆松动或障碍物。
在继续进行硬件更换之前,建议检查观察到的电源模块故障是否与任何已知软件或硬件错误一致。
后续步骤取决于NCS XR系列路由器中的PSU类型。
具有固定PSU的型号通常不支持热插拔。
注意:更换固定的PS需要计划内停机,因为路由器必须断电。
这些平台具有热插拔模块化PSU。
1.重新拔插(插孔和插孔(JOJI)):
在遇到问题的电源模块上仔细执行JOJI过程。这涉及以物理方式移除电源模块,然后重新插入。
2.更换RMA:如果问题与PT或电源模块隔离,并且重新拔插不能解决问题,则可能表示硬件故障。在这种情况下,客户可以向Cisco TAC提出案例进行验证。确认后,思科TAC将评估情况并验证日志,以便为受影响的PT或电源模块启动RMA。或者,如果您的服务级别协议包括直接或自动硬件更换,则RMA流程可以自动继续执行,而无需其他验证。
示例日志:
0/RP0/ADMIN0:Nov 26 06:20:32.269 UTC: shelf_mgr[3081]: %INFRA-SHELF_MGR-5-CARD_REMOVAL : Location: 0/PM0, Serial#: DTMXXXXXX
0/RP0/ADMIN0:Nov 26 06:20:32.269 UTC: envmon[3021]: %PKT_INFRA-FM-3-FAULT_MAJOR : ALARM_MAJOR :Power Module Output Disabled :CLEAR :0/PM0: Power module is under HW_OUTPUT_DISABLED condition.
0/RP0/ADMIN0:Nov 26 06:20:32.269 UTC: envmon[3021]: %PKT_INFRA-FM-6-FAULT_INFO : Power Module removal :INFO :0/PM0:
0/RP0/ADMIN0:Nov 26 06:20:59.052 UTC: envmon[3021]: %PKT_INFRA-FM-6-FAULT_INFO : Power Module insertion :INFO :0/PM0:
0/RP0/ADMIN0:Nov 26 06:20:59.053 UTC: shelf_mgr[3081]: %INFRA-SHELF_MGR-5-CARD_INSERTION : Location: 0/PM0, Serial #:DTMXXXXXX
0/RP0/ADMIN0:Nov 26 06:20:59.053 UTC: envmon[3021]: %PKT_INFRA-FM-3-FAULT_MAJOR : ALARM_MAJOR :Power Module Output Disabled :DECLARE :0/PM0: Power module is under HW_OUTPUT_DISABLED condition.
0/RP0/ADMIN0:Nov 26 06:20:59.053 UTC: shelf_mgr[3081]: %INFRA-SHELF_MGR-6-HW_EVENT : Rcvd HW event HW_EVENT_FAILURE, event_reason_str 'No Input or HW Power Failure' for card 0/PM0
命令输出示例:
Command Syntax:
RP/0/RP0/CPU0:NCS-560-B#show inventory location <location of the failed power module>
Sample command:
RP/0/RP0/CPU0:NCS-560-B#show inventory location 0/PM0
Thu Dec 25 20:41:18.031 KST
NAME: "0/PM0", DESCR: "ASR 900 1200W AC Power Supply"
PID: A900-PWR1200-A , VID: V03 , SN: DCAXXXXXX
RP/0/RP0/CPU0:NCS-560-B#
| 版本 | 发布日期 | 备注 |
|---|---|---|
1.0 |
27-Apr-2026
|
初始版本 |