本文檔介紹如何在Cisco NCS XR平台中對電源裝置(PSU)故障進行故障排除。
思科建議您瞭解以下主題:
附註:Cisco建議您必須能夠訪問Cisco IOS XR CLI和管理CLI。
本檔案中的資訊是根據以下軟體和硬體版本(包括但不限於以下系列):
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路運作中,請確保您瞭解任何指令可能造成的影響。
Cisco NCS XR路由器系列包括幾個針對不同使用案例和效能級別設計的平台,每個平台都採用不同的電源架構:
Cisco NCS 540系列:這是一款小密度XR路由器,針對低於100G的頻寬應用,如5G NR回程、FTTx和企業分支機構部署。此系列的某些型號使用具有1+1 AC/DC冗餘的固定電源,這意味著電源單元整合到機箱中,不能現場更換。其他NCS 540型號可以採用模組化電源。
Cisco NCS 560系列:此模組化系統包括具有交流和直流選項的模組化電源,支援負載共用和保護方案。這些電源通常可現場維修和熱插拔,允許更換而無需系統關機,並確保高可用性。
Cisco NCS 5500系列:這種高故障恢復能力的模組化路由器平台專為資料中心和高效能網路環境而設計。它採用模組化、可現場更換的PSU,可支援可維護性和冗餘。該平台支援具有模組化軟體包和恢復功能的Cisco IOS XR軟體。
Cisco NCS 5700系列:此系列構建於NCS 5500平台之上,包括增強的轉發ASIC設計,並運行Cisco IOS XR7 OS。該系統採用模組化,具有現場可更換的PSU,並支援高可用性和故障恢復能力。PSU專為冗餘和熱交換而設計。Cisco IOS XR7 OS提供監控系統和故障管理的高級軟體功能。
由Cisco NCS XR路由器中的PM組成的PSU或電源托盤(PT)是負責向系統轉換和提供穩定電源的關鍵硬體元件。PSU/PT通常可熱插拔,並支援冗餘和負載共用。可以安裝多個PSU,以便在一個模組發生故障時提供備用電源,從而提高系統可用性並最大限度地減少停機時間。
出現故障或未檢測到的PSU可能導致系統錯誤、阻止線卡正確啟動,並導致系統不穩定或完全關機。這可能會嚴重影響路由器的運行和網路服務的連續性。由於PSU設計和可維護性方面的差異,問題的性質和嚴重程度因平台而異。對於具有固定PSU的型號(例如某些NCS 540系列),故障通常需要維修或更換整個裝置,從而導致較長的停機時間。模組化系統(例如NCS 560、5500、5700和大約540型號)允許在單個PSU出現故障時繼續操作,並且可以在不關閉系統的情況下更輕鬆地進行維護。
在NCS XR平台中解決PSU故障的程式
NCS XR平台中PSU故障的故障排除過程通常概述一種一致的方法,具體物理操作因型號使用固定PSU還是模組化PSU而異。
在Cisco IOS XR CLI中登入路由器,然後執行這些命令以確定PSU的狀態。這些命令在運行Cisco IOS XR的所有NCS XR平台上通用。
步驟1.1.檢查平台狀態:運行此命令以確定它是否為PSU故障。
命令輸出示例:
RP/0/RP0/CPU0:NCS-540-B-LNT#show platform
Thu Dec 11 10:06:59.917 +0530
Node Type State Config state
--------------------------------------------------------------------------------
0/RP0/CPU0 N540X-16Z4G8Q2C-D(Active) IOS XR RUN NSHUT
0/PM0 N540-PSU-FIXED-D OPERATIONAL NSHUT
0/PM1 N540-PSU-FIXED-D OFFLINE NSHUT
0/FT0 N540-X-BB-FAN OPERATIONAL NSHUT
附註:如果所有電源模組(例如,'0/PM0'、'0/PM1')都處於'OPERATIONAL'狀態,則可以斷定電源工作正常。否則,如果任何電源模組處於非運行狀態或故障狀態,則意味著PSU故障。
步驟1.2.識別故障的電源模組:運行此命令以檢查單個PSU的狀態和詳細資訊。
RP/0/RP0/CPU0:NCS-540-B-LNT#show environment power
Thu Dec 11 12:50:16.275 +0530
================================================================================
CHASSIS LEVEL POWER INFO: 0
================================================================================
Total output power capacity : 300W
Total output power required : 175W
Total power input : N/A
Total power output : 97W
================================================================================
Power Supply Status
Module Type
================================================================================
0/PM1 N540-PSU-FIXED-D OFFLINE
0/PM0 N540-PSU-FIXED-D OK
RP/0/RP0/CPU0:KOL_ISK_901_1AC_M_CNCS540R543#
附註:電源模組的「故障」或「無電源」狀態,或者與其他模組相比輸入/輸出值明顯偏低/為零,表示電源出現故障或故障。
步驟1.3.從警報中驗證電源模組故障:運行此命令可檢查與電源相關的警報的系統警報。
RP/0/RP0/CPU0:NCS-540-B-LNT#show alarms brief
Thu Dec 11 12:50:02.667 +0530
show alarms brief system active
--------------------------------------------------------------------------------
Active Alarms for 0/RP0
--------------------------------------------------------------------------------
Location Severity Group Set Time Description
--------------------------------------------------------------------------------
0/PM1 Major Environ 10/19/2025 12:30:42 +0530 Power Module Generic Fault (PM_GENERIC_FAULT)
0/PM1 Major Environ 10/19/2025 12:30:42 +0530 Power Module Error (PM_I2C_ACCESS_ERROR)
0 Major Environ 10/19/2025 12:30:42 +0530 Power Group redundancy lost
--------------------------------------------------------------------------------
附註:指示「電源組冗餘丟失」或「電源模組錯誤」的警報消息確認風扇故障。
環境因素可顯著影響電源運行和系統整體穩定性。
1.環境條件:
檢驗路由器周圍的環境溫度和氣流,確保它處於工作限制範圍內。高溫會導致電源過熱,降低其效率,並導致過早故障。
檢查PSU和機箱通風口周圍是否有氣流障礙。確保通風和散熱路徑暢通。
確認電源(例如,交流電源插座、直流電源饋電)是否穩定,且在NCS系列路由器的指定電壓和電流範圍內。
2.障礙物/損壞的實物檢查:
檢查PSU是否有任何可能妨礙連通性的可見碎片、佈線鬆動或障礙物。
在繼續進行硬體更換之前,建議檢查觀察到的電源模組故障是否與任何已知軟體或硬體錯誤一致。
接下來的步驟取決於NCS XR系列路由器中的PSU型別。
具有固定PSU的型號通常不能熱插拔。
附註:更換固定的PS需要計畫內停機,因為路由器必須斷電。
這些平台具有熱插拔模組化PSU。
1.重新拔插(插孔和插孔(JOJI)):
在遇到問題的電源模組上仔細執行JOJI過程。這涉及以物理方式卸下電源模組,然後重新插入。
2.更換RMA:如果問題與PT或電源模組隔離,並且重新拔插不能解決問題,則可能表示硬體故障。在此類情況下,客戶可向Cisco TAC提出案件以進行驗證。確認後,Cisco TAC將評估情況並驗證日誌,以便為受影響的PT或電源模組起始RMA。或者,如果您的服務級別協定包括直接或自動硬體更換,則RMA流程可以自動繼續進行,無需其他驗證。
示例日誌:
0/RP0/ADMIN0:Nov 26 06:20:32.269 UTC: shelf_mgr[3081]: %INFRA-SHELF_MGR-5-CARD_REMOVAL : Location: 0/PM0, Serial#: DTMXXXXXX
0/RP0/ADMIN0:Nov 26 06:20:32.269 UTC: envmon[3021]: %PKT_INFRA-FM-3-FAULT_MAJOR : ALARM_MAJOR :Power Module Output Disabled :CLEAR :0/PM0: Power module is under HW_OUTPUT_DISABLED condition.
0/RP0/ADMIN0:Nov 26 06:20:32.269 UTC: envmon[3021]: %PKT_INFRA-FM-6-FAULT_INFO : Power Module removal :INFO :0/PM0:
0/RP0/ADMIN0:Nov 26 06:20:59.052 UTC: envmon[3021]: %PKT_INFRA-FM-6-FAULT_INFO : Power Module insertion :INFO :0/PM0:
0/RP0/ADMIN0:Nov 26 06:20:59.053 UTC: shelf_mgr[3081]: %INFRA-SHELF_MGR-5-CARD_INSERTION : Location: 0/PM0, Serial #:DTMXXXXXX
0/RP0/ADMIN0:Nov 26 06:20:59.053 UTC: envmon[3021]: %PKT_INFRA-FM-3-FAULT_MAJOR : ALARM_MAJOR :Power Module Output Disabled :DECLARE :0/PM0: Power module is under HW_OUTPUT_DISABLED condition.
0/RP0/ADMIN0:Nov 26 06:20:59.053 UTC: shelf_mgr[3081]: %INFRA-SHELF_MGR-6-HW_EVENT : Rcvd HW event HW_EVENT_FAILURE, event_reason_str 'No Input or HW Power Failure' for card 0/PM0
命令輸出示例:
Command Syntax:
RP/0/RP0/CPU0:NCS-560-B#show inventory location <location of the failed power module>
Sample command:
RP/0/RP0/CPU0:NCS-560-B#show inventory location 0/PM0
Thu Dec 25 20:41:18.031 KST
NAME: "0/PM0", DESCR: "ASR 900 1200W AC Power Supply"
PID: A900-PWR1200-A , VID: V03 , SN: DCAXXXXXX
RP/0/RP0/CPU0:NCS-560-B#
| 修訂 | 發佈日期 | 意見 |
|---|---|---|
1.0 |
27-Apr-2026
|
初始版本 |