簡介
本文檔介紹如何對NCS XR平台中的風扇模組故障進行故障排除。
必要條件
需求
思科建議您瞭解以下主題:
附註:Cisco建議您必須能夠訪問Cisco IOS® XR CLI和管理CLI。
附註:Cisco建議您必須能夠訪問Cisco IOS® XR CLI和管理CLI。
採用元件
本文中的資訊係根據以下軟體和硬體版本:
這包括但不限於以下系列:
- NCS 540系列
- NCS 560系列
- NCS 5500系列
- NCS 5700系列
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路運作中,請確保您瞭解任何指令可能造成的影響。
背景資訊
Cisco NCS XR路由器系列包括幾個針對不同使用案例和效能級別設計的平台,每個平台都有不同的風扇模組型別和系統架構:
· Cisco NCS 540系列:這是一款小密度XR路由器,針對低於100G的頻寬應用,如5G NR回程、FTTx和企業分支機構部署。它使用具有3+1風扇冗餘設計和側對側強制空氣冷卻的風扇模組。電源採用1+1交流/直流冗餘固定,系統採用保形塗層加固並支援C類定時合規性。
· Cisco NCS 560系列:此模組化系統包括三個高速模組化風扇托架,必須安裝這些托架才能運行。這些風扇托架包含冗餘風扇,可現場維修,因此無需關閉系統即可更換風扇。系統支援在單個風扇發生故障時運行,並根據環境溫度實施風扇托架重新插入的時間限制。它還有內建的灰塵過濾器來最佳化氣流。電源採用模組化設計,提供交流和直流選項,支援負載分擔和保護方案。
· Cisco NCS 5500系列:這種高故障恢復能力的模組化路由器平台專為資料中心和高效能網路環境而設計。它採用模組化、可現場更換的風扇模組,可支援可維護性和冗餘。故障排除包括系統日誌檢查、硬體狀態和管理軟體包以維護系統穩定性。該平台支援具有模組化軟體包和恢復功能的Cisco IOS® XR軟體。
· Cisco NCS 5700系列:此系列構建於NCS 5500平台之上,包括增強的轉發ASIC設計,並運行Cisco IOS® XR7 OS。它有NCS-57B1-6D24和NCS-57B1-5DSE等變體。該系統採用模組化設計,具有現場可更換的風扇托架和電源,並支援高可用性和故障恢復能力。風扇托架專為冗餘和熱交換而設計。Cisco IOS® XR7 OS提供監控系統和故障管理的高級軟體功能。
問題
Cisco NCS XR路由器中的風扇故障會影響系統冷卻和可靠性。由於風扇模組的設計和可維護性存在差異,因此問題的性質和嚴重程度因平台而異。NCS 540系列中有幾種型號使用固定的、非現場可更換的風扇模組,採用3+1冗餘設計。在這裡,風扇故障通常需要維修或更換整個裝置。這可能會導致更長的停機時間和更複雜的故障排除。
NCS 560、5500和5700系列以及NCS 540系列中的少數型號採用了模組化、可現場更換的風扇托架,旨在實現冗餘和熱交換。這樣可以在單個風扇發生故障時繼續操作,並且無需關閉系統即可更輕鬆地進行維護。
這些模組化系統中的風扇故障可能會觸發系統警報,需要監控環境溫度限制,並需要及時重新插入風扇托架,以保持最佳的氣流和系統穩定性。總之,NCS XR路由器中的風扇故障會帶來過熱、效能降低和潛在的硬體損壞的風險。這就要求針對特定路由器系列和風扇架構進行快速檢測、診斷以及適當的補救操作。
在NCS XR平台中解決FAN模組故障的步驟
針對NCS XR平台中風扇模組故障的故障排除過程通常概述一種一致的方法,具體物理操作因型號使用固定風扇模組還是模組化風扇托架而異。
步驟1.初始CLI驗證
在Cisco IOS® XR CLI中登入到路由器,然後執行這些命令以確定風扇托架和單個風扇的狀態。這些命令在運行Cisco IOS® XR的所有NCS XR平台中是常見的。
步驟1.1檢查平台狀態:運行此命令以確定是風扇托架故障還是風扇托架中的一個或多個風扇故障。
命令輸出示例:
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#show platform
Thu Jul 24 12:33:45.143
Node Type State Config state
--------------------------------------------------------------------------------
0/RP0/CPU0 N540X-12Z16G-SYS-D(Active) IOS XR RUN NSHUT
0/PM0 N540-PSU-FIXED-D OPERATIONAL NSHUT
0/PM1 N540-PSU-FIXED-D OPERATIONAL NSHUT
0/FT0 N540-FAN OPERATIONAL NSHUT
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#
附註:如果所有風扇托架都處於「工作」狀態,則您可以斷定風扇托架工作正常。否則,如果任何風扇托架處於非工作狀態,則表示風扇托架處於故障狀態。
步驟1.2.識別故障風扇模組:運行此命令可檢查風扇托架中單個風扇的狀態和速度。
命令輸出示例:
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#show environment fan
Thu Jul 24 12:33:09.673
=========================================================================================
Fan speed (rpm)
Location FRU Type FAN_0 FAN_1 FAN_2 FAN_3
-----------------------------------------------------------------------------------------
0/FT0 N540-FAN 25680 0 25440 26130
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#
附註:如果值為「0」,或者與同一托盤中的其他風扇相比RPM值顯著降低,則表明風扇出現了故障或故障。
步驟1.3.從警報中檢驗風扇模組故障:運行此命令可檢查與風扇相關的警報的系統警報。
示例日誌:
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#show alarms brief system active
Thu Jul 24 12:33:23.874
------------------------------------------------------------------------------------
Active Alarms
------------------------------------------------------------------------------------
Location Severity Group Set Time Description
------------------------------------------------------------------------------------
0/FT0 Minor Environ 07/24/2025 10:35:44 WIB Fan 1: Out of tolerance
0/FT0 Minor Environ 07/24/2025 10:35:44 WIB Sensor in failed state
0 Minor Environ 07/24/2025 10:35:44 WIB Sensor in failed state
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#
附註:指示「風扇X:超出容差」或「感測器處於故障狀態」確認風扇故障。
附註:指示「風扇X:超出容差」或「感測器處於故障狀態」確認風扇故障。
步驟2.環境和實物檢查
環境因素可顯著影響風扇運行和系統整體冷卻。
-
環境條件:
- 檢驗路由器周圍的環境溫度和氣流,確保它處於工作限制範圍內。高溫會使風扇工作更困難或過早失效。
- 檢查是否有任何灰塵過濾器或氣室可能堵塞或安裝不當,從而限制氣流。
-
物理檢查是否有障礙物/損壞:
- 檢查風扇模組/托盤是否有任何可能妨礙風扇自由旋轉的碎片、佈線鬆動或障礙物。粉塵積累是風扇問題的常見原因。
- 對於採用模組化風扇托架的平台(例如,NCS 560、NCS 5500、NCS 5700和某些NCS 540機型),如果這樣做安全並且符合操作指南,請考慮小心拉出可疑的風扇托架。目視檢查單個風扇是否未旋轉刀片或可見損壞。托盤退出時,檢查風扇和機箱插槽內是否有灰塵。
- 對於具有固定風扇模組的平台(例如,某些NCS 540型號),對風扇模組和聯結器的物理檢查是有限的,但是仍然必須檢查是否有任何外部損壞或障礙跡象。
步驟3.檢查已知問題和錯誤
在繼續進行硬體更換之前,建議檢查觀察到的風扇故障是否與任何已知軟體或硬體錯誤一致。
- 思科錯誤搜尋工具:使用關鍵字(例如「NCS XR風扇故障」、「NCS [型號]風扇」和裝置上運行的特定Cisco IOS® XR版本)搜尋Cisco Bug Search Tool(BST)。查詢可能導致風扇誤報或實際故障的已知問題。
- 思科支援文檔:查看思科和社群論壇的支援文檔,瞭解所報告的類似問題以及建議的解決方法或解決方案。
步驟4.補救行動和替換
接下來的步驟取決於NCS XR平台中的風扇模組的型別。
對於具有固定風扇模組的NCS XR平台(例如,某些NCS 540型號)
帶有固定風扇模組的型號通常不能熱插拔。
- 重新通電:如果初始檢查和環境調整不能解決問題,請對路由器重新通電。這有時可以清除瞬態問題並允許風扇模組正確重新初始化。
- 更換(RMA):如果風扇模組在重新通電後確認發生故障,則通常要求整個裝置或機箱的退貨授權(RMA)。
附註:更換固定風扇模組需要計畫內停機,因為路由器必須斷電。
對於具有模組化風扇托架的NCS XR平台(例如,大多數NCS 540、NCS 560、NCS 5500、NCS 5700型號)
這些平台具有可熱插拔的模組化風扇托架。
-
重新拔插(JACK-OUT和JACK-IN - JOJI):
- 在包含有故障的風扇模組的風扇托架上仔細執行插孔和插孔(JOJI)過程。 這涉及以物理方式拆除風扇托架,然後重新插入。
- 在拉出風扇托架時,對任何可能妨礙風扇旋轉的碎片或配線鬆動進行徹底的目視檢查。您還可觀察所有風扇在重新插入時是否都嘗試旋轉。
- 重新拔插後,使用「show environment fan」再次驗證狀態。
-
更換(RMA):如果任何風扇模組仍處於故障狀態,或者風扇托架在重新拔插後保持非工作狀態,則繼續使用風扇托架的RMA。
- 收集證據日誌:運行「show logging」 | include FAN"再次捕獲與風扇托架JOJI相關的日誌,以供文檔之用。
示例日誌:
RP/0/RP0/CPU0:N540-24Z8Q2C-SYS# show logging | include FAN
0/RSP0/ADMIN0:Jul 12 01:39:25.215 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_REMOVAL : Location: 0/FT0, Serial#: N/A
0/RSP0/ADMIN0:Jul 12 01:39:26.522 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_INSERTION : Location: 0/FT0, Serial #: N/A
0/RSP0/ADMIN0:Jul 12 01:39:26.522 : shelf_mgr[4169]: %INFRA-SHELF_MGR-6-CARD_HW_OPERATIONAL : Card: 0/FT0 hardware state going to Operational
0/RSP0/ADMIN0:Jul 12 01:42:23.584 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_REMOVAL : Location: 0/FT0, Serial#: N/A
0/RSP0/ADMIN0:Jul 12 01:44:40.495 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_INSERTION : Location: 0/FT0, Serial #:N/A
0/RSP0/ADMIN0:Jul 12 01:44:40.495 : shelf_mgr[4169]: %INFRA-SHELF_MGR-6-CARD_HW_OPERATIONAL : Card: 0/FT0
- 收集產品ID(PID)和序列號(SN):獲取RMA過程所需的故障風扇托架的PID和SN。
命令輸出示例:
Command Syntax:
RP/0/RP0/CPU0:N540-24Z8Q2C-SYS# show inventory location <location of failed FAN tray>
Sample command:
RP/0/RP0/CPU0:N540-24Z8Q2C-SYS# show inventory location 0/FT0
NAME: "0/FT0", DESCR: "NCS 540 Fan"
PID: N540-FAN , VID: N/A, SN: N/A