簡介
本文檔介紹如何排除ASR9k中的風扇模組故障。
必要條件
需求
思科建議您瞭解以下主題:
附註:Cisco建議您必須能夠訪問Cisco IOS® XR CLI和管理CLI。
採用元件
本文中的資訊係根據以下軟體和硬體版本:
- ASR 9000系列包含一系列型號,包括ASR 9001、ASR 9006、ASR 9010、ASR 9901、ASR 9906、ASR 9910、ASR 9912和ASR 9922等。
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路運作中,請確保您瞭解任何指令可能造成的影響。
背景資訊
Cisco ASR 9000系列聚合服務路由器(ASR9k)是專為服務提供商網路設計的高效能路由器,提供可擴充性、可靠性和高級功能以支援網路環境需求。ASR9k路由器提供模組化硬體架構,允許靈活的配置和擴展,以滿足各種網路需求。
ASR9k路由器系列包括:
·模組化設計:ASR9k路由器採用模組化元件(如路由處理器、線卡和風扇托架),能夠輕鬆進行升級和維護,而不會中斷網路操作。
·冷卻系統:例如,ASR 9001型號使用單個前面訪問的風扇托架(包含冗餘風扇)以確保持續冷卻。風扇托架支援側對側氣流,並且從軟體版本4.3.0開始,允許具有特定環境溫度限制的線上插拔(OIR),因此增強了可維護性。
·高可用性:ASR9k系列支援冗餘電源和風扇,有助於實現高可用性,並最大限度地減少停機時間。
·效能和可擴充性:ASR9k路由器旨在處理大規模聚合和邊緣路由,支援適用於服務提供商核心和邊緣網路的高吞吐量和高級路由協定。
·軟體功能:路由器運行Cisco IOS® XR軟體,該軟體提供運營商級的可靠性、模組性和可程式設計性,以支援不斷發展的網路需求。
問題
ASR 9000系列路由器中的風扇模組或風扇托架故障可能導致冷卻不足,導致關鍵硬體元件過熱。這種過熱可能導致系統不穩定、效能下降、意外關機或永久性硬體損壞,最終影響網路可用性和服務可靠性。鑑於冷卻系統在維護裝置運行狀況方面的重要作用,及時檢測和緩解風扇故障對於防止網路中斷和維持服務提供商環境中的高可用性至關重要。
解決ASR9k中的FAN模組故障的程式
排除ASR 9000系列路由器中風扇模組故障的過程通常概括出跨型號的一致方法,具體物理操作因型號使用固定風扇模組還是模組化風扇托架而異。
步驟1.初始CLI驗證
在Cisco IOS® XR CLI中登入到路由器,然後執行這些命令以確定風扇托架和單個風扇的狀態。這些命令在運行Cisco IOS® XR的所有ASR 9000平台上都是常見的。
步驟1.1 檢查平台狀態:運行此命令以確定是風扇托架故障還是風扇托架中的一個或多個風扇故障。
命令輸出示例:
RP/0/RSP0/CPU0:ASR-9006#show platform
Wed Jul 16 12:16:00.408 IST
Node Type State Config state
--------------------------------------------------------------------------------
0/RSP0/CPU0 A9K-RSP5-SE(Active) IOS XR RUN NSHUT
0/RSP1/CPU0 A9K-RSP5-SE(Standby) IOS XR RUN NSHUT
0/FT0 ASR-9006-FAN-V2 OPERATIONAL NSHUT
0/FT1 ASR-9006-FAN-V2 OPERATIONAL NSHUT
0/0/CPU0 A9K-MOD200-SE IOS XR RUN NSHUT
0/0/0 A9K-MPA-20X1GE OK
0/1/CPU0 A9K-8X100GE-SE IOS XR RUN NSHUT
0/2/CPU0 A9K-MOD200-SE IOS XR RUN NSHUT
0/2/0 A9K-MPA-20X10GE OK
0/PT0 A9K-DC-PEM-V2 OPERATIONAL NSHUT
RP/0/RSP0/CPU0:ASR-9006#
附註:如果所有風扇托架都處於「工作」狀態,則您可以斷定風扇托架工作正常。否則,如果任何風扇托架處於非工作狀態,則表示風扇托架處於故障狀態。
步驟1.2.確定故障風扇模組:運行此命令可檢查風扇托架中單個風扇的狀態和速度。
命令輸出示例:
RP/0/RSP0/CPU0:ASR-9006#admin show environment fan
Wed Jul 16 12:16:09.843 IST
=============================================================================
Fan speed (rpm)
Location FRU Type FAN_0 FAN_1 FAN_2 FAN_3 FAN_4 FAN_5
-----------------------------------------------------------------------------
0/FT0 ASR-9006-FAN-V2 - 7710 7590 8970 7500 7530
0/FT1 ASR-9006-FAN-V2 7590 7560 7590 7590 7560 7560
0/PT0-PM0 PWR-2KW-DC-V2 8022 8559
0/PT0-PM1 PWR-2KW-DC-V2 6280 6237
0/PT0-PM2 PWR-2KW-DC-V2 7914 8559
0/PT0-PM3 PWR-2KW-DC-V2 7978 8516
RP/0/RSP0/CPU0:ASR-9006#
附註:與同一托盤中的其他風扇相比,短劃線(「 — 」)或明顯更低的RPM值可能表示風扇出現故障或故障。
步驟1.3.從日誌驗證風扇模組故障:運行此命令可檢查系統日誌中是否存在與風扇相關的警報。
示例日誌:
RP/0/RSP0/CPU0:ASR-9006# show logging | include FAN
0/RSP0/ADMIN0:2025 Jul 10 07:52:41.797 IST: canbus_driver[4134]: %PLATFORM-CANB_SERVER-3-ALARM_INDICATION : Raise alarm from CBC0 in slot 0/FT0, alarm code CBC_ALRM_AT_LEAST_ONE_FAN_FAILED
0/RSP0/ADMIN0:2025 Jul 10 07:53:42.798 IST: canbus_driver[4134]: %PLATFORM-CANB_SERVER-3-ALARM_INDICATION : Raise alarm from CBC0 in slot 0/FT0, alarm code CBC_ALRM_AT_LEAST_ONE_FAN_FAILED
0/RSP0/ADMIN0:2025 Jul 10 07:54:43.800 IST: canbus_driver[4134]: %PLATFORM-CANB_SERVER-3-ALARM_INDICATION : Raise alarm from CBC0 in slot 0/FT0, alarm code CBC_ALRM_AT_LEAST_ONE_FAN_FAILED
0/RSP0/ADMIN0:2025 Jul 10 07:55:44.799 IST: canbus_driver[4134]: %PLATFORM-CANB_SERVER-3-ALARM_INDICATION : Raise alarm from CBC0 in slot 0/FT0, alarm code CBC_ALRM_AT_LEAST_ONE_FAN_FAILED
步驟2.環境和實物檢查
環境因素可顯著影響風扇運行和系統整體冷卻。
-
環境條件:
- 檢驗路由器周圍的環境溫度和氣流,確保它處於工作限制範圍內。高溫會使風扇工作更困難或過早失效。
- 檢查是否有任何灰塵過濾器或氣室可能堵塞或安裝不當,從而限制氣流。
-
物理檢查是否有障礙物/損壞:
- 檢查風扇模組/托盤是否有任何可能妨礙風扇自由旋轉的碎片、佈線鬆動或障礙物。粉塵積累是風扇問題的常見原因。
- 對於具有模組化風扇托架的型號(例如ASR 9006、9010、ASR 99xx),如果這樣做安全並且符合操作指南,請小心拉出懷疑有問題的風扇托架。目視檢查單個風扇是否未旋轉刀片或可見損壞。托盤退出時,檢查風扇和機箱插槽內是否有灰塵。
- 對於具有固定風扇模組(例如ASR 9001)的型號,對風扇模組和聯結器的物理檢查是有限的,但仍必須執行檢查以發現任何外部損壞或阻塞跡象。
步驟3.檢查已知問題和錯誤
在繼續進行硬體更換之前,建議檢查觀察到的風扇故障是否與任何已知軟體或硬體錯誤一致。
- Cisco Bug Search Tool:使用關鍵字(例如「ASR 9000風扇故障」、「ASR [型號]風扇」和裝置上運行的特定Cisco IOS® XR版本)搜尋Cisco Bug Search Tool(BST)。查詢可能導致風扇誤報或實際故障的已知問題。
- 思科支援檔案:查看思科支援檔案和社群論壇,瞭解類似已報告的問題以及建議的解決方法或修正方案。
步驟4.補救行動和替換
後續步驟取決於ASR 9000系列路由器中的風扇模組的型別。
對於具有固定風扇模組的ASR 9000系列(例如ASR 9001):
ASR 9001等型號具有不可熱插拔的固定風扇模組。
- 重新通電:如果初始檢查和環境調整不能解決問題,請對路由器重新通電。這有時可以清除瞬態問題並允許風扇模組正確重新初始化。
- 更換(RMA):如果風扇模組在重新通電後確認出現故障,則通常需要整個機箱的退貨商品授權(RMA)。
附註:更換固定風扇模組需要計畫內停機,因為路由器必須斷電。
適用於帶有模組化風扇托架的ASR 9000系列(例如ASR 9006、ASR 9010、ASR 99xx型號)
這些機型配備了可熱插拔的模組化風扇托架。
-
重新拔插(JACK-OUT和JACK-IN - JOJI):
- 在包含有故障的風扇模組的風扇托架上仔細執行插孔和插孔(JOJI)過程。 這涉及以物理方式拆除風扇托架,然後重新插入。
- 在拉出風扇托架時,對任何可能妨礙風扇旋轉的碎片或配線鬆動進行徹底的目視檢查。您還可觀察所有風扇在重新插入時是否都嘗試旋轉。
- 重新拔插後,使用「admin show environment fan」再次驗證狀態。
-
更換(RMA):如果風扇模組仍處於故障狀態,或者風扇托架在重新設定後仍無法運行,請繼續使用風扇托架的RMA。
- 收集證據日誌:運行" show logging | include FAN "再次捕獲與風扇托架JOJI相關的日誌,以供文檔之用。
示例日誌:
RP/0/RSP0/CPU0:ASR-9006# show logging | include FAN
0/RSP0/ADMIN0:Jul 12 01:39:25.215 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_REMOVAL : Location: 0/FT0, Serial#:FOC222XXX
0/RSP0/ADMIN0:Jul 12 01:39:26.522 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_INSERTION : Location: 0/FT0, Serial #:FOC222XXX
0/RSP0/ADMIN0:Jul 12 01:39:26.522 : shelf_mgr[4169]: %INFRA-SHELF_MGR-6-CARD_HW_OPERATIONAL : Card: 0/FT0 hardware state going to Operational
0/RSP0/ADMIN0:Jul 12 01:42:23.584 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_REMOVAL : Location: 0/FT0, Serial#:FOC222XXX
0/RSP0/ADMIN0:Jul 12 01:44:40.495 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_INSERTION : Location: 0/FT0, Serial #:FOC222XXX
0/RSP0/ADMIN0:Jul 12 01:44:40.495 : shelf_mgr[4169]: %INFRA-SHELF_MGR-6-CARD_HW_OPERATIONAL : Card: 0/FT0
- 收集產品ID(PID)和序列號(SN):獲取RMA流程所需的故障風扇托架的PID和SN。
命令輸出示例:
Command Syntax:
RP/0/RSP0/CPU0:ASR-9006# show inventory location <location of failed FAN tray>
Sample command:
RP/0/RSP0/CPU0:ASR-9006# show inventory location 0/FT0
NAME: "0/FT0", DESCR: "ASR-9006 Fan Tray V2"
PID: ASR-9006-FAN-V2 , VID: V02, SN: FOC222XXX