소개
이 문서에서는 ASR9k에서 FAN 모듈 장애를 해결하는 방법에 대해 설명합니다.
사전 요구 사항
요구 사항
다음 주제에 대한 지식을 보유하고 있으면 유용합니다.
참고: Cisco에서는 Cisco IOS® XR CLI 및 관리자 CLI에 액세스할 수 있어야 합니다.
사용되는 구성 요소
이 문서의 정보는 다음 소프트웨어 및 하드웨어 버전을 기반으로 합니다.
- ASR 9000 Series는 ASR 9001, ASR 9006, ASR 9010, ASR 9901, ASR 9906, ASR 9910, ASR 9912 및 ASR 9922를 비롯한 다양한 모델을 포함합니다.
이 문서의 정보는 특정 랩 환경의 디바이스를 토대로 작성되었습니다. 이 문서에 사용된 모든 디바이스는 초기화된(기본) 컨피그레이션으로 시작되었습니다. 현재 네트워크가 작동 중인 경우 모든 명령의 잠재적인 영향을 미리 숙지하시기 바랍니다.
배경 정보
Cisco ASR 9000 Series Aggregation Services Router(ASR9k)는 통신 사업자 네트워크를 위해 설계된 고성능 라우터로, 네트워크 환경 요구 사항을 지원할 수 있는 확장성, 안정성 및 고급 기능을 제공합니다. ASR9k 라우터는 모듈형 하드웨어 아키텍처를 제공하며 다양한 네트워크 요구 사항을 충족할 수 있도록 유연한 구성 및 확장을 지원합니다.
ASR9k 라우터 제품군은 다음과 같습니다.
· 모듈형 설계: ASR9k 라우터는 라우트 프로세서, 라인 카드 및 팬 트레이와 같은 모듈식 구성 요소를 갖추고 있으며 네트워크 운영 중단 없이 손쉽게 업그레이드하고 유지 관리할 수 있습니다.
· 냉각 시스템: 예를 들어, ASR 9001 모델은 지속적인 냉각을 위해 예비 팬이 포함된 전면 액세스 가능한 단일 팬 트레이를 사용합니다. 팬 트레이는 측면 간 공기 흐름을 지원하며, 소프트웨어 릴리스 4.3.0 이상에서는 주변 온도 제한이 있는 OIR(Online Insertion and Removal)을 허용하므로 서비스 편의성이 향상됩니다.
· 고가용성: ASR9k Series는 예비 전원 공급 장치 및 팬을 지원하고 고가용성에 기여하며 다운타임을 최소화합니다.
· 성능 및 확장성: 대규모 어그리게이션 및 에지 라우팅을 처리하도록 설계된 ASR9k 라우터는 통신 사업자 코어 및 에지 네트워크에 적합한 높은 처리량과 고급 라우팅 프로토콜을 지원합니다.
· 소프트웨어 기능: 이 라우터는 Cisco IOS® XR 소프트웨어를 실행하며, 변화하는 네트워크 요구 사항을 지원할 수 있도록 캐리어급 안정성, 모듈성 및 프로그래밍 기능을 제공합니다.
문제
ASR 9000 Series 라우터의 팬 모듈 또는 팬 트레이 고장으로 인해 냉각이 제대로 되지 않아 중요한 하드웨어 구성 요소가 과열될 수 있습니다. 이러한 과열 현상은 시스템 불안정, 성능 저하, 예기치 않은 종료 또는 영구적인 하드웨어 손상을 유발하여 궁극적으로 네트워크 가용성과 서비스 신뢰성에 영향을 미칠 수 있습니다. 장치 상태를 유지하는 데 있어 냉각 시스템의 중요한 역할을 고려할 때, 네트워크 중단을 방지하고 통신 사업자 환경에서 고가용성을 유지하기 위해서는 팬 장애를 적시에 감지하고 완화하는 것이 필수적입니다.
ASR9k에서 FAN 모듈 오류를 해결하는 절차
ASR 9000 Series 라우터의 팬 모듈 장애 해결 절차에서는 일반적으로 모델 간의 일관된 접근 방식을 설명하고, 모델에서 고정 팬 모듈을 사용하는지 아니면 모듈형 팬 트레이를 사용하는지에 따라 구체적인 물리적 동작이 달라집니다.
1단계. 초기 CLI 확인
Cisco IOS® XR CLI에서 라우터에 로그인하고 다음 명령을 실행하여 팬 트레이 및 개별 팬의 상태를 확인합니다. 이러한 명령은 Cisco IOS® XR을 실행하는 모든 ASR 9000 플랫폼에서 공통적으로 사용됩니다.
1.1단계 플랫폼 상태 확인: 이 명령을 실행하여 FAN Tray(팬 트레이) 오류인지 또는 FAN Tray(팬 트레이)에 하나 이상의 FAN 오류가 있는지 확인합니다.
샘플 명령 출력:
RP/0/RSP0/CPU0:ASR-9006#show platform
Wed Jul 16 12:16:00.408 IST
Node Type State Config state
--------------------------------------------------------------------------------
0/RSP0/CPU0 A9K-RSP5-SE(Active) IOS XR RUN NSHUT
0/RSP1/CPU0 A9K-RSP5-SE(Standby) IOS XR RUN NSHUT
0/FT0 ASR-9006-FAN-V2 OPERATIONAL NSHUT
0/FT1 ASR-9006-FAN-V2 OPERATIONAL NSHUT
0/0/CPU0 A9K-MOD200-SE IOS XR RUN NSHUT
0/0/0 A9K-MPA-20X1GE OK
0/1/CPU0 A9K-8X100GE-SE IOS XR RUN NSHUT
0/2/CPU0 A9K-MOD200-SE IOS XR RUN NSHUT
0/2/0 A9K-MPA-20X10GE OK
0/PT0 A9K-DC-PEM-V2 OPERATIONAL NSHUT
RP/0/RSP0/CPU0:ASR-9006#
참고: 모든 팬 트레이가 "작동 중"에 있는 경우 팬 트레이가 제대로 작동한다고 결론을 내릴 수 있습니다. 그렇지 않으면 FAN Tray(FAN 트레이)가 Non-Operational(작동하지 않음)이면 FAN Tray is in failed(FAN 트레이가 실패 상태에 있음)를 의미합니다.
1.2단계. 실패한 팬 모듈 확인: 이 명령을 실행하여 팬 트레이 내의 개별 팬의 상태와 속도를 확인합니다.
샘플 명령 출력:
RP/0/RSP0/CPU0:ASR-9006#admin show environment fan
Wed Jul 16 12:16:09.843 IST
=============================================================================
Fan speed (rpm)
Location FRU Type FAN_0 FAN_1 FAN_2 FAN_3 FAN_4 FAN_5
-----------------------------------------------------------------------------
0/FT0 ASR-9006-FAN-V2 - 7710 7590 8970 7500 7530
0/FT1 ASR-9006-FAN-V2 7590 7560 7590 7590 7560 7560
0/PT0-PM0 PWR-2KW-DC-V2 8022 8559
0/PT0-PM1 PWR-2KW-DC-V2 6280 6237
0/PT0-PM2 PWR-2KW-DC-V2 7914 8559
0/PT0-PM3 PWR-2KW-DC-V2 7978 8516
RP/0/RSP0/CPU0:ASR-9006#
참고: 대시(`-`) 또는 동일한 트레이의 다른 팬에 비해 RPM 값이 현저히 낮으면 팬의 고장 또는 장애를 나타낼 수 있습니다.
1.3단계. 로그에서 팬 모듈 오류를 확인합니다. 시스템 로그에서 팬 관련 경보를 확인하려면 이 명령을 실행합니다.
샘플 로그:
RP/0/RSP0/CPU0:ASR-9006# show logging | include FAN
0/RSP0/ADMIN0:2025 Jul 10 07:52:41.797 IST: canbus_driver[4134]: %PLATFORM-CANB_SERVER-3-ALARM_INDICATION : Raise alarm from CBC0 in slot 0/FT0, alarm code CBC_ALRM_AT_LEAST_ONE_FAN_FAILED
0/RSP0/ADMIN0:2025 Jul 10 07:53:42.798 IST: canbus_driver[4134]: %PLATFORM-CANB_SERVER-3-ALARM_INDICATION : Raise alarm from CBC0 in slot 0/FT0, alarm code CBC_ALRM_AT_LEAST_ONE_FAN_FAILED
0/RSP0/ADMIN0:2025 Jul 10 07:54:43.800 IST: canbus_driver[4134]: %PLATFORM-CANB_SERVER-3-ALARM_INDICATION : Raise alarm from CBC0 in slot 0/FT0, alarm code CBC_ALRM_AT_LEAST_ONE_FAN_FAILED
0/RSP0/ADMIN0:2025 Jul 10 07:55:44.799 IST: canbus_driver[4134]: %PLATFORM-CANB_SERVER-3-ALARM_INDICATION : Raise alarm from CBC0 in slot 0/FT0, alarm code CBC_ALRM_AT_LEAST_ONE_FAN_FAILED
2단계. 환경 및 물리적 점검
환경 요인은 팬 작동 및 전체 시스템 냉각에 큰 영향을 미칠 수 있습니다.
-
주변 조건:
- 라우터 주변의 주변 온도 및 공기 흐름을 확인하여 작동 제한 범위 내에 있는지 확인합니다. 고온은 팬들로 하여금 더 열심히 일하게 하거나 조기에 고장이 나게 할 수 있다.
- 공기 흐름을 제한하여 막히거나 잘못 설치할 수 있는 먼지 필터 또는 공기 구멍을 확인합니다.
-
장애물/손상 물리적 검사:
- 팬 모듈/트레이에 남아 있는 이물질, 배선이 느슨하거나 팬이 자유롭게 회전하는 것을 방지할 수 있는 장애물이 있는지 확인합니다. 먼지가 쌓이는 것은 팬 문제의 일반적인 원인입니다.
- 모듈형 팬 트레이(예: ASR 9006, 9010, ASR 99xx)가 있는 모델의 경우, 안전하거나 운영 지침 내에서 의심되는 팬 트레이를 조심스럽게 빼냅니다. 개별 팬에 회전하지 않는 블레이드나 눈에 보이는 손상이 있는지 육안으로 검사합니다. 트레이가 꺼진 상태에서 팬과 섀시 슬롯에 먼지가 쌓여 있는지 확인합니다.
- 고정 팬 모듈이 있는 모델(예: ASR 9001)의 경우 팬 모듈과 커넥터의 물리적 검사는 제한적이지만 손상이나 장애의 외부 징후가 있으면 수행해야 합니다.
3단계. 알려진 문제 및 버그 확인
하드웨어 교체를 진행하기 전에, 관찰된 팬 고장이 알려진 소프트웨어 또는 하드웨어 버그와 일치하는지 확인하는 것이 좋습니다.
- Cisco Bug Search Tool:디바이스에서 실행되는 "ASR 9000 fan failure", "ASR [model number] fan" 및 특정 Cisco IOS® XR 버전과 같은 키워드를 사용하여 Cisco BST(Bug Search Tool)를 검색합니다. 팬 오류 보고 또는 실제 오류를 일으킬 수 있는 알려진 문제를 찾습니다.
- Cisco 지원 문서:Cisco 지원 문서 및 커뮤니티 포럼에서 보고된 유사한 문제와 권장 해결 방법 또는 해결 방법을 검토합니다.
4단계. 시정조치 및 교체
다음 단계는 ASR 9000 Series 라우터의 팬 모듈 유형에 따라 달라집니다.
고정 팬 모듈이 있는 ASR 9000 Series(예: ASR 9001):
ASR 9001과 같은 모델에는 운영 중 교체가 불가능한 고정 팬 모듈이 있습니다.
- 전원 주기: 초기 확인 및 환경 조정으로 문제가 해결되지 않으면 라우터의 전원 주기를 수행합니다. 이렇게 하면 일시적인 문제가 해결되고 팬 모듈이 올바르게 다시 초기화되는 경우가 있습니다.
- 교체(RMA): 전원 사이클 후 팬 모듈에 장애가 발생한 것으로 확인되면 일반적으로 전체 섀시에 대해 RMA(Return Merchandise Authorization)가 필요합니다.
참고: 고정 팬 모듈을 교체하려면 라우터의 전원을 꺼야 하므로 계획된 다운타임이 필요합니다.
모듈형 팬 트레이가 포함된 ASR 9000 Series(예: ASR 9006, ASR 9010, ASR 99xx 모델)
이러한 모델에는 운영 중 교체 가능한 모듈형 팬 트레이가 있습니다.
-
재장착(JACK-OUT 및 JACK-IN - JOJI)
- 장애가 발생한 팬 모듈이 들어 있는 팬 트레이에서 JACK-OUT 및 JACK-IN(JOJI) 절차를 신중하게 수행합니다. 팬 트레이를 물리적으로 제거한 다음 다시 삽입해야 합니다.
- 팬 트레이를 빼내는 동안 팬이 회전하지 못하도록 할 수 있는 잔해 또는 느슨한 배선에 대해 정밀한 시각적 검사를 실시합니다. 모든 팬이 다시 삽입 시 회전을 시도하는지 관찰할 수도 있습니다.
- 재장착 후 "admin show environment fan"을 사용하여 상태를 다시 확인합니다.
-
교체(RMA): 팬 모듈이 여전히 고장 상태이거나 재장착 후 팬 트레이가 작동 안 함으로 유지되는 경우 팬 트레이에 대한 RMA를 계속 진행합니다.
- 증거 로그 수집:실행 " show logging | 문서화를 위해 팬 트레이 JOJI와 관련된 로그를 캡처하려면 FAN "을(를) 다시 포함합니다.
샘플 로그:
RP/0/RSP0/CPU0:ASR-9006# show logging | include FAN
0/RSP0/ADMIN0:Jul 12 01:39:25.215 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_REMOVAL : Location: 0/FT0, Serial#:FOC222XXX
0/RSP0/ADMIN0:Jul 12 01:39:26.522 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_INSERTION : Location: 0/FT0, Serial #:FOC222XXX
0/RSP0/ADMIN0:Jul 12 01:39:26.522 : shelf_mgr[4169]: %INFRA-SHELF_MGR-6-CARD_HW_OPERATIONAL : Card: 0/FT0 hardware state going to Operational
0/RSP0/ADMIN0:Jul 12 01:42:23.584 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_REMOVAL : Location: 0/FT0, Serial#:FOC222XXX
0/RSP0/ADMIN0:Jul 12 01:44:40.495 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_INSERTION : Location: 0/FT0, Serial #:FOC222XXX
0/RSP0/ADMIN0:Jul 12 01:44:40.495 : shelf_mgr[4169]: %INFRA-SHELF_MGR-6-CARD_HW_OPERATIONAL : Card: 0/FT0
- 제품 ID(PID) 및 일련 번호 수집: RMA 프로세스에 필요한 결함 있는 팬 트레이의 PID 및 SN을 가져옵니다.
샘플 명령 출력:
Command Syntax:
RP/0/RSP0/CPU0:ASR-9006# show inventory location <location of failed FAN tray>
Sample command:
RP/0/RSP0/CPU0:ASR-9006# show inventory location 0/FT0
NAME: "0/FT0", DESCR: "ASR-9006 Fan Tray V2"
PID: ASR-9006-FAN-V2 , VID: V02, SN: FOC222XXX
- RMA 진행: 결함이 있는 팬 트레이에 대해 Cisco와 RMA 프로세스를 시작합니다.