Introdução
Este documento descreve como resolver problemas de falha do módulo FAN no ASR9k.
Pré-requisitos
Requisitos
A Cisco recomenda que você tenha conhecimento destes tópicos:
Note: A Cisco recomenda que você tenha acesso ao Cisco IOS® XR CLI e ao admin CLI.
Componentes Utilizados
As informações neste documento são baseadas nestas versões de software e hardware:
- A série ASR 9000 engloba uma variedade de modelos, incluindo o ASR 9001, ASR 9006, ASR 9010, ASR 9901, ASR 9906, ASR 9910, ASR 9912 e ASR 9922, entre outros.
As informações neste documento foram criadas a partir de dispositivos em um ambiente de laboratório específico. Todos os dispositivos utilizados neste documento foram iniciados com uma configuração (padrão) inicial. Se a rede estiver ativa, certifique-se de que você entenda o impacto potencial de qualquer comando.
Informações de Apoio
Os Cisco ASR 9000 Series Aggregation Services Routers (ASR9k) são roteadores de alto desempenho projetados para redes de provedores de serviços e oferecem escalabilidade, confiabilidade e recursos avançados para suportar as demandas de ambientes de rede. Os roteadores ASR9k fornecem arquitetura de hardware modular e permitem configuração e expansão flexíveis para atender a diversos requisitos de rede.
A família de roteadores ASR9k inclui:
· Projeto modular: Os roteadores ASR9k apresentam componentes modulares, como processadores de roteamento, placas de linha e bandejas de ventoinhas, e permitem atualizações e manutenção fáceis sem interrupção das operações de rede.
· Sistema de refrigeração: Por exemplo, o modelo ASR 9001 usa uma única bandeja de ventoinhas com acesso frontal que contém ventoinhas redundantes para garantir o resfriamento contínuo. A bandeja do ventilador suporta fluxo de ar lado a lado e, a partir da versão 4.3.0 do software, permite a inserção e remoção on-line (OIR - Online Insertion and Removal) com certas restrições de temperatura ambiente, melhorando assim a facilidade de manutenção.
•Alta Disponibilidade: A série ASR9k suporta fontes de alimentação e ventoinhas redundantes, contribui para alta disponibilidade e minimiza o tempo de inatividade.
· Desempenho e escalabilidade: Projetados para lidar com agregação em larga escala e roteamento de borda, os roteadores ASR9k suportam alta taxa de transferência e protocolos de roteamento avançados adequados para redes de núcleo e borda de provedores de serviços.
· Recursos de software: Os roteadores executam o software Cisco IOS® XR, que fornece confiabilidade de nível de operadora, modularidade e programabilidade para suportar demandas de rede em evolução.
Problema
Uma falha no módulo do ventilador ou na bandeja do ventilador em um roteador ASR 9000 Series pode levar a um resfriamento inadequado, resultando no superaquecimento de componentes de hardware críticos. Esse superaquecimento pode causar instabilidade do sistema, desempenho degradado, desligamentos inesperados ou danos permanentes ao hardware, afetando, em última análise, a disponibilidade da rede e a confiabilidade do serviço. Considerando a função crítica do sistema de resfriamento na manutenção da integridade do dispositivo, a detecção e a mitigação oportunas de falhas de ventilador são essenciais para evitar interrupções da rede e manter a alta disponibilidade em ambientes de provedores de serviços.
Procedimento para solucionar falha do módulo FAN no ASR9k
O procedimento para solucionar falhas do módulo do ventilador em roteadores ASR 9000 Series geralmente descreve uma abordagem consistente entre os modelos, com ações físicas específicas que diferem dependendo se o modelo usa um módulo de ventilador fixo ou uma bandeja de ventilador modular.
Etapa 1. Verificação CLI inicial
Faça login no roteador no Cisco IOS® XR CLI e execute estes comandos para identificar o status das bandejas de ventilador e ventiladores individuais. Esses comandos são comuns em todas as plataformas ASR 9000 executando o Cisco IOS® XR.
Etapa 1.1 Verificar o status da plataforma: Execute este comando para identificar se é uma falha na bandeja do VENTILADOR ou uma ou mais falhas na bandeja do VENTILADOR.
Exemplo de saída do comando:
RP/0/RSP0/CPU0:ASR-9006#show platform
Wed Jul 16 12:16:00.408 IST
Node Type State Config state
--------------------------------------------------------------------------------
0/RSP0/CPU0 A9K-RSP5-SE(Active) IOS XR RUN NSHUT
0/RSP1/CPU0 A9K-RSP5-SE(Standby) IOS XR RUN NSHUT
0/FT0 ASR-9006-FAN-V2 OPERATIONAL NSHUT
0/FT1 ASR-9006-FAN-V2 OPERATIONAL NSHUT
0/0/CPU0 A9K-MOD200-SE IOS XR RUN NSHUT
0/0/0 A9K-MPA-20X1GE OK
0/1/CPU0 A9K-8X100GE-SE IOS XR RUN NSHUT
0/2/CPU0 A9K-MOD200-SE IOS XR RUN NSHUT
0/2/0 A9K-MPA-20X10GE OK
0/PT0 A9K-DC-PEM-V2 OPERATIONAL NSHUT
RP/0/RSP0/CPU0:ASR-9006#
Note: Se todas as bandejas de ventoinha estiverem em "OPERACIONAL", você poderá concluir que ela funciona bem. Caso contrário, se alguma bandeja VENTILADORA não estiver operacional, isso significa que a bandeja VENTILADORA está em estado de falha.
Etapa 1.2. Identificar módulos de ventoinha com falha: Execute este comando para verificar o status e a velocidade de ventiladores individuais dentro de uma bandeja de ventiladores.
Exemplo de saída do comando:
RP/0/RSP0/CPU0:ASR-9006#admin show environment fan
Wed Jul 16 12:16:09.843 IST
=============================================================================
Fan speed (rpm)
Location FRU Type FAN_0 FAN_1 FAN_2 FAN_3 FAN_4 FAN_5
-----------------------------------------------------------------------------
0/FT0 ASR-9006-FAN-V2 - 7710 7590 8970 7500 7530
0/FT1 ASR-9006-FAN-V2 7590 7560 7590 7590 7560 7560
0/PT0-PM0 PWR-2KW-DC-V2 8022 8559
0/PT0-PM1 PWR-2KW-DC-V2 6280 6237
0/PT0-PM2 PWR-2KW-DC-V2 7914 8559
0/PT0-PM3 PWR-2KW-DC-V2 7978 8516
RP/0/RSP0/CPU0:ASR-9006#
Note: Um traço (`-`) ou valores de RPM significativamente menores em comparação com outros ventiladores na mesma bandeja podem indicar um ventilador com falha ou com falha.
Etapa 1.3. Verificar a falha do módulo do ventilador nos registros: Execute este comando para verificar se há alarmes relacionados ao ventilador nos registros do sistema.
Exemplos de logs:
RP/0/RSP0/CPU0:ASR-9006# show logging | include FAN
0/RSP0/ADMIN0:2025 Jul 10 07:52:41.797 IST: canbus_driver[4134]: %PLATFORM-CANB_SERVER-3-ALARM_INDICATION : Raise alarm from CBC0 in slot 0/FT0, alarm code CBC_ALRM_AT_LEAST_ONE_FAN_FAILED
0/RSP0/ADMIN0:2025 Jul 10 07:53:42.798 IST: canbus_driver[4134]: %PLATFORM-CANB_SERVER-3-ALARM_INDICATION : Raise alarm from CBC0 in slot 0/FT0, alarm code CBC_ALRM_AT_LEAST_ONE_FAN_FAILED
0/RSP0/ADMIN0:2025 Jul 10 07:54:43.800 IST: canbus_driver[4134]: %PLATFORM-CANB_SERVER-3-ALARM_INDICATION : Raise alarm from CBC0 in slot 0/FT0, alarm code CBC_ALRM_AT_LEAST_ONE_FAN_FAILED
0/RSP0/ADMIN0:2025 Jul 10 07:55:44.799 IST: canbus_driver[4134]: %PLATFORM-CANB_SERVER-3-ALARM_INDICATION : Raise alarm from CBC0 in slot 0/FT0, alarm code CBC_ALRM_AT_LEAST_ONE_FAN_FAILED
Etapa 2. Inspeção ambiental e física
Os fatores ambientais podem afetar significativamente a operação do ventilador e o resfriamento geral do sistema.
-
Condições ambientais:
- Verifique a temperatura ambiente e o fluxo de ar ao redor do roteador para garantir que ele esteja dentro dos limites operacionais. Temperaturas altas podem fazer com que os ventiladores trabalhem mais ou falhem prematuramente.
- Verifique se há filtros de poeira ou áreas de ar que possam estar obstruídas ou incorretamente instaladas, restringindo o fluxo de ar.
-
Inspeção física de obstruções/danos:
- Inspecione o módulo/bandeja do ventilador em busca de resíduos visíveis, fiação solta ou obstruções que possam impedir os ventiladores de girar livremente. O acúmulo de poeira é uma causa comum de problemas no ventilador.
- Para modelos com bandejas de ventilador modulares (por exemplo, ASR 9006, 9010, ASR 99xx), se for seguro fazê-lo e de acordo com as diretrizes operacionais, remova cuidadosamente a bandeja de ventilador suspeita. Inspecione visualmente os ventiladores individuais em busca de blades não giratórios ou danos visíveis. Enquanto a bandeja estiver fora, verifique se há poeira acumulada nos ventiladores e dentro do slot do chassi.
- Para modelos com módulos de ventoinha fixos (por exemplo, ASR 9001), uma inspeção física do módulo de ventoinha e dos conectores é limitada, mas ainda deve ser realizada para qualquer sinal externo de dano ou obstrução.
Etapa 3. Verificar Problemas Conhecidos e Bugs
Antes de proceder com a substituição de hardware, é aconselhável verificar se a falha observada no ventilador está alinhada com qualquer bug de software ou hardware conhecido.
- Cisco Bug Search Tool: pesquise a Cisco Bug Search Tool (BST) usando palavras-chave como "falha do ventilador do ASR 9000", "ventilador do ASR [número do modelo]" e a versão específica do Cisco IOS® XR em execução no seu dispositivo. Procure problemas conhecidos que possam causar relatórios incorretos de ventilador ou falhas reais.
- Documentação de Suporte da Cisco:Revise a documentação de suporte da Cisco e os fóruns da comunidade para problemas semelhantes relatados e soluções alternativas ou correções recomendadas.
Etapa 4. Ações corretivas e substituição
As próximas etapas dependem do tipo de módulo de ventoinha em seu roteador ASR 9000 Series.
Para ASR 9000 Series com módulos de ventoinha fixos (por exemplo, ASR 9001):
Modelos como o ASR 9001 têm um módulo de ventilador fixo que não pode ser trocado ou removido em operação.
- Ciclo de alimentação:se as verificações iniciais e os ajustes ambientais não resolverem o problema, execute um ciclo de alimentação do roteador. Às vezes, isso pode resolver problemas transitórios e permitir que o módulo do ventilador seja reinicializado corretamente.
- Substituição (RMA):se for confirmada a falha do módulo de ventilador após um ciclo de alimentação, normalmente será necessária uma RMA (Return Merchandise Authorization, autorização de devolução de material) para todo o chassi.
Note: A substituição de um módulo de ventilador fixo requer um período de inatividade planejado, pois o roteador precisa ser desligado.
Para ASR 9000 Series com bandejas de ventoinha modulares (por exemplo, modelos ASR 9006, ASR 9010 e ASR 99xx)
Esses modelos apresentam bandejas de ventoinhas modulares de troca imediata.
-
Recolocação (SAÍDA E ENTRADA - JOJI):
- Execute cuidadosamente um procedimento de JACK-OUT e JACK-IN (JOJI) na bandeja do ventilador que contém os módulos de ventilador com falha. Isso envolve a remoção física da bandeja do ventilador e a sua reinserção.
- Enquanto a bandeja do ventilador estiver sendo puxada para fora, realize uma inspeção visual minuciosa para verificar se há resíduos ou fios soltos que possam estar impedindo a rotação do ventilador. Você também pode observar se todos os ventiladores tentam girar na reinserção.
- Após recolocar, verifique o status novamente usando "admin show environment fan".
-
Substituição (RMA):se o(s) módulo(s) de ventilador ainda estiver(em) em um estado de falha ou se a bandeja de ventilador continuar não operacional após a recolocação, continue com uma RMA para a bandeja de ventilador.
- Coletar Logs de Evidência:Executar " show logging | incluir VENTILADOR " novamente para capturar registros relacionados ao JOJI da bandeja do ventilador para fins de documentação.
Exemplos de logs:
RP/0/RSP0/CPU0:ASR-9006# show logging | include FAN
0/RSP0/ADMIN0:Jul 12 01:39:25.215 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_REMOVAL : Location: 0/FT0, Serial#:FOC222XXX
0/RSP0/ADMIN0:Jul 12 01:39:26.522 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_INSERTION : Location: 0/FT0, Serial #:FOC222XXX
0/RSP0/ADMIN0:Jul 12 01:39:26.522 : shelf_mgr[4169]: %INFRA-SHELF_MGR-6-CARD_HW_OPERATIONAL : Card: 0/FT0 hardware state going to Operational
0/RSP0/ADMIN0:Jul 12 01:42:23.584 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_REMOVAL : Location: 0/FT0, Serial#:FOC222XXX
0/RSP0/ADMIN0:Jul 12 01:44:40.495 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_INSERTION : Location: 0/FT0, Serial #:FOC222XXX
0/RSP0/ADMIN0:Jul 12 01:44:40.495 : shelf_mgr[4169]: %INFRA-SHELF_MGR-6-CARD_HW_OPERATIONAL : Card: 0/FT0
- Coletar ID do produto (PID) e número de série (SN): Obtenha o PID e o SN da bandeja de ventoinhas com defeito, que são necessários para o processo de RMA.
Exemplo de saída do comando:
Command Syntax:
RP/0/RSP0/CPU0:ASR-9006# show inventory location <location of failed FAN tray>
Sample command:
RP/0/RSP0/CPU0:ASR-9006# show inventory location 0/FT0
NAME: "0/FT0", DESCR: "ASR-9006 Fan Tray V2"
PID: ASR-9006-FAN-V2 , VID: V02, SN: FOC222XXX
- Continue com a RMA:inicie o processo de RMA com a Cisco para a bandeja do ventilador com falha.