Introdução
Este documento descreve como solucionar problemas de falha do módulo FAN na plataforma NCS XR.
Pré-requisitos
Requisitos
A Cisco recomenda que você tenha conhecimento destes tópicos:
Note: A Cisco recomenda que você tenha acesso ao Cisco IOS® XR CLI e ao admin CLI.
Note: A Cisco recomenda que você tenha acesso ao Cisco IOS® XR CLI e ao admin CLI.
Componentes Utilizados
As informações neste documento são baseadas nestas versões de software e hardware:
Isso inclui, mas não se limita a, estas séries:
- NCS série 540
- NCS série 560
- NCS série 5500
- NCS série 5700
As informações neste documento foram criadas a partir de dispositivos em um ambiente de laboratório específico. Todos os dispositivos utilizados neste documento foram iniciados com uma configuração (padrão) inicial. Se a rede estiver ativa, certifique-se de que você entenda o impacto potencial de qualquer comando.
Informações de Apoio
A série de roteadores Cisco NCS XR inclui várias plataformas projetadas para diferentes casos de uso e níveis de desempenho, cada uma com diferentes tipos de módulos de ventoinha e arquiteturas de sistema:
· Cisco NCS 540 Series: Este é um roteador XR de densidade pequena voltado para aplicações de largura de banda abaixo de 100G, como backhaul 5G NR, FTTx e implantações de filiais corporativas. Ele usa módulos de ventoinha com um design de redundância de ventoinha 3+1 e resfriamento de ar forçado lado a lado. As fontes de alimentação são fixas com redundância 1+1 AC/DC, e o sistema é reforçado com revestimento em conformidade e suporta conformidade de temporização Classe C.
· Cisco NCS 560 Series: Esse sistema modular inclui três bandejas de ventoinhas modulares de alta velocidade que devem ser preenchidas para a operação. Essas bandejas de ventoinhas contêm ventoinhas redundantes e podem ser usadas em campo, permitindo assim a substituição sem desligar o sistema. O sistema suporta a operação com falhas de ventilador único e impõe limites de tempo para reinserção de bandejas de ventilador com base na temperatura ambiente. Ele também possui um filtro de poeira embutido para otimizar o fluxo de ar. As fontes de alimentação são modulares com opções AC e DC, suportando esquemas de compartilhamento de carga e proteção.
· Cisco NCS 5500 Series: Essa plataforma de roteador modular resiliente a falhas foi projetada para ambientes de data center e de rede de alto desempenho. Ele apresenta módulos de ventoinha modulares e substituíveis em campo que suportam capacidade de serviço e redundância. A solução de problemas envolve verificações de registros do sistema, status do hardware e gerencia pacotes de software para manter a estabilidade do sistema. A plataforma suporta o software Cisco IOS® XR com pacotes modulares e recursos de resiliência.
· Cisco NCS 5700 Series: Baseada na plataforma NCS 5500, essa série inclui design avançado de ASIC de encaminhamento e executa o sistema operacional Cisco IOS® XR7. Ele tem variantes como NCS-57B1-6D24 e NCS-57B1-5DSE. O sistema é modular, com bandejas de ventoinhas e fontes de alimentação substituíveis em campo, e suporta alta disponibilidade e resiliência a falhas. Bandejas de ventoinha são projetadas para redundância e troca a quente.O SO Cisco IOS® XR7 fornece recursos de software avançados que monitoram o gerenciamento de falhas e do sistema.
Problema
Falhas de ventilador nos roteadores Cisco NCS XR afetam o resfriamento e a confiabilidade do sistema. A natureza e a gravidade dos problemas variam de acordo com a plataforma devido a diferenças no design e na manutenção do módulo do ventilador. Há vários modelos na série NCS 540 que usam módulos de ventoinha fixos, não substituíveis em campo, com um design de redundância 3+1. Aqui, uma falha no ventilador normalmente requer manutenção ou substituição da unidade inteira. Isso pode levar a um tempo de inatividade mais longo e a uma solução de problemas mais complexa.
O NCS 560, 5500 e 5700 Series e alguns modelos do NCS 540 Series empregam bandejas de ventoinhas modulares e substituíveis em campo projetadas para redundância e hot-swapping. Isso permite uma operação contínua durante falhas de ventilador único e permite uma manutenção mais fácil sem desligar o sistema.
As falhas do ventilador nesses sistemas modulares podem disparar alertas de sistema, exigir o monitoramento das restrições de temperatura ambiente e exigir a reinserção oportuna da bandeja do ventilador para manter o fluxo de ar e a estabilidade do sistema ideais. Em geral, a falha do ventilador nos roteadores NCS XR apresenta riscos de superaquecimento, desempenho degradado e possíveis danos ao hardware. Isso exige detecção imediata, diagnóstico e ações corretivas adequadas personalizadas de acordo com a série específica de roteadores e a arquitetura do ventilador.
Procedimento para resolver falha do módulo FAN na plataforma NCS XR
O procedimento de solução de problemas de falhas do módulo de ventilador nas plataformas NCS XR geralmente descreve uma abordagem consistente, com ações físicas específicas que diferem dependendo do modelo usar um módulo de ventilador fixo ou uma bandeja de ventilador modular.
Etapa 1. Verificação CLI inicial
Faça login no roteador no Cisco IOS® XR CLI e execute estes comandos para identificar o status das bandejas de ventilador e ventiladores individuais. Esses comandos são comuns em todas as plataformas NCS XR executando o Cisco IOS® XR.
Etapa 1.1Verificar o status da plataforma: Execute este comando para identificar se é uma falha na bandeja do VENTILADOR ou uma ou mais falhas na bandeja do VENTILADOR.
Exemplo de saída do comando:
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#show platform
Thu Jul 24 12:33:45.143
Node Type State Config state
--------------------------------------------------------------------------------
0/RP0/CPU0 N540X-12Z16G-SYS-D(Active) IOS XR RUN NSHUT
0/PM0 N540-PSU-FIXED-D OPERATIONAL NSHUT
0/PM1 N540-PSU-FIXED-D OPERATIONAL NSHUT
0/FT0 N540-FAN OPERATIONAL NSHUT
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#
Note: Se todas as bandejas de ventoinha estiverem em "OPERACIONAL", você poderá concluir que ela funciona bem. Caso contrário, se alguma bandeja VENTILADORA não estiver operacional, isso significa que a bandeja VENTILADORA está em estado de falha.
Etapa 1.2.Identificar módulos de ventilador com falha: Execute este comando para verificar o status e a velocidade de ventiladores individuais dentro de uma bandeja de ventiladores.
Exemplo de saída do comando:
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#show environment fan
Thu Jul 24 12:33:09.673
=========================================================================================
Fan speed (rpm)
Location FRU Type FAN_0 FAN_1 FAN_2 FAN_3
-----------------------------------------------------------------------------------------
0/FT0 N540-FAN 25680 0 25440 26130
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#
Note: Um valor de `0` ou valores de RPM significativamente menores em comparação com outros ventiladores na mesma bandeja pode indicar um ventilador com falha ou com falha.
Etapa 1.3.Verifique a falha do módulo do ventilador em alarmes: Execute este comando para verificar se há alarmes relacionados ao ventilador nos alarmes do sistema.
Exemplos de logs:
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#show alarms brief system active
Thu Jul 24 12:33:23.874
------------------------------------------------------------------------------------
Active Alarms
------------------------------------------------------------------------------------
Location Severity Group Set Time Description
------------------------------------------------------------------------------------
0/FT0 Minor Environ 07/24/2025 10:35:44 WIB Fan 1: Out of tolerance
0/FT0 Minor Environ 07/24/2025 10:35:44 WIB Sensor in failed state
0 Minor Environ 07/24/2025 10:35:44 WIB Sensor in failed state
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#
Note: Mensagens de alarme indicando "Fan X: Out of tolerance" (Fora de tolerância) ou "Sensor in failed state" (Sensor em estado de falha) confirma as falhas do ventilador.
Note: Mensagens de alarme indicando "Fan X: Out of tolerance" (Fora de tolerância) ou "Sensor in failed state" (Sensor em estado de falha) confirma as falhas do ventilador.
Etapa 2. Inspeção ambiental e física
Os fatores ambientais podem afetar significativamente a operação do ventilador e o resfriamento geral do sistema.
-
Condições ambientais:
- Verifique a temperatura ambiente e o fluxo de ar ao redor do roteador para garantir que ele esteja dentro dos limites operacionais. Temperaturas altas podem fazer com que os ventiladores trabalhem mais ou falhem prematuramente.
- Verifique se há filtros de poeira ou áreas de ar que possam estar obstruídas ou incorretamente instaladas, restringindo o fluxo de ar.
-
Inspeção física de obstruções/danos:
- Inspecione o módulo/bandeja do ventilador em busca de resíduos visíveis, fiação solta ou obstruções que possam impedir os ventiladores de girar livremente. O acúmulo de poeira é uma causa comum de problemas no ventilador.
- Para plataformas com bandejas de ventilador modulares (por exemplo, modelos NCS 560, NCS 5500, NCS 5700 e alguns modelos NCS 540), se for seguro fazê-lo e de acordo com as diretrizes operacionais, considere cuidadosamente puxar para fora a bandeja de ventilador suspeita. Inspecione visualmente os ventiladores individuais em busca de blades não giratórios ou danos visíveis. Enquanto a bandeja estiver fora, verifique se há poeira acumulada nos ventiladores e dentro do slot do chassi.
- Para plataformas com módulos de ventoinha fixos (por exemplo, alguns modelos NCS 540), uma inspeção física do módulo de ventoinha e dos conectores é limitada, mas ainda deve ser realizada para qualquer sinal externo de dano ou obstrução.
Etapa 3. Verificar Problemas Conhecidos e Bugs
Antes de proceder com a substituição de hardware, é aconselhável verificar se a falha observada no ventilador está alinhada com qualquer bug de software ou hardware conhecido.
- Cisco Bug Search Tool: pesquise a Cisco Bug Search Tool (BST) usando palavras-chave como "falha do ventilador do NCS XR", "ventilador do NCS [número do modelo]" e a versão específica do Cisco IOS® XR em execução no seu dispositivo. Procure problemas conhecidos que possam causar relatórios incorretos de ventilador ou falhas reais.
- Documentação de Suporte da Cisco:Revise a documentação de suporte da Cisco e dos fóruns da comunidade para problemas semelhantes relatados e soluções ou correções recomendadas.
Etapa 4. Ações corretivas e substituição
As próximas etapas dependem do tipo de módulo de ventilador na plataforma NCS XR.
Para plataformas NCS XR com módulos de ventoinha fixos (por exemplo, alguns modelos NCS 540)
Os modelos com módulos de ventoinha fixos normalmente não são hot-swappable.
- Ciclo de alimentação:se as verificações iniciais e os ajustes ambientais não resolverem o problema, execute um ciclo de alimentação do roteador. Às vezes, isso pode resolver problemas transitórios e permitir que o módulo do ventilador seja reinicializado corretamente.
- Substituição (RMA):se for confirmada a falha do módulo de ventilador após um ciclo de alimentação, normalmente será necessária uma RMA (Return Merchandise Authorization, autorização de devolução de produto) para toda a unidade ou chassi.
Note: A substituição de um módulo de ventilador fixo requer um período de inatividade planejado, pois o roteador precisa ser desligado.
Para plataformas NCS XR com bandejas de ventoinha modulares (por exemplo, a maioria dos modelos NCS 540, NCS 560, NCS 5500, NCS 5700)
Essas plataformas apresentam bandejas de ventoinhas modulares de troca imediata.
-
Recolocação (SAÍDA E ENTRADA - JOJI):
- Execute cuidadosamente um procedimento de JACK-OUT e JACK-IN (JOJI) na bandeja do ventilador que contém os módulos de ventilador com falha. Isso envolve a remoção física da bandeja do ventilador e a sua reinserção.
- Enquanto a bandeja do ventilador estiver sendo puxada para fora, realize uma inspeção visual minuciosa para verificar se há resíduos ou fios soltos que possam estar impedindo a rotação do ventilador. Você também pode observar se todos os ventiladores tentam girar na reinserção.
- Após recolocar, verifique o status novamente usando "show environment fan".
-
Substituição (RMA):se qualquer um dos módulos de ventilador ainda estiver em um estado de falha ou se a bandeja de ventilador continuar não operacional após a recolocação, continue com uma RMA para a bandeja de ventilador.
- Coletar Logs de Evidência:Executar "show logging | incluir VENTILADOR"novamente para capturar registros relacionados ao JOJI da bandeja do ventilador para fins de documentação.
Exemplos de logs:
RP/0/RP0/CPU0:N540-24Z8Q2C-SYS# show logging | include FAN
0/RSP0/ADMIN0:Jul 12 01:39:25.215 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_REMOVAL : Location: 0/FT0, Serial#: N/A
0/RSP0/ADMIN0:Jul 12 01:39:26.522 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_INSERTION : Location: 0/FT0, Serial #: N/A
0/RSP0/ADMIN0:Jul 12 01:39:26.522 : shelf_mgr[4169]: %INFRA-SHELF_MGR-6-CARD_HW_OPERATIONAL : Card: 0/FT0 hardware state going to Operational
0/RSP0/ADMIN0:Jul 12 01:42:23.584 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_REMOVAL : Location: 0/FT0, Serial#: N/A
0/RSP0/ADMIN0:Jul 12 01:44:40.495 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_INSERTION : Location: 0/FT0, Serial #:N/A
0/RSP0/ADMIN0:Jul 12 01:44:40.495 : shelf_mgr[4169]: %INFRA-SHELF_MGR-6-CARD_HW_OPERATIONAL : Card: 0/FT0
- Coletar ID do produto (PID) e número de série (SN): Obtenha o PID e o SN da bandeja de ventilação com defeito, que são necessários para o processo de RMA.
Exemplo de saída do comando:
Command Syntax:
RP/0/RP0/CPU0:N540-24Z8Q2C-SYS# show inventory location <location of failed FAN tray>
Sample command:
RP/0/RP0/CPU0:N540-24Z8Q2C-SYS# show inventory location 0/FT0
NAME: "0/FT0", DESCR: "NCS 540 Fan"
PID: N540-FAN , VID: N/A, SN: N/A
- Continue com a RMA:inicie o processo de RMA com a Cisco para a bandeja do ventilador com falha.