Einleitung
In diesem Dokument wird die Fehlerbehebung bei Ausfällen des Lüftermoduls auf der NCS XR-Plattform beschrieben.
Voraussetzungen
Anforderungen
Cisco empfiehlt, dass Sie über Kenntnisse in folgenden Bereichen verfügen:
Anmerkung: Cisco empfiehlt den Zugriff auf die CLI von Cisco IOS® XR und die Admin-CLI.
Anmerkung: Cisco empfiehlt den Zugriff auf die CLI von Cisco IOS® XR und die Admin-CLI.
Verwendete Komponenten
Die Informationen in diesem Dokument basierend auf folgenden Software- und Hardware-Versionen:
Dazu gehören u. a. die folgenden Serien:
- NCS 540-Serie
- NCS 560-Serie
- NCS 5500-Serie
- NCS 5700-Serie
Die Informationen in diesem Dokument beziehen sich auf Geräte in einer speziell eingerichteten Testumgebung. Alle Geräte, die in diesem Dokument benutzt wurden, begannen mit einer gelöschten (Nichterfüllungs) Konfiguration. Wenn Ihr Netzwerk in Betrieb ist, stellen Sie sicher, dass Sie die möglichen Auswirkungen aller Befehle kennen.
Hintergrundinformationen
Die Cisco NCS XR-Router-Serie umfasst verschiedene Plattformen, die für unterschiedliche Anwendungsfälle und Leistungsstufen entwickelt wurden und jeweils unterschiedliche Lüftermodultypen und Systemarchitekturen aufweisen:
・ Cisco NCS 540-Serie: Hierbei handelt es sich um einen XR-Router mit geringer Dichte, der für Bandbreitenanwendungen mit weniger als 100 Gbit/s ausgelegt ist, z. B. für 5G-NR-Backhaul, FTTx und Bereitstellungen in Zweigstellen. Dabei kommen Lüftermodule mit 3+1-Lüfterredundanz und seitlicher Zwangsluftkühlung zum Einsatz. Die Netzteile verfügen über eine feste 1+1-Wechselstrom-/Gleichstrom-Redundanz, das System ist robust durch eine konforme Beschichtung und unterstützt die Einhaltung des Class C-Timings.
・ Cisco NCS 560-Serie: Dieses modulare System umfasst drei modulare Hochgeschwindigkeits-Lüftereinschübe, die für den Betrieb bestückt werden müssen. Diese Lüftereinschübe sind mit redundanten Lüftern ausgestattet und lassen sich vor Ort warten, sodass ein Austausch ohne Herunterfahren des Systems möglich ist. Das System unterstützt den Betrieb bei Ausfall eines Lüfters und setzt Zeitlimits für das Wiedereinsetzen von Lüftereinschüben basierend auf der Umgebungstemperatur durch. Es verfügt außerdem über einen integrierten Staubfilter zur Optimierung des Luftstroms. Die modularen Netzteile verfügen über Wechselstrom- und Gleichstromoptionen und unterstützen Lastverteilung und Schutzmechanismen.
・ Cisco NCS 5500-Serie: Diese modulare Router-Plattform mit hoher Ausfallsicherheit wurde für Rechenzentren und Hochleistungs-Netzwerkumgebungen entwickelt. Er verfügt über modulare, vor Ort austauschbare Lüftermodule, die Wartungsfreundlichkeit und Redundanz unterstützen. Die Fehlerbehebung umfasst die Überprüfung der Systemprotokolle, den Hardwarestatus und die Verwaltung von Softwarepaketen, um die Systemstabilität zu gewährleisten. Die Plattform unterstützt die Cisco IOS® XR-Software mit modularen Paketen und Ausfallsicherheitsfunktionen.
・ Cisco NCS 5700-Serie: Aufbauend auf der NCS 5500-Plattform umfasst diese Serie ein erweitertes ASIC-Weiterleitungsdesign und führt das Cisco IOS® XR7-Betriebssystem aus. Es gibt Varianten wie NCS-57B1-6D24 und NCS-57B1-5DSE. Das System ist modular mit vor Ort austauschbaren Lüftereinschüben und Netzteilen aufgebaut und unterstützt hohe Verfügbarkeit und Ausfallsicherheit. Lüftereinschübe sind auf Redundanz und Hot-Swap ausgelegt.Das Cisco IOS® XR7 Betriebssystem bietet erweiterte Softwarefunktionen zur Überwachung des System- und Fehlermanagements.
Problem
Lüfterausfälle bei Cisco NCS XR-Routern wirken sich auf die Systemkühlung und -zuverlässigkeit aus. Art und Schweregrad der Probleme variieren je nach Plattform aufgrund der Unterschiede im Design und der Wartungsfreundlichkeit der Lüftermodule. Die NCS 540-Serie besteht aus mehreren Modellen, die feste, vor Ort nicht austauschbare Lüftermodule mit 3+1-Redundanz verwenden. In diesem Fall erfordert ein Lüfterausfall in der Regel den Service oder den Austausch der gesamten Einheit. Dies kann zu längeren Ausfallzeiten und einer komplexeren Fehlerbehebung führen.
Die NCS 560-, 5500- und 5700-Serien und einige wenige Modelle der NCS 540-Serie verwenden modulare, vor Ort austauschbare Lüftereinschübe, die auf Redundanz und Hot-Swap-Fähigkeit ausgelegt sind. Dies ermöglicht den Weiterbetrieb bei Ausfall eines Lüfters und erleichtert die Wartung ohne Systemabschaltung.
Lüfterausfälle in diesen modularen Systemen können Systemwarnungen auslösen, eine Überwachung von Umgebungstemperatureinschränkungen erfordern und eine zeitnahe Wiedereinsetzung des Lüftereinschubs erforderlich machen, um einen optimalen Luftstrom und eine optimale Systemstabilität zu gewährleisten. Insgesamt besteht bei einem Lüfterausfall bei NCS XR-Routern das Risiko von Überhitzung, Leistungseinbußen und potenziellen Hardware-Schäden. Dies erfordert eine sofortige Erkennung und Diagnose sowie geeignete Abhilfemaßnahmen, die auf die jeweilige Router-Serie und Lüfterarchitektur zugeschnitten sind.
Verfahren zur Behebung von FAN-Modulfehlern auf der NCS XR-Plattform
Das Fehlerbehebungsverfahren bei Ausfällen von Lüftermodulen auf NCS XR-Plattformen zeichnet sich im Allgemeinen durch einen konsistenten Ansatz aus, wobei spezifische physische Aktionen unterschiedlich ausfallen, je nachdem, ob das Modell ein festes Lüftermodul oder einen modularen Lüftereinschub verwendet.
Schritt 1. Erste CLI-Verifizierung
Melden Sie sich in der Cisco IOS® XR CLI beim Router an, und führen Sie diese Befehle aus, um den Status der Lüftereinschübe und einzelner Lüfter zu identifizieren. Diese Befehle gelten für alle NCS XR-Plattformen mit Cisco IOS® XR.
Schritt 1.1Plattformstatus überprüfen: Führen Sie diesen Befehl aus, um festzustellen, ob es sich um einen Lüftereinschubausfall oder um einen oder mehrere Lüfterausfälle in einem Lüftereinschub handelt.
Beispielausgabe für Befehle:
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#show platform
Thu Jul 24 12:33:45.143
Node Type State Config state
--------------------------------------------------------------------------------
0/RP0/CPU0 N540X-12Z16G-SYS-D(Active) IOS XR RUN NSHUT
0/PM0 N540-PSU-FIXED-D OPERATIONAL NSHUT
0/PM1 N540-PSU-FIXED-D OPERATIONAL NSHUT
0/FT0 N540-FAN OPERATIONAL NSHUT
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#
Anmerkung: Wenn alle Lüftereinschübe "BETRIEBLICH" lauten, können Sie abschließen, dass der Lüftereinschub einwandfrei funktioniert. Andernfalls, wenn ein Lüftereinschub nicht betriebsbereit ist, bedeutet dies, dass der Lüftereinschub ausgefallen ist.
Schritt 1.2.Identifizieren fehlgeschlagener Lüftermodule: Führen Sie diesen Befehl aus, um den Status und die Geschwindigkeit einzelner Lüfter in einem Lüftereinschub zu überprüfen.
Beispielausgabe für Befehle:
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#show environment fan
Thu Jul 24 12:33:09.673
=========================================================================================
Fan speed (rpm)
Location FRU Type FAN_0 FAN_1 FAN_2 FAN_3
-----------------------------------------------------------------------------------------
0/FT0 N540-FAN 25680 0 25440 26130
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#
Anmerkung: Ein Wert von '0' oder ein wesentlich niedrigerer Wert der Drehzahl im Vergleich zu anderen Lüftern im gleichen Fach kann auf einen ausgefallenen oder ausgefallenen Lüfter hinweisen.
Schritt 1.3.Überprüfung des Lüftermodulausfalls anhand von Alarmen: Führen Sie diesen Befehl aus, um Systemwarnungen auf lüfterbezogene Warnungen zu überprüfen.
Beispielprotokolle:
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#show alarms brief system active
Thu Jul 24 12:33:23.874
------------------------------------------------------------------------------------
Active Alarms
------------------------------------------------------------------------------------
Location Severity Group Set Time Description
------------------------------------------------------------------------------------
0/FT0 Minor Environ 07/24/2025 10:35:44 WIB Fan 1: Out of tolerance
0/FT0 Minor Environ 07/24/2025 10:35:44 WIB Sensor in failed state
0 Minor Environ 07/24/2025 10:35:44 WIB Sensor in failed state
RP/0/RP0/CPU0:N540X-12Z16G-SYS-D#
Anmerkung: Alarmmeldungen mit der Angabe "Fan X: Außerhalb der Toleranz" oder "Sensor im fehlerhaften Zustand" bestätigen Lüfterfehler.
Anmerkung: Alarmmeldungen mit der Angabe "Fan X: Außerhalb der Toleranz" oder "Sensor im fehlerhaften Zustand" bestätigen Lüfterfehler.
Schritt 2. Umwelt- und physische Inspektion
Umgebungsfaktoren können sich erheblich auf den Lüfterbetrieb und die Systemkühlung insgesamt auswirken.
-
Umgebungsbedingungen:
- Überprüfen Sie die Umgebungstemperatur und den Luftstrom um den Router, um sicherzustellen, dass er innerhalb der Betriebsgrenzen liegt. Hohe Temperaturen können dazu führen, dass Lüfter härter arbeiten oder vorzeitig ausfallen.
- Überprüfen Sie, ob Staubfilter oder Luftschächte vorhanden sind, die verstopft oder falsch installiert sein können, wodurch der Luftstrom eingeschränkt wird.
-
Physische Prüfung auf Fremdkörper/Beschädigungen:
- Untersuchen Sie das Lüftermodul bzw. den Lüftereinschub auf sichtbare Verschmutzungen, lose Kabel oder Hindernisse, die eine freie Lüfterdrehung verhindern können. Staubansammlungen sind eine häufige Ursache für Lüfterprobleme.
- Bei Plattformen mit modularen Lüftereinschüben (z. B. NCS 560, NCS 5500, NCS 5700 und einige NCS 540-Modelle) sollte der verdächtige Lüftereinschub sorgfältig herausgezogen werden, wenn dies sicher ist und die Betriebsrichtlinien eingehalten werden. Untersuchen Sie die einzelnen Lüfter visuell auf nicht rotierende Klingen oder sichtbare Beschädigungen. Überprüfen Sie, ob sich Staub an den Lüftern und im Chassis-Steckplatz ansammelt, während das Fach geöffnet ist.
- Bei Plattformen mit festen Lüftermodulen (z. B. einige NCS 540-Modelle) ist die physische Inspektion des Lüftermoduls und der Anschlüsse beschränkt, muss jedoch weiterhin auf äußere Anzeichen einer Beschädigung oder Behinderung hin durchgeführt werden.
Schritt 3: Überprüfen auf bekannte Probleme und Fehler
Bevor Sie mit dem Hardware-Ersatz fortfahren, sollten Sie überprüfen, ob der festgestellte Lüfterausfall auf bekannte Software- oder Hardware-Fehler zurückzuführen ist.
- Cisco Bug Search Tool: Suchen Sie im Cisco Bug Search Tool (BST) nach Schlüsselwörtern wie "NCS XR fan failure" (NCS-XR-Lüfterausfall), "NCS [Modellnummer] fan" (NCS-Lüfterausfall) und der spezifischen Cisco IOS® XR-Version, die auf Ihrem Gerät ausgeführt wird. Achten Sie auf bekannte Probleme, die zu Lüfterfehlmeldungen oder -ausfällen führen können.
- Cisco Support-Dokumentation: Überprüfen Sie die Support-Dokumentation von Cisco und den Community-Foren auf ähnliche Probleme und empfohlene Problemumgehungen oder Korrekturen.
Schritt 4: Korrekturmaßnahmen und Ersatz
Die nächsten Schritte hängen vom Typ des Lüftermoduls in Ihrer NCS XR-Plattform ab.
Für NCS XR-Plattformen mit fest konfigurierten Lüftermodulen (z. B. einige NCS 540-Modelle)
Modelle mit festen Lüftermodulen sind in der Regel nicht Hot-Swap-fähig.
- Ein-/Ausschalten: Wenn das Problem durch die anfänglichen Prüfungen und Umgebungsanpassungen nicht behoben wird, führen Sie einen Ein-/Ausschaltzyklus des Routers durch. Dadurch können vorübergehende Probleme behoben und eine ordnungsgemäße Neuinitialisierung des Lüftermoduls ermöglicht werden.
- Austausch (RMA):Wenn das Lüftermodul nach dem Aus- und Einschalten als ausgefallen bestätigt wird, ist in der Regel eine Retourengenehmigung (Return Merchandise Authorization, RMA) für das gesamte Gerät oder Chassis erforderlich.
Anmerkung: Der Austausch eines festen Lüftermoduls erfordert geplante Ausfallzeiten, da der Router ausgeschaltet werden muss.
Für NCS XR-Plattformen mit modularen Lüftereinschüben (z. B. die meisten Modelle NCS 540, NCS 560, NCS 5500, NCS 5700)
Diese Plattformen verfügen über Hot-Swap-fähige modulare Lüftereinschübe.
-
Wiedereinsetzen (JACK-OUT und JACK-IN - JOJI):
- Führen Sie einen JACK-OUT- und JACK-IN-Vorgang (JOJI) am Lüftereinschub aus, der die fehlerhaften Lüftermodule enthält. Dazu muss der Lüftereinschub physisch entfernt und dann wieder eingesetzt werden.
- Führen Sie während des Herausziehens des Lüftereinschubs eine gründliche Sichtprüfung auf Verschmutzungen oder lockere Kabel durch, die das Drehen der Lüfter verhindern können. Sie können auch beobachten, wenn alle Lüfter beim Wiedereinsetzen versuchen, sich zu drehen.
- Überprüfen Sie nach dem erneuten Einsetzen den Status erneut mit "show environment fan" (Umgebungslüfter anzeigen).
-
Austausch (RMA):Wenn eines der Lüftermodule weiterhin defekt ist oder der Lüftereinschub nach dem Wiedereinsetzen nicht funktioniert, fahren Sie mit der RMA für den Lüftereinschub fort.
- Nachweisprotokolle erfassen:Ausführen von "show logging" | FAN einschließen"erneut, um Protokolle zu erfassen, die sich auf den Lüftereinschub JOJI beziehen, um diese zu dokumentieren.
Beispielprotokolle:
RP/0/RP0/CPU0:N540-24Z8Q2C-SYS# show logging | include FAN
0/RSP0/ADMIN0:Jul 12 01:39:25.215 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_REMOVAL : Location: 0/FT0, Serial#: N/A
0/RSP0/ADMIN0:Jul 12 01:39:26.522 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_INSERTION : Location: 0/FT0, Serial #: N/A
0/RSP0/ADMIN0:Jul 12 01:39:26.522 : shelf_mgr[4169]: %INFRA-SHELF_MGR-6-CARD_HW_OPERATIONAL : Card: 0/FT0 hardware state going to Operational
0/RSP0/ADMIN0:Jul 12 01:42:23.584 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_REMOVAL : Location: 0/FT0, Serial#: N/A
0/RSP0/ADMIN0:Jul 12 01:44:40.495 : shelf_mgr[4169]: %INFRA-SHELF_MGR-5-CARD_INSERTION : Location: 0/FT0, Serial #:N/A
0/RSP0/ADMIN0:Jul 12 01:44:40.495 : shelf_mgr[4169]: %INFRA-SHELF_MGR-6-CARD_HW_OPERATIONAL : Card: 0/FT0
- Produkt-ID (PID) und Seriennummer (SN) erfassen: Fordern Sie die PID und SN des fehlerhaften Lüftereinschubs an, die für den RMA-Prozess erforderlich sind.
Beispielausgabe für Befehle:
Command Syntax:
RP/0/RP0/CPU0:N540-24Z8Q2C-SYS# show inventory location <location of failed FAN tray>
Sample command:
RP/0/RP0/CPU0:N540-24Z8Q2C-SYS# show inventory location 0/FT0
NAME: "0/FT0", DESCR: "NCS 540 Fan"
PID: N540-FAN , VID: N/A, SN: N/A
- Mit RMA fortfahren: Vereinbaren Sie eine RMA mit Cisco für das fehlerhafte Lüfterfach.