In dem Dokumentationssatz für dieses Produkt wird die Verwendung inklusiver Sprache angestrebt. Für die Zwecke dieses Dokumentationssatzes wird Sprache als „inklusiv“ verstanden, wenn sie keine Diskriminierung aufgrund von Alter, körperlicher und/oder geistiger Behinderung, Geschlechtszugehörigkeit und -identität, ethnischer Identität, sexueller Orientierung, sozioökonomischem Status und Intersektionalität impliziert. Dennoch können in der Dokumentation stilistische Abweichungen von diesem Bemühen auftreten, wenn Text verwendet wird, der in Benutzeroberflächen der Produktsoftware fest codiert ist, auf RFP-Dokumentation basiert oder von einem genannten Drittanbieterprodukt verwendet wird. Hier erfahren Sie mehr darüber, wie Cisco inklusive Sprache verwendet.
Cisco hat dieses Dokument maschinell übersetzen und von einem menschlichen Übersetzer editieren und korrigieren lassen, um unseren Benutzern auf der ganzen Welt Support-Inhalte in ihrer eigenen Sprache zu bieten. Bitte beachten Sie, dass selbst die beste maschinelle Übersetzung nicht so genau ist wie eine von einem professionellen Übersetzer angefertigte. Cisco Systems, Inc. übernimmt keine Haftung für die Richtigkeit dieser Übersetzungen und empfiehlt, immer das englische Originaldokument (siehe bereitgestellter Link) heranzuziehen.
In diesem Dokument werden weiche und harte Paritätsfehler beschrieben, gängige Fehlermeldungen erläutert und Methoden empfohlen, mit denen Paritätsfehler vermieden oder minimiert werden können.
Kürzlich durchgeführte Verbesserungen beim Hardware- und Softwaredesign reduzieren zudem Paritätsprobleme.
Was ist ein Prozessor- oder Speicherparitätsfehler?
Bei der Paritätsprüfung wird eine zusätzliche Binärziffer (Bit) gespeichert, um die Parität (ungerade oder gerade) einer kleinen Menge von Computerdaten (in der Regel ein Byte) darzustellen, während diese Daten im Speicher gespeichert werden. Der aus den gespeicherten Daten berechnete Paritätswert wird dann mit dem endgültigen Paritätswert verglichen. Wenn sich diese beiden Werte unterscheiden, weist dies auf einen Datenfehler hin, und mindestens ein Bit muss aufgrund einer Datenbeschädigung geändert worden sein.
In einem Computersystem kann eine elektrische oder magnetische Störung durch interne oder externe Ursachen dazu führen, dass ein einzelnes Speicherbit spontan in den entgegengesetzten Zustand wechselt. Dieses Ereignis macht die ursprünglichen Datenbits ungültig und wird als Paritätsfehler bezeichnet.
Solche Speicherfehler können, wenn sie nicht erkannt werden, unerkennbare und folgenlose Folgen haben oder eine dauerhafte Beschädigung gespeicherter Daten oder einen Maschinenabsturz verursachen.
Es gibt viele Ursachen für Speicherparitätsfehler, die entweder als Soft-Parity-Fehler oder als Hard-Parity-Fehler klassifiziert werden.
Die meisten Paritätsfehler werden durch elektrostatische oder magnetbezogene Umgebungsbedingungen verursacht.
Die meisten Einzelereignisfehler in Speicherchips werden durch Hintergrundstrahlung (wie Neutronen kosmischer Strahlung), elektromagnetische Interferenz (EMI) oder elektrostatische Entladung (ESD) verursacht. Diese Ereignisse können den elektrischen Zustand einer oder mehrerer Speicherzellen zufällig ändern oder die zum Lesen und Schreiben von Speicherzellen verwendete Schaltung stören.
Diese als Soft-Parity-Fehler bekannten Ereignisse sind typischerweise vorübergehender oder zufälliger Natur und treten in der Regel einmal auf. Weiche Fehler können geringfügig oder schwerwiegend sein:
Weiche Fehler werden nicht durch Hardwarefehler verursacht. Sie sind vorübergehend und selten, meistens wahrscheinlich ein SEU, und werden durch eine Umweltstörung der Speicherdaten verursacht.
Wenn Sie auf Soft-Parity-Fehler stoßen, analysieren Sie die jüngsten Umgebungsänderungen, die am Standort des betroffenen Systems aufgetreten sind. Zu den häufigen Quellen von ESD und EMI, die zu weichen Paritätsfehlern führen können, gehören:
Andere Paritätsfehler werden durch eine physikalische Fehlfunktion der Speicherhardware oder durch die zum Lesen und Schreiben von Speicherzellen verwendete Schaltung verursacht.
Hardwarehersteller ergreifen umfangreiche Maßnahmen, um Hardwaredefekte zu verhindern und zu testen. Es sind jedoch noch Mängel möglich. Wenn beispielsweise eine der Speicherzellen, die zum Speichern von Datenbits verwendet werden, fehlerhaft ausgebildet ist, können sie keine Ladung aufnehmen oder anfälliger für Umgebungsbedingungen sein.
Ebenso kann, während der Speicher selbst normal arbeiten kann, jede physische oder elektrische Beschädigung der zum Lesen und Schreiben von Speicherzellen verwendeten Schaltung auch dazu führen, dass Datenbits während der Übertragung geändert werden, was zu einem Paritätsfehler führt.
Diese als Hard-Parity-Fehler bekannten Ereignisse treten in der Regel sehr häufig und wiederholt auf, wenn der betroffene Speicher oder Schaltkreis verwendet wird. Die genaue Häufigkeit hängt vom Ausmaß der Störung und davon ab, wie häufig das beschädigte Gerät verwendet wird.
Denken Sie daran, dass Paritätsfehler das Ergebnis einer Hardwarefehlfunktion sind und bei Verwendung der betroffenen Komponente immer wieder auftreten.
Wenn schwerwiegende Paritätsfehler auftreten, analysieren Sie physische Änderungen, die am Standort des betroffenen Systems aufgetreten sind. Zu den häufigen Ursachen für Hardwarefehler, die zu Paritätsfehlern führen können, gehören:
Die Cisco IOS® Software liefert eine Vielzahl von Paritätsfehlermeldungen, die sich je nach betroffener Komponente und deren relativen Auswirkungen auf das System unterscheiden.
|
Cache-Fehler erkannt! Echter Cachefehler erkannt. Das System kann angehalten werden. Fehler: Primärer Instr-Cache, Felder: Daten, Unpräziser Datenparitätsfehler |
|
|
Erläuterung |
Dies ist das Ergebnis eines Paritätsfehlers im L2-Cache (statischer Arbeitsspeicher mit wahlfreiem Zugriff oder SRAM), der von der Routingprozessor- (RP) oder Switch-Prozessor- (SP)-CPU der Multilayer Switch Feature Card 3 (MSFC3) verwendet wird. |
|
Empfehlung |
Überwachen Sie das System regelmäßig auf ein erneutes Auftreten. Wenn keine weiteren Ereignisse beobachtet werden, handelt es sich um einen weichen Fehler. Wenn der Fehler häufig auftritt, fordern Sie eine Retourengenehmigung (Return Material Authorization, RMA) an, um die Supervisor Engine auszutauschen, und markieren Sie das Modul für die Geräteausfallanalyse (Equipment Failure Analysis, EFA). |
|
%SYSTEM_CONTROLLER-3-FEHLER: Fehlerzustand erkannt: SYSAD_PARITY_ERROR |
|
|
Erläuterung |
Dies ist das Ergebnis eines Paritätsfehlers in der vom In-Band Controller (IBC) der MSFC3 verwendeten Systemadresse (Datenbus). |
|
Empfehlung |
Überwachen Sie das System regelmäßig auf ein erneutes Auftreten. Wenn keine weiteren Ereignisse beobachtet werden, handelt es sich um einen weichen Fehler. Wenn der Fehler häufig auftritt, fordern Sie eine RMA an, um die Supervisor Engine auszutauschen, und markieren Sie das Modul für die EFA. |
|
%SYSTEM_CONTROLLER-3-FEHLER: Fehlerzustand erkannt: TM_DATA_PARITY_ERROR |
|
|
Erläuterung |
Dies ist das Ergebnis eines Paritätsfehlers in den vom IBC der MSFC3 verwendeten Daten des Tabellenmanagers. |
|
Empfehlung |
Überwachen Sie das System regelmäßig auf ein erneutes Auftreten. Wenn keine weiteren Ereignisse beobachtet werden, handelt es sich um einen weichen Fehler. Wenn der Fehler häufig auftritt, fordern Sie eine RMA an, um die Supervisor Engine auszutauschen, und markieren Sie das Modul für die EFA. |
|
%SYSTEM_CONTROLLER-3-FEHLER: Fehlerzustand erkannt: TM_NPP_PARITY_ERROR |
|
|
Erläuterung |
Dies ist das Ergebnis eines Paritätsfehlers im Tabellen-Manager "Next Page Pointer", der von der IBC der MSFC3 verwendet wird. |
|
Empfehlung |
Überwachen Sie das System regelmäßig auf ein erneutes Auftreten. Wenn keine weiteren Ereignisse beobachtet werden, handelt es sich um einen weichen Fehler. Wenn der Fehler häufig auftritt, fordern Sie eine RMA an, um die Supervisor Engine auszutauschen, und markieren Sie das Modul für EFA.In den Cisco IOS Softwareversionen zwischen 12.1(8)E und 12.2(33)SXI3 bestand das Standardverhalten bei SYSTEM_CONTROLLER-3-ERROR-Ereignissen darin, die IBC zurückzusetzen und eine Fehlermeldung zu protokollieren.Diese Korrekturmaßnahme führte jedoch in einigen dokumentierten Fällen zur IBC (und damit die CPU) ist nicht mehr in der Lage, Daten zu übertragen oder zu empfangen. Daher wurde das Verhalten in Cisco IOS-Softwareversionen nach Version 12.2(33)SXI4 geändert, um eine Fehlermeldung zu protokollieren und das System zurückzusetzen. Weitere Informationen finden Sie unter der Cisco Bug-ID CSCtf51541. |
|
Unterbrechungsausnahme, CPU-Signal 20, PC = 0x[dec] |
|
|
Erläuterung |
Dies ist das Ergebnis eines Einbit-Paritätsfehlers im CPU-L2-Cache (SRAM) der Cisco Catalyst-Module der Serie 6700. |
|
Empfehlung |
Überwachen Sie das System regelmäßig auf ein erneutes Auftreten. Wenn keine weiteren Ereignisse beobachtet werden, handelt es sich um einen weichen Fehler. Wenn der Fehler häufig auftritt, fordern Sie eine RMA an, um das 6700-Modul auszutauschen, und markieren Sie das Modul für die EFA. In früheren Cisco IOS-Softwareversionen als 12.2(33)SXI5 würde ein Softwarefehler (Cisco Bug-ID CSCtj06411) sogar Single-Bit-Paritätsfehler verursachen, um das 6700-Modul zurückzusetzen. Dies wurde in den Versionen 12.2(33)SXI6 und 12.2(33)SXJ für die Supervisor Engine 720 sowie in Version 15.0SY für die Supervisor Engine 2T behoben. |
|
%SYSTEM_CONTROLLER-3-FEHLER: Fehlerzustand erkannt: SYSDRAM_PARITY_ERROR |
|
|
Erläuterung |
Dies ist das Ergebnis eines unkorrigierbaren Paritätsfehlers in den von MSFC3 verwendeten synchronen DRAM-Speichermodulen (SDRAM). |
|
Empfehlung |
Überwachen Sie das System regelmäßig auf ein erneutes Auftreten. Wenn keine weiteren Ereignisse beobachtet werden, handelt es sich um einen weichen Fehler. Tritt der Fehler häufig auf, reinigen Sie das DIMM-Modul, setzen Sie es wieder ein, und überwachen Sie es weiterhin. Wenn der Fehler weiterhin besteht, fordern Sie eine RMA an, um das DIMM-Modul zu ersetzen oder aufzurüsten. |
|
%SYSTEM_CONTROLLER-3-COR_MEM_ERR Korrigierbarer DRAM-Speicherfehler Anzahl [dec], log [hex] |
|
|
Erläuterung |
Dies ist das Ergebnis eines korrigierbaren Paritätsfehlers im SDRAM (DIMM), der von der MSFC3 verwendet wird. |
|
Empfehlung |
Überwachen Sie das System regelmäßig auf ein erneutes Auftreten. Wenn keine weiteren Ereignisse beobachtet werden, handelt es sich um einen weichen Fehler. Tritt der Fehler häufig auf, reinigen Sie das DIMM-Modul, setzen Sie es wieder ein, und überwachen Sie es weiterhin. Wenn der Fehler weiterhin besteht, fordern Sie eine RMA an, um das DIMM-Modul zu ersetzen oder aufzurüsten. |
|
%MWAM-DFC[dec]-0-CORRECTABLE_ECC_ERR: Ein behebbarer ECC-Fehler ist aufgetreten, A_BUS_L2_ERRORS: 0x10000, A_BUS_MEMIO_ERRORS: 0x0, A_SCD_BUS_ERR_STATUS: 0x80983000 |
|
|
Erläuterung |
Dies ist das Ergebnis eines Einbit-Paritätsfehlers im DRAM, der von Modulen der Serie 6700 verwendet wird. |
|
Empfehlung |
Überwachen Sie das System regelmäßig auf ein erneutes Auftreten. Wenn keine weiteren Ereignisse beobachtet werden, handelt es sich um einen weichen Fehler. Tritt der Fehler häufig auf, reinigen Sie das DIMM-Modul, setzen Sie es wieder ein, und überwachen Sie es weiterhin. Wenn der Fehler weiterhin besteht, fordern Sie eine RMA an, um das DIMM-Modul zu ersetzen oder aufzurüsten. |
|
%PM_SCP-SP-2-LCP_FW_ERR_INFORM: Im Modul [dec] tritt dieser Fehler auf: LTL-Paritätsfehler in Spule #[dec]. |
|
|
Erläuterung |
Dies ist das Ergebnis eines Paritätsfehlers im SRAM der Cisco Catalyst-Module der Serien 6100 und 6300. |
|
Empfehlung |
Überwachen Sie das System regelmäßig auf ein erneutes Auftreten. Wenn keine weiteren Ereignisse beobachtet werden, handelt es sich um einen weichen Fehler. Wenn der Fehler häufig auftritt, fordern Sie eine RMA an, um das 6100- oder 6300-Modul auszutauschen, und markieren Sie das Modul für die EFA. |
|
%SYS-4-SYS_LCPERR4: Modul [dec]: LTL-Paritätsfehler in Spule #[dec] erkannt |
|
|
Erläuterung |
Dies ist das Ergebnis eines Paritätsfehlers im SRAM, der von den Modulen der Serien 6100 und 6300 verwendet wird. |
|
Empfehlung |
Überwachen Sie das System regelmäßig auf ein erneutes Auftreten. Wenn keine weiteren Ereignisse beobachtet werden, handelt es sich um einen weichen Fehler. Wenn der Fehler häufig auftritt, fordern Sie eine RMA an, um das 6100- oder 6300-Modul auszutauschen, und markieren Sie das Modul für die EFA. |
|
%PM_SCP-SP-2-LCP_FW_ERR_INFORM: Im Modul [dec] tritt dieser Fehler auf: Port-ASIC ([name])-Paketpufferfehler an Ports [dec] erkannt |
|
|
Erläuterung |
Dies ist das Ergebnis eines Paritätsfehlers im Port-ASIC-Paketpuffer (SRAM), der von den Cisco Catalyst Ethernet-Modulen der Serie 6148A verwendet wird. |
|
Empfehlung |
Überwachen Sie das System regelmäßig auf ein erneutes Auftreten. Wenn keine weiteren Ereignisse beobachtet werden, handelt es sich um einen weichen Fehler. Wenn der Fehler häufig auftritt, fordern Sie eine RMA an, um das 6148A-Modul auszutauschen, und markieren Sie das Modul für die EFA. |
|
%LTL-SP-2-LTL_PARITY_CHECK: Anfrage für LTL-Paritätsprüfung für 0x[hex] |
|
|
Erläuterung |
Dies ist das Ergebnis eines Paritätsfehlers in der Port-ASIC-Port-Indextabelle (SRAM), die von den Catalyst-Modulen der Serien 6100-6500 und 6700 verwendet wird. |
|
Empfehlung |
Überwachen Sie das System regelmäßig auf erneute Ereignisse. Wenn keine weiteren Ereignisse beobachtet werden, handelt es sich um einen weichen Fehler. Wenn der Fehler häufig auftritt, fordern Sie eine RMA an, um das Modul auszutauschen, und markieren Sie das Modul für die EFA. |
Eine umfassende Liste der Fehlermeldungen finden Sie in den folgenden Dokumenten zur Cisco IOS-Software:
Das Output Interpreter-Tool (nur registrierte Kunden) unterstützt bestimmte show-Befehle. Verwenden Sie das Output Interpreter-Tool, um eine Analyse der show-Befehlsausgabe anzuzeigen.
Paritätsfehler werden derzeit untersucht. Nicht jedes Szenario lässt sich beheben. Die Hardware- und Softwareentwicklungsunternehmen für den Cisco Catalyst 6500 führen jedoch auch weiterhin neue Methoden ein, z. B. den ECC-Schutz (Error Correcting Code), um das Auftreten von Paritätsfehlern zu minimieren und zu minimieren.
In diesem Dokument wurde zunächst die dritte Generation (WS-XSUP720 und frühe Serie 6700) der Catalyst 6500-Produkte erörtert. In diesem Abschnitt werden jedoch die Verbesserungen der vierten Generation (VS-S720-10G und spätere Serie 6700) und der fünften Generation zusammengefasst. (VS-SUP2T-10G und Serie 6900).
Das VS-S720-10G Modul verfügt über eine neuere MSFC3-Tochterplatine, eine neue IBC und aktualisierte SR7010A Reduced Instruction Set Computing (RISC) RP- und SP-CPUs, die mit jeweils 600 MHz betrieben werden. Die Level 1 (L1)-, L2- und Level 3 (L3)-Caches sind in der Lage, Parität zu erkennen. Die neuere IBC verfügt über alle Funktionen der früheren Generation und fügt den angeschlossenen SRAMs ECC-Schutz (Single-Bit-Korrektur, Multi-Bit-Erkennung) hinzu.
Die Module der Serie 6700 unterstützen eine CPU mit ECC-geschütztem L2-Cache (der L1-Cache ist zur Paritätserkennung geeignet), mit dem Einbit-Paritätsfehler korrigiert werden können, ohne dass ein Zurücksetzen erforderlich ist. Aufgrund der Cisco Bug-ID CSCsz3922 setzt die Version 12.2SXI der Cisco IOS-Software (Supervisor Engine 720) das Modul jedoch trotzdem zurück, wenn ein Einbit-CPU-Cache-Paritätsfehler auftritt. Dies wird in den Versionen 12.2SXJ (Supervisor Engine 720) und 15.0SY (Supervisor Engine 2T) der Cisco IOS-Software behoben.
Die VS-SUP2T-10G verfügt über eine neue MSFC5-Tochterplatine mit integrierter IBC und einer neuen MPC8572 PPC RP-CPU mit einem Dualcore-Prozessor (mit ECC-geschütztem L2- und L3-Cache, L1-Cache ist Paritätserkennung möglich), die mit 1,5 GHz pro Kern arbeitet. Darüber hinaus verfügt er über eine neue, separate Out-of-Band-CPU (Connectivity Management Processor, CMP) und einen ECC-geschützten DRAM, der auch dann verfügbar ist, wenn die RP-CPU derzeit nicht verfügbar ist.
Die neue IBC bietet alle Funktionen früherer Generationen und unterstützt ECC-Schutz für angeschlossene SRAMs sowie Verbesserungen bei der Paritätsfehlerbehandlung. Die neue MSFC5 verfügt außerdem über ein Onboard Failure Logging (OBFL) ROM, in dem alle Modulinitialisierungs- und Diagnoseereignisse gespeichert werden. Das neue Design mit einer CPU reduziert zudem die statistische Wahrscheinlichkeit von Paritätsfehlerereignissen.
Die Module der Serie 6900 unterstützen eine neuere CPU mit ECC-geschütztem L1- und L2-Cache, mit dem Einbit-Paritätsfehler korrigiert werden können, ohne dass ein Zurücksetzen erforderlich ist. Die neue Generation unterstützt dieselbe IBC, und die Softwarebehandlung für die Einzelbit-Paritätsfehlerkorrektur wurde integriert.
Der VS-S720-10G mit MSFC3 verfügt über DDR-SDRAM (Double-Data-Rate) mit ECC-Schutz und arbeitet mit 266 MHz.
Die Module der Serie 6700 unterstützen DDR SDRAM mit ECC-Schutz bei einer Leistung von 266 MHz.
Im Vergleich zu SDR-SDRAM (Single-Data-Rate) ermöglicht die DDR-SDRAM-Schnittstelle höhere Übertragungsraten durch eine striktere Steuerung des Timings der elektrischen Daten und Taktsignale. Die DDR-Schnittstelle verwendet das Doppelpumpen (Datenübertragung sowohl bei steigenden als auch bei fallenden Flanken des Taktsignals), um die Taktfrequenz zu senken. Eine niedrigere Taktfrequenz reduziert die Anforderungen an die Signalintegrität auf der Leiterplatte, die den Speicher mit dem Controller verbindet.
Der VS-SUP2T-10G mit MSFC5 verfügt über DDR3 SDRAM mit ECC-Schutz und arbeitet mit 667 MHz.
Die Module der Serie 6900 unterstützen DDR3 SDRAM mit ECC-Schutz bei einer Leistung von 667 MHz.
Der Hauptvorteil von DDR3 SDRAM gegenüber seinen direkten Vorgängern (DDR2 und DDR) besteht in der Fähigkeit, Daten doppelt so schnell zu übertragen (achtmal so schnell wie die internen Speicher-Arrays), was höhere Bandbreiten- oder Spitzendatenraten ermöglicht. Der DDR3-Speicher reduziert den Stromverbrauch ebenfalls um 30 %, obwohl er denselben elektrischen Signalisierungsstandard wie DDR und DDR2 verwendet.
Der VS-S720-10G mit PFC3C verfügt über SRAM-Paketpuffer mit ECC-Schutz. Dies ermöglicht eine Einzelbit-Paritätsfehlerkorrektur ohne Modulrücksetzung sowie eine Multi-Bit-Paritätsfehlererkennung.
Die Serie 6700 mit DFC3C verfügt über SRAM-Paketpuffer mit ECC-Schutz. Dies ermöglicht eine Einzelbit-Paritätsfehlerkorrektur ohne Modulrücksetzung sowie eine Multi-Bit-Paritätsfehlererkennung.
Der VS-SUP2T-10G mit PFC4 verfügt über SRAM-Paketpuffer mit ECC-Schutz. Dies ermöglicht eine Einzelbit-Paritätsfehlerkorrektur ohne Modulrücksetzung sowie eine Multi-Bit-Paritätsfehlererkennung.
Die Serie 6900 mit DFC4 verfügt über SRAM-Paketpuffer mit ECC-Schutz. Dies ermöglicht eine Einzelbit-Paritätsfehlerkorrektur ohne Modulrücksetzung sowie eine Multi-Bit-Paritätsfehlererkennung.
Die Cisco IOS Software unterstützt ECC-Schutz. Wenn bei einer Hardwarekomponente, die den ECC-Schutz unterstützt, ein SEU auftritt, kann der Code die beschädigten Daten korrigieren oder die betroffene Komponente zurücksetzen, ohne dass ein vollständiges Zurücksetzen der Hardware des betroffenen Moduls erforderlich ist.
In früheren Versionen der Cisco IOS-Software gibt es jedoch einige Ausnahmen, in denen das Verhalten absichtlich geändert wurde oder aufgrund eines Softwarefehlers fehlerhaft ist. Hier sind zwei bemerkenswerte Ausnahmen.
In den Cisco IOS Softwareversionen zwischen 12.1(8)E und 12.2(33)SXI3 bestand das Standardverhalten bei SEU SYSTEM_CONTROLLER-3-ERROR-Ereignissen darin, die IBC zurückzusetzen und eine Fehlermeldung zu protokollieren. Diese Korrekturmaßnahme führte jedoch dazu, dass einige dokumentierte Fälle auftraten, in denen die IBC (und damit die CPU) nicht mehr in der Lage waren, Daten zu übertragen oder zu empfangen.
Daher wurde das Verhalten nach Version 12.2(33)SXI4 (Cisco Bug-ID CSCtf51541) geändert, um eine Fehlermeldung zu protokollieren und das System zurückzusetzen. Obwohl diese Reaktion schwerer erscheinen kann, ist es besser, das System zurückzusetzen und die Speicherstruktur zu korrigieren, als ein nicht reagierendes System zu haben.
Eine Funktion, die derzeit entwickelt wird (Cisco Bug-ID CSCtr89859), fügt einen neuen CLI-Befehl (Command Line Interface) hinzu, mit dem Sie das Standardverhalten ändern können. Diese Erweiterung eignet sich am besten für Systeme, die einen einzigen Supervisor verwenden und daher keine Supervisor-Redundanz aufweisen.
In früheren Cisco IOS-Softwareversionen als12.2(33)SXI5 würde ein Softwarefehler (Cisco Bug-ID CSCtj06411) sogar Einzelbit-Paritätsfehler verursachen, um das 6700-Modul zurückzusetzen. Dies wäre normalerweise ein korrigierbarer Paritätsfehler, und das Modul muss nicht zurückgesetzt werden.
Dieser Fehler wurde in den Versionen 12.2(33)SXI6+ und 12.2SXJ für die Supervisor Engine 720 sowie in Version 15.0SY für die Supervisor Engine 2T behoben. Nach einem Upgrade auf die entsprechende Version protokolliert das 6700-Modul einfach eine Fehlermeldung und fährt fort.
An diesem Punkt haben Sie wahrscheinlich festgestellt, ob ein weicher oder ein schwerer Paritätsfehler aufgetreten ist. Dadurch können zwar einzelne Vorfälle behoben werden, andere Schwachstellen durch Paritätsfehler bestehen jedoch weiterhin, sodass Sie einen umfassenderen Ansatz für Ihr gesamtes Netzwerk verfolgen können.
Cisco und der Geschäftsbereich Catalyst 6500 empfehlen daher, diese Verfahren zur Risikominimierung zu überprüfen und geeignete Korrekturmaßnahmen zu ergreifen, um zukünftige Paritätsfehler zu vermeiden oder zu reduzieren.
Einzelereignis- (weiche) Paritätsfehler werden durch Umweltbedingungen verursacht und können nur einmal (SEU) oder sehr selten auftreten, z. B. monatlich oder jährlich. Auch wenn Sie die Hardware nicht austauschen müssen, sollten Sie künftige Ereignisse minimieren.
Diese Best Practices reduzieren die Wahrscheinlichkeit von weichen Paritätsfehlern erheblich.
Cisco empfiehlt, dass Sie eine Umweltprüfung der betroffenen Netzwerkstandorte durchführen. Sie können dieses Audit selbst oder in Abstimmung mit einem Cisco Mitarbeiter, einem Cisco Team (z. B. Cisco Advanced Services) oder einem externen Berater durchführen.
Der genaue Umfang und die Komplexität eines Umweltaudits hängen von vielen verschiedenen Variablen ab, wie z. B. geographische Lage, Gebäude- und Raumgröße und -design, elektrische Planung und Layout und andere damit zusammenhängende Faktoren.
Überlegen Sie, welche Umweltquellen für elektrostatische Entladungen und elektromagnetische Felder in Ihrem Netzwerk vorhanden sein können. Dies sind häufige Störungsquellen, die zu einem weichen Paritätsfehler führen können:
SEUs können auftreten, wenn sich Stromverteilungseinheiten, Stromerzeuger oder Beleuchtungssysteme zu nah am Chassis befinden oder wenn mehrere Stromkabel am oder neben dem Chassis angeschlossen sind.
Der Abstand zwischen dem Gehäuse des Catalyst 6500 und diesen elektrischen und magnetischen Quellen muss ausreichend sein. Die empfohlenen Abstände variieren je nach Komponente und sind in den Komponenten-Datenblättern verfügbar.
Im Allgemeinen empfiehlt Cisco, Systeme mindestens 15 cm bis 15 cm von den üblichen elektrischen und magnetischen Störungsquellen entfernt zu positionieren. Netzkabel können, wo immer möglich, nach unten und weg vom Chassis geführt werden und können nicht in dicht gepackten Paketen oder in großer Anzahl über oder neben dem Chassis verlegt werden.
Stromschwankungen und Spannungsspitzen sind relativ häufig, und die Netzteile des Catalyst 6500 sind auf geringfügige Änderungen des Spannungsstroms ausgelegt.
Es ist jedoch wichtig, für eine ordnungsgemäße elektrische Erdung des Chassis und des Racks zu sorgen, damit überschüssige elektrische Spannung vom System abgezogen wird. Ohne eine ordnungsgemäße Erdung können Stromstöße zu Schäden oder Fehlfunktionen in verschiedenen ASICs und Speicherkomponenten führen. Weitere Informationen finden Sie im Catalyst 6500 Series Switch Installation Guide, Installing the Switch, Establishing the System Ground (Installationsleitfaden für Catalyst Switches der Serie 6500, Switch-Installation, Erdung des Systems herstellen).
ESD kann kritische Komponenten ohne sichtbare Beeinträchtigung leicht beschädigen. Entsprechende vorbeugende Maßnahmen können in die Richtlinien für den Laborbetrieb aufgenommen werden, doch werden solche Maßnahmen aufgrund ihrer Zweckmäßigkeit und eingeschränkten Aufsicht häufig und leider ignoriert.
Cisco empfiehlt, dass Ihr Lab-Betriebsmanagement zusammen mit Cisco Systems eine Umweltprüfung aller Netzwerkbereiche oder zumindest aller Bereiche durchführt, in denen Hardware-Fehler aufgetreten sind oder die als geschäftskritisch eingestuft wurden. Nach Abschluss des Audits empfiehlt Cisco die Implementierung einer standardisierten Umgebungs-Checkliste für alle neu installierten Systeme, um zukünftige SEU-Paritätsereignisse zu vermeiden.
Catalyst-Hardwarekomponenten verwenden Firmware-Code (auch als Rommon bezeichnet), um Diagnosen zu initialisieren, zu kommunizieren und auszuführen. Nach Abschluss dieser Funktionen wird der Systembetrieb auf die Cisco IOS Software umgestellt. Es ist ungewöhnlich, dass Probleme mit der Firmware auftreten, aber es kann Probleme geben, wenn Sie verschiedene Versionen von Firmware-Code für die Supervisoren und die Module verwenden.
Daher ist es eine Best Practice, sicherzustellen, dass alle Komponenten den neuesten Firmware-Code verwenden, um eine ordnungsgemäße Modulinitialisierung und Kommunikation sicherzustellen. Cisco empfiehlt, dass Ihr Betriebsmanagement eine Netzwerküberwachung durchführt und alle Hardwarekomponenten mit der neuesten Firmware-Version aktualisiert.
Bekannte Firmware-Probleme und Upgrade-Verfahren sind dokumentiert in:
Laden Sie die neuesten Firmware-Versionen von der Cisco Website herunter:
Alle modularen Netzwerksysteme können in eine Chassis-Backplane mit einer Reihe von Pins für physische Schnittstellen eingesetzt werden. Die Chassis-Rückwandplatine selbst besteht im Wesentlichen aus einer Reihe miteinander verbundener Kabel. Die Pins in den einzelnen Chassis-Steckplätzen bilden die physische Datenverbindung zwischen dem Supervisor und den Ethernet-Modulen. Daher ist das richtige Einsetzen und Ausrichten dieser Stifte von entscheidender Bedeutung.
Der Catalyst 6500 verfügt über Führungsschienen und Ausrichtungsstifte, die die Installation im Chassis unterstützen. Die Steckplatzpins (Sockel) und Modulsteckverbinder sind so konzipiert, dass sie leicht in Eingriff genommen werden können und eine bandbreitenintensive elektrische Verbindung ermöglichen. Nach dem Einsetzen in das Gehäuse befinden sich auf beiden Seiten des Moduls Griffschrauben, mit denen die Stifte der Rückwandplatine vollständig in Eingriff gebracht werden können. Siehe Installationshinweis für Catalyst Switching-Module der Serie 6500.
Wenn ein Modul richtig in den Steckplatz eingesetzt und die Griffschrauben richtig festgezogen wurden, sind keine Kommunikationsprobleme zu erwarten. Beim täglichen Einsetzen von Modulen können jedoch mehrere Bedingungen auftreten, die zu einer unsachgemäßen oder sogar unvollständigen Stifteinfügung führen können:
Cisco empfiehlt die Implementierung eines Betriebsmanagementprozesses, bei dem die Daumenschrauben an allen Catalyst 6500-Modulen in Produktionsumgebungen verwendet werden müssen. Dies gewährleistet das korrekte und vollständige Einsetzen und Ausrichten von Backplane-Pins und verhindert zukünftige Ausfälle aufgrund von Bitfehlern und damit zusammenhängenden Kommunikationsausfällen.
Häufige oder wiederholbare (harte) Paritätsfehler werden durch eine physikalische Fehlfunktion des Speichers oder der zum Lesen und Schreiben verwendeten Schaltung verursacht. Ersetzen Sie in diesem Fall die Hardware, und bitten Sie das Cisco Technical Assistance Center (TAC) oder Ihren Cisco Systems Engineer, eine ELA für die zurückgegebene Hardware durchzuführen.
Diese Best Practices verringern die Wahrscheinlichkeit von Paritätsfehlern erheblich.
Cisco empfiehlt, die betroffenen Netzwerkstandorte einer Netzwerküberprüfung zu unterziehen. Sie können dieses Audit selbst oder in Abstimmung mit einem Cisco Mitarbeiter, einem Cisco Team (z. B. Cisco Advanced Services) oder einem externen Berater durchführen.
Sämtliche Hardware (von allen Anbietern) unterliegt einer möglichen Verschlechterung der physischen Integrität. Daher ist es wichtig, den Lebenszyklus aller Hardwarekomponenten in Ihrem Netzwerk zu verfolgen, um die Wahrscheinlichkeit eines Komponentenausfalls im Laufe der Zeit vollständig zu ermitteln.
Die Hardwarezuverlässigkeit kann mit der mittleren Betriebsdauer zwischen Ausfällen (Mean Time Between Failures, MTBF) gemessen werden. Da MTBF nur ein statistischer Mittelwert ist, bedeutet dies nicht, dass am Ende des MTBF-Zeitraums definitiv ein Ausfall auftreten kann. Die Wahrscheinlichkeit und Anfälligkeit eines Komponentenausfalls nimmt jedoch zu, sodass diese Hardware für eine Aktualisierung gekennzeichnet werden kann. Spezifische MTBF-Werte für die einzelnen Catalyst Switches der Serie 6500 finden Sie in den Datenblättern zu den Cisco Catalyst Switches der Serie 6500.
Der berechnete MTBF-Wert auf Systemebene für Catalyst 6500 beträgt > 7 Jahre.
Neben dem MTBF-Framework stellt Cisco auch ein EOL-Framework (End-of-Life) zur Verfügung, das den erwarteten Lebenszyklus eines Produkts definiert und entsprechende Ankündigungen enthält, um Sie bei der Aktualisierung Ihrer alten Geräte zu unterstützen. Informationen zu verschiedenen älteren Catalyst 6500-Produkten finden Sie in den End-of-Life- und End-of-Sale-Hinweisen.
Als Ergebnis dieses Hardware-Audits empfiehlt Cisco die Implementierung eines eigenen MTBF- und EOL-Prozesses, der die Hardware im Hinblick auf eine mögliche Aktualisierung identifiziert und verfolgt. So wird sichergestellt, dass die neueste Hardware ausgeführt wird, und die Wahrscheinlichkeit von Hardwarefehlern minimiert.
Die Catalyst Serie 6500 und die Cisco IOS Software bieten Generic Online Diagnostics (GOLD) und Health Monitoring (HM) Diagnostics für alle im System verwendeten Hardwarekomponenten. Die beiden grundlegenden Diagnosetypen, die aktiviert werden können, sind "on-demand" und "boot-up". Weitere Informationen finden Sie unter Generic Online Diagnostics on the Cisco Catalyst 6500 Series Switch (Allgemeine Online-Diagnose für den Cisco Catalyst Switch der Serie 6500).
Cisco empfiehlt, für alle Hardwarekomponenten eine vollständige Boot-up-Diagnose zu aktivieren, um sicherzustellen, dass alle Diagnosetests ausgeführt werden und um sicherzustellen, dass alle Hardwarekomponenten beim Start wie erwartet funktionieren.
Cisco empfiehlt außerdem, regelmäßige, bedarfsgesteuerte Diagnosen kritischer Infrastrukturkomponenten auf täglicher oder wöchentlicher Basis durchzuführen. Über die Bootdiagnose hinaus, die nur während der Initialisierung erfolgt, stellt die On-Demand-Diagnose sicher, dass die Hardware wie erwartet funktioniert. Weitere Informationen finden Sie im Catalyst 6500 Release 12.2SX Software Configuration Guide, Interface and Hardware Components, Online Diagnostics.
Zusätzlich zu den standardmäßigen On-Demand-Diagnosetests empfiehlt Cisco die Aktivierung dieser On-Demand-Diagnosetests, um Speicherkomponenten, die fehlerhaft sein können, proaktiv zu identifizieren:
| Überarbeitung | Veröffentlichungsdatum | Kommentare |
|---|---|---|
2.0 |
15-Nov-2023
|
Aktualisierter Titel, Einführung, SEO, maschinelle Übersetzung, Stilanforderungen, Branding-Anforderungen, Rechtschreibung und Formatierung. |
1.0 |
26-Apr-2013
|
Erstveröffentlichung |
Feedback