スイッチ : Cisco Catalyst 6500 シリーズ スイッチ

パリティ エラーのトラブルシューティング ガイド

2015 年 11 月 26 日 - 機械翻訳について
その他のバージョン: PDFpdf | 英語版 (2015 年 9 月 17 日) | フィードバック

概要

このドキュメントでは、ソフトおよびパリティ エラーについて記述し、一般的なエラー メッセージについて説明して、パリティ エラーを回避または最小限に抑える方法を推奨します。 最近のハードウェア設計とソフトウェア設計の改善により、パリティ問題も減少しています。

ショーン Wargo によって貢献される、Cisco 設計。

背景説明

プロセッサまたはメモリ パリティ エラーについて

パリティ チェックは、データがメモリに保存されている間、少量のコンピュータ データ(通常 1 バイト)のパリティ(奇数または偶数)を表すための余分なバイナリ ディジット(ビット)のストレージです。 格納されたデータから計算されたパリティ値は、最終的なパリティ値と比較されます。 この 2 つの値が異なる場合、データ エラーを示し、少なくとも 1 ビットがデータ破損によって変更されているに違いありません。

コンピュータ システム内では、内的または外的原因による電気または磁気干渉により、メモリのシングル ビットが不意に逆の状態にフリップしている可能性があります。 このイベントは、パリティ エラーと呼ばれ、元のデータ ビットを無効にします。

これらのメモリ エラーが検出されないと、検出不能または不合理な結果を生じるか、格納されたデータの恒久的破損またはマシン クラッシュを引き起す可能性があります。

ソフト パリティ エラーまたはハード パリティ エラーとして分類されるメモリ パリティ エラーの原因はさまざまです。

ソフト エラー

ほとんどのパリティ エラーは、静電気や磁気関連の環境条件によって発生します。

メモリ チップのシングル イベント エラーの大部分は、背景放射(宇宙線からの中性子など)、電磁干渉(EMI)、または静電気放電(ESD)によって発生します。 これらのイベントは、1 つ以上のメモリ セルの電気状態をランダムに変更するか、メモリ セルの読み取り/書き込みに使用される回路を妨げる可能性があります。

これらのイベントはソフト パリティ エラーと呼ばれ、一般的には一時的またはランダムに発生し、通常 1 回発生します。 ソフト エラーは、軽微な場合と重大な場合があります。

  • コンポーネントをリセットせずに修正できる軽微なソフト エラーは、シングル イベント アップセット(SEU)です。
  • コンポーネントまたはシステムのリセットを必要とする重大なソフトウェア エラーは、シングル イベント ラッチアップ(SEL)です。

ハードウェアの動作不良では、ソフト エラーは発生しません。 これらは、一時的かつまれにしか発生せず、ほとんどは SEU であり、メモリ データの環境破壊が原因です。

ソフト パリティ エラーが発生した場合、影響を受けるシステムの場所で発生した最近の環境の変化を分析します。 ソフト パリティ エラーを引き起こす可能性のある ESD と EMI の一般的原因は次のとおりです。

  • 電源コードおよび電源装置
  • 配電ユニット
  • ユニバーサル電源装置
  • 照明装置
  • 発電機
  • 核施設(放射)
  • 太陽フレア(放射)

ハード エラー

他のパリティ エラーは、メモリ ハードウェアの物理的障害やメモリ セルの読み取り/書き込みに使用される回路によって発生します。

ハードウェアの製造元は、ハードウェアの欠陥を防止し、テストするため広範囲にわたる対策を講じています。 それでも、欠陥が生じる可能があります。 たとえば、データ ビットを格納するために使用されるメモリ セルのいずれかが不正である場合、それを保持できないか、または環境条件に対して脆弱である場合があります。

同様に、メモリ自体が正常に動作しても、メモリ セルの読み取り/書き込みに使用される回路の物理的または電気的障害によって、データ ビットが転送中に変更される可能性もあり、これによってパリティ エラーが発生する場合があります。

これらのイベントはハード パリティ エラーと呼ばれ、通常は非常に頻繁かつ繰り返し発生し、影響を受けるメモリまたは回路を使用すると必ず発生します。 正確な頻度は、障害の範囲および損傷した機器がどのように使用されるかによって異なります。

ハード パリティ エラーは、ハードウェア障害が原因であり、影響を受けるコンポーネントを使用すると必ず再発することに注意してください。

ハード パリティ エラーが発生した場合、影響を受けるシステムの場所で行われた物理的変更を分析します。 さらに、ハード パリティ エラー引き起こす可能性のあるハードウェア障害の一般的原因は次のとおりです。

  • 電源サージ(接地なし)
  • ESD
  • 過熱または冷却
  • 不正なインストールまたは部分的インストール
  • コンポーネントの非互換性
  • 製造上の欠陥

一般的なエラー メッセージ

Cisco IOS® ソフトウェアは、システム内の影響を受けるコンポーネントおよびその相対的な影響によって異なる、さまざまなパリティ エラー メッセージを表示します。

プロセッサ

Cache error detected!
  CP0_CAUSE (reg 13/0): 0x00000400
  CPO_ECC (reg 26/0): 0x000000B3
  CPO_BUSERRDPA (reg 26/1): 0x000000B3
  CPO_CACHERI (reg 27/0): 0x20000000

Real cache error detected.  System will be halted.

Error: Primary instr cache, fields: data,
Actual physical addr 0x00000000,
virtual address is imprecise.

 Imprecise Data Parity Error

説明これは、マルチレイヤ スイッチ フィーチャ カード 3(MSFC3)のルート プロセッサ(RP)またはスイッチ プロセッサ(SP)の CPU によって使用される、レベル 2(L2)キャッシュ(スタティック ランダムアクセス メモリ(SRAM))でのパリティ エラーの結果です。
推奨事項再発に関してシステムを定期的に監視します。 これ以上イベントが見られない場合、ソフト エラーです。 エラーが頻繁に発生する場合、Return Material Authorization(RMA)を要求してスーパーバイザ エンジンを交換し、機器障害分析(EFA)用のモジュールをマークします。
%%SYSTEM_CONTROLLER-3-ERROR: Error condition detected: SYSAD_PARITY_ERROR
説明これは MSFC3 のインバンド コントローラ(IBC)で使用されるシステムアドレス(データ バス)でのパリティ エラーの結果です。
推奨事項再発に関してシステムを定期的に監視します。 これ以上イベントが見られない場合、ソフト エラーです。 エラーが頻繁に発生する場合、RMA を要求してスーパーバイザ エンジンを交換し、EFA 用のモジュールをマークします。
%%SYSTEM_CONTROLLER-3-ERROR: Error condition detected: TM_DATA_PARITY_ERROR
説明これは MSFC3 の IBC で使用されるテーブル マネージャでのデータ パリティ エラーの結果です。
推奨事項再発に関してシステムを定期的に監視します。 これ以上イベントが見られない場合、ソフト エラーです。 エラーが頻繁に発生する場合、RMA を要求してスーパーバイザ エンジンを交換し、EFA 用のモジュールをマークします。
%%SYSTEM_CONTROLLER-3-ERROR: Error condition detected: TM_NPP_PARITY_ERROR
説明これは MSFC3 の IBC で使用されるテーブル マネージャの「次のページ ポインタ」でのパリティ エラーの結果です。
推奨事項

再発に関してシステムを定期的に監視します。 これ以上イベントが見られない場合、ソフト エラーです。 エラーが頻繁に発生する場合、RMA を要求してスーパーバイザ エンジンを交換し、EFA 用のモジュールをマークします。

12.1(8)E から 12.2(33)SXI3 までの Cisco IOS ソフトウェア バージョンでは、SYSTEM_CONTROLLER-3-ERROR イベントへの応答のデフォルト動作で IBC がリセットされ、エラー メッセージが記録されました。

ただし、この修正措置によって、IBC(そのため、CPU)の文書化された一部のケースでは、データの送受信できなくなりました。 このため、12.2(33) SXI4 以降の Cisco IOS ソフトウェア バージョンでは、エラー メッセージを記録し、システムをリセットするように変更されました。 Cisco Bug ID CSCtf51541 を参照してください。

Interrupt exception, CPU signal 20, PC = 0x[dec]
説明これは、Cisco Catalyst 6700 シリーズのモジュールで使用される CPU L2 キャッシュ(SRAM)でのシングルビット パリティ エラーの結果です。
推奨事項

再発に関してシステムを定期的に監視します。 これ以上イベントが見られない場合、ソフト エラーです。 エラーが頻繁に発生する場合、RMA を要求して 6700 モジュールを交換し、EFA 用のモジュールをマークします。

12.2(33)SXI5 より前の Cisco IOS ソフトウェア バージョンでは、ソフトウェアのバグ(Cisco Bug ID CSCtj06411)により、シングルビット パリティ エラーでさえ 6700 モジュールをリセットする場合がありました。 これは、スーパーバイザ エンジン 720 対応のバージョン 12.2(33)SXI6 および 12.2(33)、スーパーバイザ エンジン 2T 対応のバージョン 15.0SY で解決されました。

RAM

%%SYSTEM_CONTROLLER-3-ERROR: Error condition detected: SYSDRAM_PARITY_ERROR
説明これは、MSFC3 で使用される同期 DRAM(SDRAM)のメモリ モジュール(DIMM)での修正不可能なパリティ エラーの結果です。
推奨事項再発に関してシステムを定期的に監視します。 これ以上イベントが見られない場合、ソフト エラーです。 エラーが頻繁に発生する場合、DIMM をクリーンにして再装着し、モニタを続行します。 引き続きエラーが発生する場合は、RMA を要求して DIMM を交換またはアップグレードします。
%%SYSTEM_CONTROLLER-3-COR_MEM_ERR: Correctable DRAM memory error. Count [dec], log [hex]
説明これは、MSFC3 で使用される SDRAM(DIMM)での修正可能なパリティ エラーの結果です。
推奨事項再発に関してシステムを定期的に監視します。 これ以上イベントが見られない場合、ソフト エラーです。 エラーが頻繁に発生する場合、DIMM をクリーンにして再装着し、モニタを続行します。 引き続きエラーが発生する場合は、RMA を要求して DIMM を交換またはアップグレードします。
%%MWAM-DFC[dec]-0-CORRECTABLE_ECC_ERR: A correctable ECC error has occurred, A_BUS_L2_ERRORS: 0x10000, A_BUS_MEMIO_ERRORS: 0x0, A_SCD_BUS_ERR_STATUS: 0x80983000
説明

これは、6700 シリーズのモジュールで使用される DRAM でのシングルビット パリティ エラーの結果です。

推奨事項

再発に関してシステムを定期的に監視します。 これ以上イベントが見られない場合、ソフト エラーです。 エラーが頻繁に発生する場合、DIMM をクリーンにして再装着し、モニタを続行します。 引き続きエラーが発生する場合は、RMA を要求して DIMM を交換またはアップグレードします。

%%PM_SCP-SP-2-LCP_FW_ERR_INFORM: Module [dec] is experiencing the following error: LTL Parity error detected on Coil #[dec].
説明これは、Cisco Catalyst 6100 および Cisco Catalyst 6300 シリーズのモジュールで使用される SRAM でのパリティ エラーの結果です。
推奨事項

再発に関してシステムを定期的に監視します。 これ以上イベントが見られない場合、ソフト エラーです。 エラーが頻繁に発生する場合、RMA を要求して 6100 または 6300 モジュールを交換し、EFA 用のモジュールをマークします。

%%SYS-4-SYS_LCPERR4: Module [dec]: LTL Parity error detected on Coil #[dec]
説明これは、6100 および 6300 シリーズのモジュールで使用される SRAM でのパリティ エラーの結果です。
推奨事項再発に関してシステムを定期的に監視します。 これ以上イベントが見られない場合、ソフト エラーです。 エラーが頻繁に発生する場合、RMA を要求して 6100 または 6300 モジュールを交換し、EFA 用のモジュールをマークします。

ASIC

%%PM_SCP-SP-2-LCP_FW_ERR_INFORM: Module [dec] is experiencing the following error: Port ASIC ([name]) packet buffer failure detected on ports [dec]
説明これは、Cisco Catalyst 6148A シリーズのイーサネット モジュールで使用されるポートの ASIC パケット バッファ(SRAM)でのパリティ エラーの結果です。
推奨事項

再発に関してシステムを定期的に監視します。 これ以上イベントが見られない場合、ソフト エラーです。 エラーが頻繁に発生する場合、RMA を要求して 6148A モジュールを交換し、EFA 用のモジュールをマークします。

%%LTL-SP-2-LTL_PARITY_CHECK: LTL parity check request for 0x[hex]
説明これは、Catalyst 6100-6500 および 6700 シリーズのモジュールで使用されるポートの ASIC ポート インデックス テーブル(SRAM)でのパリティ エラーの結果です。
推奨事項再発に関してシステムを定期的に監視します。 これ以上イベントが見られない場合、ソフト エラーです。 エラーが頻繁に発生する場合、RMA を要求してモジュールを交換し、EFA 用のモジュールをマークします。

エラー メッセージの包括的なリストについては、次の Cisco IOS ソフトウェアのドキュメントを参照してください。

アウトプット インタープリタ ツール登録ユーザ専用)は、特定の show コマンドをサポートしています。 show コマンド出力の分析を表示するには、アウトプット インタープリタ ツールを使用してください。

最新の進歩

パリティ エラーのフィールドへの調査が進行中で、すべてのシナリオには対処できませんが、Cisco Catalyst 6500 ハードウェアおよびソフトウェアの開発組織は、エラー訂正コード(ECC)の保護など、パリティ エラーの発生を最小限に抑え、緩和する新しい方法を継続して導入しています。

このドキュメントは第三世代の Catalyst 6500 製品(WS-XSUP720 および初期の 6700 シリーズ)の説明から開始されていますが、このセクションでは第四世代(VS-S720-10G および後期の 6700 シリーズ)および第五世代(VS-SUP2T-10G および 6900 シリーズ)で導入された改善について要約して説明します。

プロセッサ

VS-S720-10G モジュールは、新しい IBC とそれぞれ 600Mhz で動作する、アップデートされた SR7010A 縮小命令セット コンピュータ(RISC)RP および SP CPU を備える最新の MSFC3 ドーターボードを搭載しています。 レベル 1(L1)、レベル 2(L2)、およびレベル 3(L3)キャッシュはパリティ検出が可能です。 最新の IBC は、初期世代のすべての機能を備え、装着された SRAM に対する ECC 保護(シングルビットの訂正、複数ビットの検出)が追加されています。

6700 シリーズのモジュールは、リセットする必要なくシングルビット パリティ エラーを修正できる ECC 保護機能付き L2 キャッシュ(L1 キャッシュはパリティ検出可能)を備える CPU をサポートします。 ただし、Cisco Bug ID CSCsz39222 により、シングルビット CPU のキャッシュ パリティ エラーが発生する場合、Cisco IOS ソフトウェアのバージョン 12.2SXI(スーパーバイザ エンジン 720)はモジュールをとにかくリセットします。 これは、Cisco IOS ソフトウェアのバージョン 12.2SXJ(スーパーバイザ エンジン 720)と 15.0SY(スーパーバイザ エンジン 2T)で解決されています。

VS-SUP2T-10G は、統合された IBC とコアあたり 1.5Ghz で動作する新しいシングル、デュアルコア MPC8572 PPC RP CPU(ECC 保護機能付き L2 および L3 キャッシュ、L1 キャッシュはパリティ検出可能)を備える新しい MSFC5 ドーターボードを搭載しています。 RP CPU が現在利用できない場合でも利用できる、新しい個別アウトオブバンド接管理プロセッサ(CMP)CPU と ECC 保護機能付き DRAM も搭載しています。

新しい IBC は、より以前の世代のすべての機能を備え、装着された SRAM に対する ECC 保護とパリティ エラー処理の改善をサポートします。 また、新しい MSFC5 は、すべてのモジュールの初期化および診断イベントを格納するオンボード障害ロギング(OBFL)ROM を備えています。 また、新しいシングル CPU デザインにより、パリティ エラー イベントの統計的可能性が低減します。

6900 シリーズのモジュールは、リセットする必要なくシングルビット パリティ エラーを修正できる ECC 保護機能付き L1 および L2 キャッシュを備える最新の CPU をサポートします。 新しい世代は、同じ IBC をサポートし、シングルビット パリティ エラー訂正を処理するソフトウェアが組み込まれています。

RAM

MSFC3 搭載 VS-S720-10G は、266Mhz で動作する ECC 保護機能付きダブルデータレート(DDR)SDRAM を備えています。

6700 シリーズのモジュールは、266Mhz で動作する ECC 保護機能付き DDR SDRAM をサポートします。

DDR SDRAM インターフェイスは、シングルデータレート(SDR)SDRAM と比較して、電気的データとクロック信号のタイミングにより厳密に制御によって、より高い転送レートを可能にします。 DDR インターフェイスは、ダブル ポンピング(クロック信号の立ち上がりエッジと立ち下がりエッジの両方でのデータ転送)を使用して、クロック周波数を低下します。 低いクロック周波数は、コントローラにメモリを接続する回路基板上の信号の完全性要件を軽減します。

MSFC5 搭載 VS-SUP2T-10G は、667Mhz で動作する ECC 保護機能付き DDR3 SDRAM を備えています。

6900 シリーズのモジュールは、667Mhz で動作する ECC 保護機能付き DDR3 SDRAM をサポートします。

前任者(DDR2 と DDR)を上回る DDR3 SDRAM の主な利点は、2 倍のレート(内部メモリ アレイの速度の 8 倍)でデータを転送できることです。これにより、より高い帯域幅とピーク データ レートがイネーブルになります。 また、DDR3 メモリは、DDR および DDR2 と同じ電気信号規格を使用しているにもかかわらず、電力消費を 30% 削減します。

ASIC

PFC3C 搭載 VS-S720-10G は、ECC 保護機能付き SRAM パケット バッファを備えています。 これは、モジュールのリセットなしシングルビット パリティエラー訂正と共にマルチビット パリティエラー検出機能を提供します。

DFC3C 搭載 6700 シリーズは、ECC 保護機能付き SRAM パケット バッファを備えています。 これは、モジュールのリセットなしシングルビット パリティエラー訂正と共にマルチビット パリティエラー検出機能を提供します。

PFC4 搭載 VS-SUP2T-10G は、ECC 保護機能付き SRAM パケット バッファを備えています。 これは、モジュールのリセットなしシングルビット パリティエラー訂正と共にマルチビット パリティエラー検出機能を提供します。

DFC4 搭載 6900 シリーズは、ECC 保護機能付き SRAM パケット バッファを備えています。 これは、モジュールのリセットなしシングルビット パリティエラー訂正と共にマルチビット パリティエラー検出機能を提供します。

ソフトウェア

Cisco IOS ソフトウェアは、ECC 保護機能をサポートするように設計されています。 ECC 保護機能をサポートするハードウェア コンポーネントで SEU が発生すると、コードが破損したデータを修正するか、または影響を受けるコンポーネントをリセットします。影響を受けるモジュールの完全なハードウェア リセットは必要ありません。 

ただし、以前のバージョンの Cisco IOS ソフトウェアでは、動作が意図的に変更されているか、またはソフトウェアのバグによる異常に起因するいくつかの例外があります。 次に 2 つの顕著な例外をします。

MSFC IBC のリセット

12.1(8)E から 12.2(33)SXI3 までの Cisco IOS ソフトウェア バージョンでは、SEU SYSTEM_CONTROLLER-3-ERROR イベントへの応答のデフォルト動作で IBC がリセットされ、エラー メッセージが記録されました。 ただし、この修正措置によって、IBC(そのため、CPU)の文書化された一部のケースでは、データの送受信できなくなりました。

.このため、エラー メッセージを記録し、システムをリセットするために、バージョン 12.2(33)SXI4(Cisco Bug ID CSCtf51541)の後に動作が変更されました。 この対応はより深刻であるように思われますが、応答不能なシステムを持つよりも、システムをリセットし、メモリ構造を修正する方が望ましいのです。

デフォルトの動作を切替えることができる新しいコマンドライン インターフェイス(CLI)コマンドが開発(Cisco Bug ID CSCtr89859)機能に追加されました。 この拡張機能は、シングル スーパーバイザを使用しているため、スーパーバイザの冗長性を備えていないシステムに最も当てはまります。

6700 シリーズの「シングルビット パリティ エラー」のリセット

12.2(33)SXI5 より前の Cisco IOS ソフトウェア バージョンでは、ソフトウェアのバグ(Cisco Bug ID CSCtj06411)により、シングルビット パリティ エラーでさえ 6700 モジュールをリセットする場合がありました。 これは、通常修正可能なパリティ エラーであり、モジュールをリセットである必要はありません。

これは、スーパーバイザ エンジン 720 対応のバージョン 12.2(33)SXI6 および 12.2SXJ、スーパーバイザ エンジン 2T 対応のバージョン 15.0SY で解決されました。 適切なバージョンへアップグレードした後、6700 モジュールは単にエラー メッセージを記録し、動作を続行します。

推奨事項

このポイントで、多分ソフトまたはハード パリティ エラーが発生したかどうかを判断しました。 これにより 1 つの問題に対処できる場合がありますが、他のパリティ エラーの脆弱性が依然として存在するため、ネットワーク全体に対して包括的にアプローチする必要があります。

このため、シスコおよび Catalyst 6500 の営業部門では、これらの緩和手順を見直し、将来のパリティ エラーを解消または低減するために適切な修正措置を講じることを推奨しています。

ソフト エラー(SEU)

シングル イベント(ソフト)パリティ エラーは、環境条件によって発生し、1 回限り(SEU)または(月 1 回または年 1 回など)きわめてまれに発生する可能性があります。 ハードウェアを交換する必要はありませんが、将来の発生を軽減したい場合があります。

次のベスト プラクティスは、ソフト パリティ エラー発生の可能性を低減します。

環境監査

シスコでは、影響を受けるネットワークの場所の環境監査を行うことを推奨します。 この監査を自分自身で行うか、シスコの担当者、シスコ チーム(シスコ アドバンスド サービスなど)の協力を得て行うか、またはサードパーティのコンサルタントを通じて行うことができます。

環境監査の正確な対象範囲と複雑性は、地理的位置、建物および部屋のサイズと設計、電気的設計およびレイアウト、その他関連する要因によって異なります。

ネットワーク内または周囲に、どのような ESD および EMI 環境要因が存在するかを検討します。 以下はソフト パリティ エラーの原因となる可能性がある干渉の一般的要因です。

  • 電源コードおよび電源装置
  • 配電ユニット
  • ユニバーサル電源装置
  • 照明装置
  • 発電機
  • 核施設(放射)
  • 太陽フレア(放射)

シャーシの配置

SEU は、配電ユニット、発電機、または照明装置がシャーシに非常に近いところにあるか、複数の電源コードがシャーシの上または側にあると発生する可能性があります。

Catalyst 6500 シャーシと電源および磁気源との間に十分な間隔を確保することが重要です。 推奨される間隔はコンポーネントによって異なり、コンポーネントのデータ シートから入手できます。

一般に、電気および磁気干渉の一般的要因から少なくとも 3 ~ 6 インチ離してシステムを設置することを推奨します。 可能な場合は、常にシャーシの下側のシャーシから離れた位置に電源コードを配線する必要があります。また、大量のコードを密集した束にして、シャーシをまたがり、またはシャーシの側面に配置しないようする必要があります。

アース

電源変動および電源サージは比較的一般的な現象であり、Catalyst 6500 の電源装置は電圧電流のわずかな変化に対応するように設計されています。

ただし、過剰な電気電圧がシステムから取り除かれるように、シャーシおよびラックに適切な接地を行うことが重要です。 適切な接地が行われていない場合、電源サージによって、さまざまな ASIC およびメモリ コンポーネントの損傷や誤動作が発生する可能性があります。 詳細は、『Catalyst 6500 シリーズ スイッチ インストール ガイド、スイッチのインストール、 システムの接地の確立』を参照してください。

ESD

ESD は、目に見える障害なしに、重要なコンポーネントを容易に損傷する可能性があります。 ラボ運用方針に適切な予防措置を組み込む必要がありますが、通常これらの措置は便宜上および監視が限られるために残念ながら無視されます。

シスコでは、ラボ運用管理で、シスコと共同して、すべてのネットワーク エリアまたは少なくともハードウェア障害が発生したか、ミッション クリティカルとして指定されたすべてのエリアの環境監査を実行することを推奨します。 シスコでは、いったん監査が完了したら、将来の SEU パリティ イベントを回避するために、新規にインストールされたすべてのシステムに対して、標準化された環境チェックリストを導入することを推奨します。

最新のファームウェア(ROMmon)

Catalyst ハードウェア コンポーネントは、ファームウェア(別名 ROMmon)コードを使用して、初期化、通信、および診断の実行を行います。 いったんこれらの機能が完了すると、システム動作は Cisco IOS ソフトウェアに引き継がれます。 ファームウェアで問題が起きることはめったにありませんが、スーパーバイザおよびモジュールで異なるバージョンのファームウェア コードを使用している場合、問題が生じる可能性があります。

このため、適切なモジュールの初期化と通信を確実行うために、すべてのコンポーネントで必ず最新のファームウェア コードを使用することがベスト プラクティスです。 シスコでは、運用管理でネットワーク監査を実行し、最新のファームウェア バージョンを使用して、すべてのハードウェアコンポーネントをアップグレードすることを推奨します。

既知のファームウェアの問題およびアップグレード手順については、以下に文書化されています。

Cisco Web サイトから最新のファームウェア バージョンをダウンロードします。

取り付けネジ

すべてのモジュラのネットワーク システムは、物理インターフェイス ピンのセットを使用してシャーシ バックプレーンに挿入するように設計されています。 シャーシ バックプレーン自体は、相互接続された一連の配線です。 各シャーシ スロットのピンは、スーパーバイザとイーサネット モジュール間の物理データ接続を形成します。 このため、これらのピンの適切な挿入と配置が重要です。

Catalyst 6500 には、シャーシの取り付けに役立つガイド レールとアライメント ピンが用意されています。 スロット ピン(ソケット)およびモジュール コネクタは、高帯域幅に対応する電気接続を簡単にかみ合わせられるように設計されています。 いったんシャーシに挿入されると、バックプレーン ピンを完全にかみ合わせるモジュールのいずれかの側に取り付けネジが用意されています。 詳細は、『Catalyst 6500 シリーズ スイッチのモジュール インストレーション ノート』を参照してください。

モジュールがスロットに正しく装着され、取り付けネジが正しく締められていれば、通信の問題が発生することは考えられません。 ただし、不適切または不完全なピンの挿入が生じる可能性がある日常のモジュールの挿入によって、次のいくつかの条件が発生する可能性があります。

  • 不十分な挿入の力:モジュールが取り付けネジを使用せずに部分的に挿入されている場合、バス ストールが発生し、モジュールが他のモジュールと通信できなくなる場合があります。 挿入のレベル(物理的接続が限定的である場合など)によって、モジュールはデータを送受信できる場合がありますが、パケットの破損をもたらすビット エラーが発生する場合があります。
  • 垂直方向の位置合わせの不具合:モジュールの 1 方の側だけガイド レールにある場合、この問題が発生します。 これは、モジュールが対角線に表示され、通常どおりバックプレーン ピンに接続されないので簡単に識別されます。
  • 水平方向の位置合わせの不具合:取り付けネジが 1 方の側にのみ使用されている場合、一部のピンが正しくかみ合わせられません。 これは、モジュールが正しく挿入されているように見える可能性がある一般的な問題です。 水平方向の位置合わせの不具合は、実際には不十分な挿入力により発生するケースです。

シスコでは、実稼働環境で、すべての Catalyst 6500 モジュールにある取り付けネジの使用を強制する運用管理プロセスを導入することを推奨します。 これにより、バックプレーン ピンの適切かつ完全な挿入および配置が確実に行えるようになり、ビット エラーおよび関連の通信障害による将来の障害発生が防止されます。

ハード エラー(障害)

頻繁かつ繰り返し発生する可能性のある(ハード)パリティ エラーは、読み取り/書き込みに使用するメモリまたは回路の物理的な誤動作によって発生します。 このような場合、ハードウェアを交換し、シスコ TAC(Technical Assistance Center)またはシスコ システム エンジニアに依頼して、返却したハードウェアに対して EFA を実施します。

次のベスト プラクティスにより、ハード パリティ エラーの可能性が大幅に低減します。

ハードウェア(MTBF および EOL)の監査

シスコでは、影響を受けるネットワークの場所のネットワーク監査を行うことを推奨します。 この監査を自分自身で行うか、シスコの担当者、シスコ チーム(シスコ アドバンスド サービスなど)の協力を得て行うか、またはサードパーティのコンサルタントを通じて行うことができます。

すべてのハードウェア(すべてのベンダーから提供される)の物理的完全性が最終的に低下するため、時間の経過に伴ってコンポーネントの障害発生の可能性が高まることを完全に理解するために、ネットワークのすべてのハードウェア コンポーネントのライフサイクルを追跡することが重要です。

ハードウェアの信頼性は、平均故障間隔(MTBF)フレームワークによって測定できます。 MTBF は 1 つの統計的な平均値であるため、MTBF 期間が終了する時点までに問題が確実に発生することを意味するものではありません。 ただし、コンポーネントの障害の可能性と脆弱性は増加するので、これらのハードウェアには更新用のフラグを付ける必要があります。 各 Catalyst 6500 製品の特定の MTBF 値については、『Cisco Catalyst 6500 シリーズ スイッチのデータ シート』を参照してください。

Catalyst 6500 の「システム レベル」の MTBF 値は、7 年以上にわたって集計されます。

シスコでは、MTBF フレームワークに加えて、特定の製品の想定されるライフサイクルを定義し、レガシー機器の更新に役立つ適切な通知を行うがサポート終了(EOL)フレームワークも提供します。 詳細は、各種レガシー Catalyst 6500 製品の『サポート終了および販売終了通知』を参照してください。

シスコでは、このハードウェア監査の結果として、更新が必要になる可能性のあるハードウェアを識別し、追跡する独自の MTBF および EOL プロセスを導入することを推奨します。 これにより、最新のハードウェアを稼働、ハードウェア障害の可能性を最小限に抑えることができるようになります。

ハードウェア診断

Catalyst 6500 シリーズおよび Cisco IOS ソフトウェアは、システムで使用されるすべてのハードウェア コンポーネントに対応する Generic Online Diagnostics(GOLD)およびヘルス モニタリング(HM)診断を提供します。 イネーブルにできる基本的な診断の 2 つのタイプにオンデマンドとブートがあります。 詳細は、『Cisco Catalyst 6500 シリーズ スイッチでの Generic Online Diagnostics』を参照してください。

シスコでは、すべてのハードウェア コンポーネントに対してすべての診断テストが確実に行えるようにし、すべてのハードウェア コンポーネントが起動時に予期したとおりに動作していることを確認するために、「完全な」ブートアップ診断をイネーブルにすることを推奨します。

またシスコでは、重要なインフラストラクチャ コンポーネントの定期、オンデマンド診断を毎日または毎週スケジュールすることを推奨します。 初期化時にのみ発生するブートアップ診断だけではなく、オンデマンド診断によりハードウェアは予期したとおり動作し続けることができます。 詳細は、『Catalyst 6500 リリース 12.2SX ソフトウェア コンフィギュレーション ガイド、インターフェイスおよびハードウェア コンポーネント、オンライン診断』を参照してください。

シスコでは、デフォルトのオンデマンドの診断テストに加えて、故障する可能性のあるメモリ コンポーネントを予防的に識別するために、次のオンデマンドの診断テストをイネーブルにすることを推奨します。

  • TestLinecardMemory
  • TestAsicMemory

関連するシスコ サポート コミュニティ ディスカッション

シスコ サポート コミュニティは、どなたでも投稿や回答ができる情報交換スペースです。


Document ID: 116135