ルータ : Cisco 10000???? ??????? ???

10000 ESR PRE1 パリティ エラー フォールト ツリー

2003 年 7 月 30 日 - ライター翻訳版
その他のバージョン: PDFpdf | 機械翻訳版 (2013 年 8 月 21 日) | 英語版 (2005 年 7 月 7 日) | フィードバック

目次

概要
はじめに
     表記法
     前提条件
     使用するコンポーネント
PRE1 ルート プロセッサ パリティ エラー フォールト ツリー解析
PRE1 パリティ/ECC 検出
Cisco 10000 シリーズ ESR ルート プロセッサのパリティ/ECC エラー
PRE1 ファースト パケット ECC フォールト ツリー解析
関連するシスコ サポート コミュニティ ディスカッション
関連情報

概要

この文書では、さまざまなパリティ エラー メッセージを確認した場合の、トラブルシューティング手順、および Cisco 10000 シリーズ Edge Services Router(ESR)と Performance Routing Engine(PRE1)のどの部分またはどのコンポーネントで障害が発生しているかを特定する手順について説明します。

はじめに

表記法

文書表記の詳細は、『シスコ テクニカル ティップスの表記法』を参照してください。

前提条件

この文書の読者は次の項目に関する知識が必要です。

使用するコンポーネント

この文書の情報は、次のソフトウェアとハードウェアのバージョンに基づいています。

  • Performance Routing Engine(PRE1)を使用している Cisco 10000 シリーズ Edge Services Router(ESR)

  • すべてのバージョンの Cisco IOS(R) ソフトウェア

注:この文書は、Cisco 10720 シリーズ インターネット ルータには適用されません。

この文書で紹介する情報は、特定のラボ環境にあるデバイスを使用して作成されました。この文書で使用するすべてのデバイスは、クリアな状態(デフォルト)から設定作業を始めています。実稼動中のネットワークで作業する場合は、コマンドの実行によって生じる影響について、事前に理解しておいてください。

PRE1 ルート プロセッサ パリティ エラー フォールト ツリー解析

Cisco 10000 シリーズ ESR PRE1 は、Route Processor(RP)カードと Forwarding Processor(FP)カードの 2 枚のサーキット カードから構成されています。 次のフローチャートで、Cisco 10000 シリーズ ESR PRE1 のどのコンポーネントが、ルート プロセッサの Parity/Error Code Correction(ECC)エラー メッセージの原因になっているかが判別できます。

esr10000a.gif

注:show tech-support 出力とコンソール ログのキャプチャと記録を行い、パリティ/ECC エラー イベント中の crashinfo ファイルおよび pxf_crashinfo ファイルをすべて収集してください。 

PRE1 パリティ/ECC 検出

次のダイヤグラムは、パリティ/ECC エラーが発生した可能性がある PRE1 RP アーキテクチャの一部を示しています。

esr10000b.gif

PRE1 RP は、シングル ビット エラー修正とマルチ ビット エラー検出の ECC を、共有メモリ(SDRAM)に対して使用します。 SDRAM のシングル ビット エラーは自動修正され、システムは通常どおり、動作を継続します。

SDRAM のマルチビット エラーは重大なイベントで、キャッシュ エラー例外またはバス エラーを発生させます。 システム内の残りのメモリとバスは、シングル ビット パリティ検出を使用します。 上図 1 と 3 のシングル ビット エラーは重大で、ルータがリセットされます。

Cisco 10000 シリーズ ESR ルート プロセッサのパリティ/ECC エラー

PRE1 を使用している Cisco 10000 シリーズ ESR 上の読み書き操作に対して、複数のパリティ チェック デバイスが、パリティ エラーがあるデータを報告できます。

PRE 1 をインストールした Cisco 10000 シリーズ ESR 上で報告されたさまざまな RP エラー メッセージを、次に説明します。

  • GT64120B SDRAM エラー

    SDRAM 読み取り中に GT64120B システム コントローラがマルチビット ECC エラーを検出すると、次のエラー メッセージが表示されます。

    
       %ERR-1-GT64120 (PCI-0): Fatal error, Memory parity error (external)
        GT=0xB4000000, cause=0x0100E283, mask=0x0ED01F00, real_cause=0x00000200
        bus_err_high=0x00000000, bus_err_low=0x00000000, addr_decode_err=0x00000470
        %ERR-1-FATAL: Fatal error interrupt, reloading
        RP FPGA status 0x00000004
        EPC 0x6084116C Error EPC 0xBFC00C54 BadVA 0xD6E8B233
        Status 0x3400FF03
       

    2 度目の障害が発生したら、SDRAM を交換してください。 それでも障害が発生するようであれば、PRE1 を交換してください。

  • Master Read 時の GT64120B システム パリティ エラー

    いずれかの PCI ブリッジへのアクセスにより、Master Read 時のパリティ エラーが発生します。 パリティ エラー メッセージ例を次に示します。

    
       %ERR-1-GT64120 (PCI0):Fatal error, Parity error on master read
       GT=B4000000, cause=0x0110E083, mask=0x0ED01F00, real_cause=0x00100000
       Bus_err_high=0x00000000, bus_err_low=0x00000000,
       addr_decode_err=0x00000470
       %ERR-1-SERR: PCI bus system/parity error
       %ERR-1-FATAL: Fatal error interrupt, No reloading
       Err_stat=0x81, err_enable=0xFF, mgmt_event=0x40
       

    上記エラー検出時は、PRE1 を交換してください。

  • CPU パリティ エラー

    SysAD バスを介してプロセッサの外部(PRE1 上の L3)キャッシュにアクセスするか、CPU 内部キャッシュ メモリ(L1 または L2)にアクセスした場合に、CPU がパリティ エラーを検出すると、CPU パリティ エラーが報告されます。 各タイプのキャッシュ パリティ エラーに対して出力されるメッセージ例を、表 1 に示します。

    表 1: CPU パリティ エラーの場所

    パリティ エラーの場所

    エラー メッセージ

    L1 命令キャッシュ

    Error: Primary, instr cache, fields: data

    L1 データ キャッシュ

    Error: Primary, data cache, fields: data

    L2 命令キャッシュ

    Error: SysAD, instr cache, fields: data

    L2 データ キャッシュ

    Error: SysAD, data cache, fields: data

    L3 命令キャッシュ

    Error: SysAD, instr cache, fields: 1st dword

    L3 データ キャッシュ

    Error: SysAD, data cache, fields: 1st dword

    表 1 を使用して、Cisco 10000 シリーズ ESR のコンソールに報告されるパリティ エラーの位置を特定してください。

例 1:

エラー メッセージの最初の行は、パリティ エラーの場所を示していて、表 1 に示されているいずれかの場所になります。 この例では、その場所は L3 データ キャッシュです。


   Error: SysAD, data cache, fields: data, 1st dword
   Physical addr(21:3) 0x195BE88,
   Virtual address is imprecise.
       Imprecise Data Parity Error
       Imprecise Data Parity Error
   

2 度目の障害が発生したら、PRE1 を交換してください。

例 2:

エラー メッセージの最初の行は、パリティ エラーの場所を示していて、表 1 に示されているいずれかの場所になります。 この例では、その場所は L3 命令キャッシュです。


   Error: SysAD, instr cache, fields: data, 1st dword
   Physical addr(21:3) 0x000000,
   virtual addr 0x6040BF60, vAddr(14:12) 0x3000
   virtual address corresponds to main:text, cache word 0
  	   Low Data	High Data  Par	Low Data     High Data	Par
   L1 Data:  0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01
  	   2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01
  	    Low Data	 High Data  Par  Low Data     High Data  Par
   DRAM Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01
  	    2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01
   

例 1 と同様、2 度目の障害が発生したら、PRE1 を交換してください。

PRE1 ファースト パケット ECC フォールト ツリー解析

Forwarding Processor(FP)サーキット カードは、PRE1 アセンブリの最上部にあるボードです。 FP ボードは、Application-Specific Integrated Circuit(ASIC; 特定用途集積回路)を 3 基搭載しており、その構成はバックプレーン インターフェイス ASIC が 1 基、Parallel Express Forwarding(PXF)ネットワーク処理 ASIC が 2 基です。 各 ASIC は外部 メモリ システムへアクセスします。

次の図で、Cisco 10000 シリーズ ESR PRE1 FP のどのコンポーネントが、ECC エラー メッセージの原因になっているかが判別できます。

esr10000c.gif

バックプレーン インターフェイス ASIC SDRAM ECC エラー

  • バックプレーン インターフェイス ASIC SDRAM シングル ビット Error-Correcting Code(ECC)エラー

    バックプレーン インターフェイス ASIC は、ECC 保護 SDRAM にアクセスしています。 シングル ビット エラーが検出され、修正されたデータが提供されます。 シングル ビット エラーは次のように報告されます。

    
       %C10KEVENTMGR-1-MINOR_FAULT: PXF DMA Single Bit SDRAM Error
       %C10KEVENTMGR-1-SBE_DEBUG: Address: 0x01003C00,
       Who: 0x02, Data With ECC: 0x6E453363 2843ADAC D4
       10769E 9773870C, Data w/o ECC: 0x6E453363 2843ADAC D410769E 9773870C

    シングル ビット エラーがカウントされ、show hardware pxf dma counters Cisco IOS ソフトウェア コマンドを使用して表示できます。 シングル ビット エラーに対する処置は通常必要ありませんが、シングル ビット エラーが繰り返される場合や多発する場合は、PRE1 を交換してください。

  • バックプレーン インターフェイス ASIC SDRAM マルチビット ECC エラー

    バックプレーン インターフェイス ASIC SDRAM マルチビット エラーが検出されると、PXF ネットワーク処理マイクロコードがリロードされ、ブートフラッシュに pxf_crashinfo ファイルも作成されます。 PXF ネットワーク処理マルチコードのリロードにより、バックプレーン インターフェイス ASICが再初期化され、マルチビット エラーをSDRAM から効果的に消去します。 バックプレーン インターフェイス ASIC SDRAM のマルチビット ECC エラーに対応して、コンソールに出力されるメッセージ例を次に示します。

    
       %C10KEVENTMGR-1-MAJOR_FAULT: PXF DMA Multi-bit SDRAM Error, Restarting PXF
        Downloading Microcode: file=system:pxf/c10k-1-ucode.3.1.0,
        version=3.1.0, description=Release Software created Tue 11-Sep-01 19:25
       

    2 度目の障害が発生したら、PRE1 を交換してください。

PXF ネットワーク処理 ASIC コラム メモリ ECC エラー

2 基の PXF ネットワーク処理 ASIC は、ECC で保護された SDRAM コラム メモリ、または eXternal Column Memory(XCM)にアクセスしています。

  • PXF ネットワーク処理 ASIC XCM シングル ビット ECC エラー

    シングル ビット エラーが検出され、修正されたデータが提供されます。 シングル ビット エラーがカウントされ、show hardware pxf xcm コマンドを使用して、PXF ネットワーク処理 ASIC XCM シングル ビット エラー数を表示できます。

    シングル ビット エラー カウンタがラップすると、シングル ビット エラーが報告され、RP はPXF ネットワーク処理 ASIC によって検出された最初のシングル ビット エラーのアドレスを削除します。 シングル ビット エラーが報告される場合の報告メッセージの例を次に示します。

    %TOASTER-2-FAULT: T0 XCM1 SDRAM-A: ECC Single bit error counter has wrapped

    上記メッセージ内の Toaster(PXF ネットワーク処理 ASIC)番号と SDRAM インターフェイスは、ラップしたカウンタからのシングル ビット エラーが検出された XCM インターフェイスを反映しています。 シングル ビット エラー カウンタ ラップに対する処置は通常必要ありませんが、このようなエラーが繰り返される場合や多発する場合は、PRE1 を交換してください。

  • PXF ネットワーク処理 ASIC XCM マルチビット ECC エラー

    XCM マルチビット ECC エラーは修正できません。 冗長 PRE1 を備えたシステムでは、XCM マルチビット エラーが発生すると、クラッシュと PRE フェールオーバが発生します。 単一 PRE1 を備えたシステムでは、XCM マルチビット エラーが検出されると、強制的に PXF ネットワーク処理 ASIC マイクロコードがリロードされます。 マイクロコードのリロードにより、すべての PXF ネットワーク処理 ASIC XCM メモリが再初期化され、メモリから ECC マルチビット障害が効果的に削除されます。 ログと pxf_crashinfo/crashinfo ファイルには、次のメッセージが表示されます。

    %TOASTER-2-FAULT: T0 XCM1 SDRAM-A: Multi-bit ECC error
       %C10KEVENTMGR-1-MAJOR_FAULT: PXF DMA Toaster Fault, Restarting PXF
        Downloading Microcode: file=system:pxf/c10k-1-ucode.102.3.0.0, version=102.3.0.0,
       

    この場合、エラー メッセージは Toaster(T0 または T1)、適切な XCM 番号(1 〜 4)、およびマルチビット ECC エラーが発生した SDRAM インターフェイス(A または B)を表示します。

    2 度目の障害が発生したら、PRE1 を交換してください。


関連するシスコ サポート コミュニティ ディスカッション

シスコ サポート コミュニティは、どなたでも投稿や回答ができる情報交換スペースです。


関連情報


Document ID: 25701