ルータ : Cisco 10000 シリーズ ルータ

10000 ESR PRE1 パリティ エラー フォールト ツリー

2015 年 11 月 26 日 - 機械翻訳について
その他のバージョン: PDFpdf | ライター翻訳版 (2003 年 7 月 30 日) | 英語版 (2015 年 4 月 22 日) | フィードバック


目次


概要

この文書では、さまざまなパリティ エラー メッセージを確認した場合の、トラブルシューティング手順、および Cisco 10000 シリーズ Edge Services Router(ESR)と Performance Routing Engine(PRE1)のどの部分またはどのコンポーネントで障害が発生しているかを特定する手順について説明します。

前提条件

要件

次の項目に関する知識があることが推奨されます。

使用するコンポーネント

このドキュメントの情報は、次のソフトウェアとハードウェアのバージョンに基づくものです。

  • Performance Routing Engine (PRE1)を使用する Cisco 10000 シリーズ Edge Services ルータ(ESR)

  • Cisco IOS のすべてのバージョンか。 ソフトウェア

注: この文書は、Cisco 10720 シリーズ インターネット ルータには適用されません。

このドキュメントの情報は、特定のラボ環境にあるデバイスに基づいて作成されたものです。 このドキュメントで使用するすべてのデバイスは、クリアな(デフォルト)設定で作業を開始しています。 ネットワークが稼働中の場合は、コマンドが及ぼす潜在的な影響を十分に理解しておく必要があります。

表記法

ドキュメント表記の詳細は、『シスコ テクニカル ティップスの表記法』を参照してください。

PRE1 ルート・プロセッサ・パリティ・エラー 障害ツリー分析

Cisco 10000 シリーズ ESR PRE1 は 2 つのサーキット カードで構成されています: Route Processor (RP)および Forwarding Processor (FP) カード。 次のフローチャートで、Cisco 10000 シリーズ ESR PRE1 のどのコンポーネントが、ルート プロセッサの Parity/Error Code Correction(ECC)エラー メッセージの原因になっているかが判別できます。

/image/gif/paws/25701/esr10000a.gif

注: キャプチャ し、show tech-support 出力およびコンソール ログを記録し、パリティ/ECC エラー イベントの間にすべての crashinfo および pxf_crashinfo ファイルを集めて下さい。

PRE1 Parity/ECC 検出

次のダイヤグラムは、パリティ/ECC エラーが発生した可能性がある PRE1 RP アーキテクチャの一部を示しています。

esr10000b.gif

PRE1 RP は、シングル ビット エラー修正とマルチ ビット エラー検出の ECC を、共有メモリ(SDRAM)に対して使用します。 SDRAM のシングルビット エラーは自動的に訂正され、システムは通常通り操作を続行します。

SDRAM のマルチビットエラーはキャッシュ エラー例外かバス エラーが生じます致命的な イベントです。 システム内の他のメモリとバスでは、シングル ビット パリティ検出が使用されます。 上図 1 と 3 のシングル ビット エラーは重大で、ルータがリセットされます。

Cisco 10000 シリーズ ESR ルートプロセッサのパリティ エラーおよび ECC エラー

誤った パリティのデータは PRE1 を使用してのあらゆる read または write オペレーションのための parity-checking デバイスの複数 ESR Cisco 10000 シリーズ報告することができます。

PRE 1 をインストールした Cisco 10000 シリーズ ESR 上で報告されたさまざまな RP エラー メッセージを、次に説明します。

  • GT64120B SDRAMエラー

    SDRAM 読み取り中に GT64120B システム コントローラがマルチビット ECC エラーを検出すると、次のエラー メッセージが表示されます。

    %ERR-1-GT64120 (PCI-0): Fatal error, Memory parity error (external)
     GT=0xB4000000, cause=0x0100E283, mask=0x0ED01F00, real_cause=0x00000200
     bus_err_high=0x00000000, bus_err_low=0x00000000, addr_decode_err=0x00000470
     %ERR-1-FATAL: Fatal error interrupt, reloading
     RP FPGA status 0x00000004
     EPC 0x6084116C Error EPC 0xBFC00C54 BadVA 0xD6E8B233
     Status 0x3400FF03
    

    2 回目の障害が発生したら、SDRAM を交換してください。 失敗が続く場合、PRE1 を取り替えて下さい。

  • 読まれる GT64120B システム パリティエラー マスタ

    PCI ブリッジのどちらかにアクセスする方法マスターリードのパリティ エラーを引き起こします。 パリティ エラー メッセージ例を次に示します。

    %ERR-1-GT64120 (PCI0):Fatal error, Parity error on master read
    GT=B4000000, cause=0x0110E083, mask=0x0ED01F00, real_cause=0x00100000
    Bus_err_high=0x00000000, bus_err_low=0x00000000,
    addr_decode_err=0x00000470
     
    %ERR-1-SERR: PCI bus system/parity error
    %ERR-1-FATAL: Fatal error interrupt, No reloading
    Err_stat=0x81, err_enable=0xFF, mgmt_event=0x40
    

    上記エラー検出時は、PRE1 を交換してください。

  • CPU パリティ エラー

    CPU パリティエラーメッセージはプロセッサの外部(PRE1 の L3)キャッシュに SysAD バスによってアクセスするとき検出する、または CPU 内部キャッシュ メモリのどちらかを CPU がパリティ エラー場合報告されます(L1 か L2)。 各タイプのキャッシュ パリティ エラーに対して出力されるメッセージ例を、表 1 に示します。

    表 1: CPU パリティ エラー の 位置

    パリティ エラーの発生箇所 エラー メッセージ
    L1 命令キャッシュ エラー: Primary, instr cache, fields: データ
    L1 データ キャッシュ エラー: Primary, data cache, fields: データ
    L2 命令キャッシュ エラー: SysAD, instr cache, fields: データ
    L2 データ キャッシュ エラー: SysAD, data cache, fields: データ
    L3 命令キャッシュ エラー: SysAD, instr cache, fields: 1st dword
    L3 データ キャッシュ エラー: SysAD, data cache, fields: 1st dword

    表 1 を使用して、Cisco 10000 シリーズ ESR のコンソールに報告されるパリティ エラーの位置を特定してください。

例 1:

エラー メッセージの最初の行は、パリティ エラーの場所を示していて、表 1 に示されているいずれかの場所になります。 この例では、位置は L3 データキャッシュです。

Error: SysAD, data cache, fields: data, 1st dword
Physical addr(21:3) 0x195BE88,
Virtual address is imprecise.
    Imprecise Data Parity Error
    Imprecise Data Parity Error

2 度目の障害が発生したら、PRE1 を交換してください。

例 2:

エラー メッセージの最初の行は、パリティ エラーの場所を示していて、表 1 に示されているいずれかの場所になります。 この例では、その場所は L3 命令キャッシュです。

Error: SysAD, instr cache, fields: data, 1st dword
Physical addr(21:3) 0x000000,
virtual addr 0x6040BF60, vAddr(14:12) 0x3000
virtual address corresponds to main:text, cache word 0
 
          Low Data     High Data  Par  Low Data     High Data  Par
L1 Data:  0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01
          2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01
           Low Data     High Data  Par  Low Data     High Data  Par
DRAM Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01
           2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01

Example 1: 次は 2回目 の 失敗の後、PRE1 を取り替えます。

  • パリティ エラーによるクラッシュ:

    Mar 14 10:32:01.029 UTC: %C10K_TOASTER-3-ERROR: TCAM0 has parity error
    Mar 14 10:32:01.033 UTC: %C10KEVENTMGR-1-MINOR_FAULT: PXF DMA ToasterFault
    Mar 14 10:32:01.033 UTC: %C10KEVENTMGR-1-MINOR_REOCCURRING: PXF DMAToaster Fault 

    TCAM パリティ エラーは既知 MTBF 計算に基づいて期待されるべきです。 エラーメッセージは一時ハードウェア上の問題単にです。

PRE1 高速パケットECC 障害ツリー分析

Forwarding Processor(FP)サーキット カードは、PRE1 アセンブリの最上部にあるボードです。 FP ボードは、Application-Specific Integrated Circuit(ASIC; 特定用途集積回路)を 3 基搭載しており、その構成はバックプレーン インターフェイス ASIC が 1 基、Parallel Express Forwarding(PXF)ネットワーク処理 ASIC が 2 基です。 各 ASIC に外部記憶装置にアクセスできます。

次の図で、Cisco 10000 シリーズ ESR PRE1 FP のどのコンポーネントが、ECC エラー メッセージの原因になっているかが判別できます。

/image/gif/paws/25701/esr10000c.gif

バックプレーン インターフェイス ASIC SDRAM ECC エラー

  • バックプレーン インターフェイス ASIC SDRAM シングル・ビット Error-Correcting Code (ECC) エラー

    バックプレーン インターフェイス ASIC は、ECC 保護 SDRAM にアクセスしています。 シングル ビット エラーが検出され、修正されたデータが提供されます。 シングル ビット エラーは次のように報告されます。

    %C10KEVENTMGR-1-MINOR_FAULT: PXF DMA Single Bit SDRAM Error
    %C10KEVENTMGR-1-SBE_DEBUG: Address: 0x01003C00, 
    Who: 0x02, Data With ECC: 0x6E453363 2843ADAC D4
    
    10769E 9773870C, Data w/o ECC: 0x6E453363 2843ADAC D410769E 9773870C

    シングル ビット エラーがカウントされ、show hardware pxf dma counters Cisco IOS ソフトウェア コマンドを使用して表示できます。 シングル ビット エラーに通常処理が必要となりません; ただし、繰り返されるまたはシングル ビット エラーの例にです PRE1 の置換用の原因度々行って下さい。

  • バックプレーン インターフェイス ASIC SDRAM マルチビット ECC エラー

    バックプレーン インターフェイス ASIC SDRAM マルチビット エラーが検出されると、PXF ネットワーク処理マイクロコードがリロードされ、ブートフラッシュに pxf_crashinfo ファイルも作成されます。 PXF ネットワーク処理マルチコードのリロードにより、バックプレーン インターフェイス ASICが再初期化され、マルチビット エラーをSDRAM から効果的に消去します。 バックプレーン インターフェイス ASIC SDRAM のマルチビット ECC エラーに対応して、コンソールに出力されるメッセージ例を次に示します。

    %C10KEVENTMGR-1-MAJOR_FAULT: PXF DMA Multi-bit SDRAM Error, Restarting PXF
     Downloading Microcode: file=system:pxf/c10k-1-ucode.3.1.0,
     version=3.1.0, description=Release Software created Tue 11-Sep-01 19:25
    

    2 度目の障害が発生したら、PRE1 を交換してください。

PXF ネットワーク処理 ASIC コラム メモリ ECC エラー

2 基の PXF ネットワーク処理 ASIC は、ECC で保護された SDRAM コラム メモリ、または eXternal Column Memory(XCM)にアクセスしています。

  • PXF ネットワーク処理 ASIC XCM シングル ビット ECC エラー

    シングル ビット エラーが検出され、修正されたデータが提供されます。 シングル ビット エラーがカウントされ、show hardware pxf xcm コマンドを使用して、PXF ネットワーク処理 ASIC XCM シングル ビット エラー数を表示できます。

    シングル ビット エラー カウンタがラップすると、シングル ビット エラーが報告され、RP はPXF ネットワーク処理 ASIC によって検出された最初のシングル ビット エラーのアドレスを削除します。 シングル ビット エラーが報告される場合の報告メッセージの例を次に示します。

    %TOASTER-2-FAULT: T0 XCM1 SDRAM-A: ECC Single bit error counter has wrapped

    上記メッセージ内の Toaster(PXF ネットワーク処理 ASIC)番号と SDRAM インターフェイスは、ラップしたカウンタからのシングル ビット エラーが検出された XCM インターフェイスを反映しています。 シングル ビット エラー カウンターに通常処理がラップします必要となりません; ただし、繰り返されるまたはこれらのエラーの例にです PRE1 の置換用の原因度々行って下さい。

  • PXF ネットワーク処理 ASIC XCM マルチビット ECC エラー

    XCM マルチビット ECC エラーは修正できません。 冗長 PRE1s のシステムでは、XCM マルチビットエラーによりクラッシュおよび PRE フェールオーバーを引き起こします。 単一 PRE1 のシステムでは、XCM マルチビットエラーの検出は PXF Network Processing ASIC microcode reload を強制します。 マイクロコードのリロードにより、すべての PXF ネットワーク処理 ASIC XCM メモリが再初期化され、メモリから ECC マルチビット障害が効果的に削除されます。 ログと pxf_crashinfo/crashinfo ファイルには、次のメッセージが表示されます。

    %TOASTER-2-FAULT: T0 XCM1 SDRAM-A: Multi-bit ECC error
    %C10KEVENTMGR-1-MAJOR_FAULT: PXF DMA Toaster Fault, Restarting PXF
     Downloading Microcode: file=system:pxf/c10k-1-ucode.102.3.0.0, version=102.3.0.0,
    

    この場合、エラー メッセージは Toaster(T0 または T1)、適切な XCM 番号(1 〜 4)、およびマルチビット ECC エラーが発生した SDRAM インターフェイス(A または B)を表示します。

    2 度目の障害が発生したら、PRE1 を交換してください。

関連するシスコ サポート コミュニティ ディスカッション

シスコ サポート コミュニティは、どなたでも投稿や回答ができる情報交換スペースです。


関連情報


Document ID: 25701