ルータ : Cisco 7200 シリーズ ルータ

プロセッサ メモリ パリティ エラー(PMPE)

2009 年 7 月 17 日 - ライター翻訳版
その他のバージョン: PDFpdf | 機械翻訳版 (2013 年 8 月 21 日) | 英語版 (2006 年 1 月 31 日) | フィードバック

Interactive: This document offers customized analysis of your Cisco device.


目次


概要

このドキュメントでは、Cisco ルータでパリティ エラーが発生する原因と、そのトラブルシューティングについて説明しています。



前提条件

要件

ルータのクラッシュのトラブルシューティング方法に関する知識があることが推奨されます。

詳細は、『トラブルシューティング:ルータのクラッシュ』を参照してください。



使用するコンポーネント

このドキュメントは、特定のソフトウェアやハードウェアのバージョンに限定されるものではありません。

このドキュメントの情報は、特定のラボ環境にあるデバイスに基づいて作成されたものです。このドキュメントで使用するすべてのデバイスは、クリアな(デフォルト)設定で作業を開始しています。対象のネットワークが実稼働中である場合には、どのような作業についても、その潜在的な影響について確実に理解しておく必要があります。



表記法

ドキュメント表記の詳細は、『シスコ テクニカル ティップスの表記法』を参照してください。



パリティ エラーの識別

メモリ パリティ エラーが発生するのは、次のようなマルチチャネル インターフェイス プロセッサ(MIPS)ベース プロセッサの製品です。

  • Cisco 4500/4700 シリーズ ルータ

  • Cisco 7500 シリーズ ルータ(RSP1、RSP2、RSP4、RSP8、VIP2-10、VIP2-15、VIP2-20、VIP2-40、VIP2-50)

  • Cisco 7000 シリーズ ルータ(RSP 7000)

  • Cisco 7200 シリーズ ルータ(NPE-100、NPE-150、NPE-175、NPE-200、NPE-225、NPE-300)

  • Cisco 12000 シリーズ インターネット ルータ

次のメッセージは、すべてシステム内のどこかで不正なパリティが検出されたことに関連しています(このリストですべてを網羅しているわけではなく、最も一般的なメッセージを示しています)。

  • show version コマンドの出力では、次のようになります。

    System restarted by processor memory parity error at PC 0x6014F7C0,
     address 0x0
    

    または

    System restarted by shared memory parity error at PC 0x60130F40
    

    ご使用の Cisco デバイスの、show version コマンドの出力データがあれば、アウトプットインタープリタ を使用して今後予想される障害や修正を表示できます。アウトプットインタープリタ を使用するためには、登録ユーザであり、ログインしていて、さらに JavaScript をイネーブルにしている必要があります。
    一部ツールについては、ゲスト登録のお客様にはアクセスできない場合がありますことを、ご了承ください。

  • コンソール ログ、または crashinfo ファイルでのメッセージ:

    -  *** Cache Error Exception ***
       Cache Err Reg = 0xa401a65a
       data reference, primary cache, data field error , error on SysAD Bus
       PC = 0xbfc17950, Cause = 0x0, Status Reg = 0x3040d007
    
    
    -  Error: primary data cache, fields: data,
       virtual addr 0x6058A000, physical addr(21:3) 0x18A000, vAddr(14:12) 0x2000
       virtual address corresponds to main:data, cache word 0
                                      
                    Low Data   High Data  Par    Low Data   High Data  Par
       L1 Data  : 0:0xFEFFFEFE 0x65776179 0x13 1:0x20536572 0x76657220 0x89
                  2:0x646F6573 0x206E6F74 0x9C 3:0x20737570 0x706F7274 0xF8  
                                            
                    Low Data   High Data  Par    Low Data   High Data  Par
       Mem Data : 0:0xFEFFFEFE 0x65776179 0x13 1:0x20536572 0x76657220 0x89
                  2:0x646F6573 0x206E6F74 0x9C 3:0x20737570 0x706F7274 0xF8
    
    
    -  *** Shared Memory Parity Error ***
       shared memory control register= 0xffe3
       error(s) reported for: CPU on byte(s): 0/1
    
    -  %PAR-1-FATAL: Shared memory parity error
       shared memory status register= 0xFFEF
       error(s) reported for: CPU on byte(s): 0/1 2/3
    
    
    -  %RSP-3-ERROR: MD error 0000008000000200
       %RSP-3-ERROR: QA parity error (bytes 0:3) 02
       %RSP-3-ERROR: MEMD parity error condition
       %RSP-2-QAERROR: reused or zero link error, write at addr 0100 (QA) 
           log 22010000, data 00000000 00000000
       %RSP-3-RESTART: cbus complex
    
    
    -  %RSP-3-ERROR: CyBus error 01
       %RSP-3-ERROR: read data parity
       %RSP-3-ERROR: read parity error (bytes 0:7) 20
       %RSP-3-ERROR: physical address (bits 20:15) 000000
    
    -  %RSP-3-ERROR: MD error 00800080C000C000
       %RSP-3-ERROR: SRAM parity error (bytes 0:7) F0
       %RSP-3-RESTART: cbus complex
    


ソフト パリティ エラーとハード パリティ エラー

パリティ エラーには、次の 2 種類があります。

  • ソフト パリティ エラー

    このタイプのエラーは、チップ内のエネルギー レベル(たとえば、1 または 0)が変動した場合に発生します。このタイプのエラーが CPU によって参照されると、回復不能なエラーの場合は、システムがクラッシュします。回復可能なエラーの場合は、他のシステムが回復されます(たとえば、そのエラーがパケット メモリ(MEMD)に存在していた場合は、CyBus Complex が再起動されます)。 ソフト パリティ エラーの場合は、ボードやコンポーネントなどを交換する必要はありません。ソフト パリティ エラーについての詳細は、「関連情報」セクションを参照してください。

  • ハード パリティ エラー

    このタイプのエラーは、データの破損につながるチップの障害またはボードの障害が起きた場合に発生します。この場合は、該当するコンポーネントの再装着または交換が必要になります(多くの場合、メモリ チップやボードの交換が必要になります)。同じアドレスでパリティ エラーが繰り返される場合は、ハード パリティ エラーが存在しています。ただし、識別が難しい複雑なケースもあります。一般に、比較的短い期間に特定のメモリ領域でパリティ エラーが複数回発生する場合は、ハード パリティ エラーと考えられます。

調査では、ソフト パリティ エラーの頻度は、ハード パリティ エラーの 10 倍から 100 倍であることがわかっています。そのため、2 つ目のパリティ エラーが発生しない限りは何も交換しないことを推奨します。これによりネットワークへの影響を大幅に低減できます。



問題の特定

ルータには、さまざまな場所にメモリがあります。理論上、すべてのメモリ ロケーションがパリティ エラーの影響を受けますが、ほとんどのメモリの問題はダイナミック RAM(DRAM)や共有 RAM(SRAM)で発生します。ここでは、問題が発生したメモリ ロケーションを見つける方法と、ハード パリティ エラーであることが判明した場合に交換する必要のある部分について、プラットフォームに基づいて説明しています。



Cisco 4500 と 4700 のプラットフォーム

Cisco 4500 および 4700 プラットフォームでは、Cisco IOS(R) ソフトウェア リリース 12.2(10) および 12.2(10)T より前のバージョンでは、crashinfo ファイルは使用できません。

エラーが発生した場所を見つけるには、コンソール ログおよび show version コマンドの出力で「restart reason」を確認します。

  • DRAM のパリティ エラー:

    クラッシュが発生した後に手動でルータをリロードしていなければ、show version の出力は次のようになります。

    System restarted by processor memory parity error at PC 0x601799C4,
     address 0x0 
    System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash
    

    crashinfo ファイルがある場合や、コンソール ログをキャプチャした場合は、次のような出力も得られます。

    *** Cache Error Exception *** 
     Cache Err Reg = 0xa0255c61 
     data reference, primary cache, data field error , error on SysAD Bus 
     PC = 0xbfc0edc0, Cause = 0xb800, Status Reg = 0x34408007
    

    DRAM でパリティ エラーが繰り返し発生する場合は、DRAM またはシャーシに障害があります。最近シャーシを取り外したか、ハードウェア構成を変更したのであれば、問題を解決するには DRAM チップを差し直します。そうでない場合は、まず DRAM を交換します。これにより、パリティ エラーの発生が防止されるはずです。それでもルータがクラッシュするようであれば、シャーシを交換します。

  • SRAM のパリティ エラー:

    クラッシュが発生した後に手動でルータをリロードしていなければ、show version コマンドの出力は次のようになります。

    System  restarted by shared memory parity error at PC 0x60130F40 
    System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash
    

    crashinfo ファイルがある場合や、コンソール ログをキャプチャした場合は、次のような出力も得られます。

    *** Shared Memory Parity Error *** 
    shared memory control register= 0xffe3 
    error(s) reported for: CPU on byte(s): 0/1
    

    または

    %PAR-1-FATAL: Shared memory parity error 
    shared memory status register= 0xFFEF 
    error(s) reported for: CPU on byte(s): 0/1 2/3
    

    または

    *** Shared Memory Parity Error *** 
    shared memory control register= 0xffdf 
    error(s) reported for: NIM1 on byte(s): 0/1  2/3
    

注:

  • CPU に関するエラーが報告される場合は、SRAM を交換します。

  • NIM(x)のエラーが報告される場合は、スロット(x)のネットワーク モジュールを交換します。スロット(x)に割り当てられている SRAM も該当する可能性があります。この場合は SRAM を交換します。

    SRAM で繰り返し発生するパリティ エラーは、SRAM チップが不良であるか、ネットワーク モジュールが不良であるために SRAM に不良パリティが書き込まれていることを示しています。最近シャーシを取り外したか、ハードウェア構成を変更したのであれば、問題を解決するにはネットワーク モジュールと SRAM チップを差し直します。そうでない場合は、どこにエラーが発生しているかをコンソール ログで確認します(上記の出力例を参照)。



ルート/スイッチ プロセッサ(RSP)、ネットワーク処理エンジン(NPE)、およびルート プロセッサ(RP)のプラットフォーム

Cisco 4000 シリーズでは、これらのプラットフォームの不良な DRAM や SRAM が問題の原因になっている可能性があります。また、不良なプロセッサ カード(RP、RSP または NPE)も問題の原因になります。Cisco 7000 および 7500 でも、不良な、あるいは装着が不完全なインターフェイス プロセッサ(レガシー xIP または VIP)によってパリティ エラーが発生することがあります。

crashinfo ファイルおよびコンソール ログに、次のいずれかのエラー メッセージが出力されていないかどうかを確認してください。



DRAM または SRAM(MEMD)のパリティ エラー

RP、RSP および NPE では、通常、次のような表示があります。

Error: primary data cache, fields: data, (SysAD) 
virtual addr 0x6058A000, physical addr(21:3) 0x18A000, vAddr(14:12) 0x2000 
virtual address corresponds to main:data, cache word 0

または簡単なメッセージとして、次が表示されます。

Error: primary data cache, fields: data, SysAD
phy21:3 0x201880, va14:12 0x1000, addr 63E01880

これは、RSP 自体に問題があることを示しています。問題が 1 回だけ発生するようであれば、一時的な現象である可能性が高いと言えます。



SRAM に起因するパリティ エラー

RSP の場合、メッセージは次のようになります。

%RSP-3-ERROR: MD error 0000008000000200 
%RSP-3-ERROR: QA parity error (bytes 0:3) 02 
%RSP-3-ERROR: MEMD parity error condition 
%RSP-2-QAERROR: reused or zero link error, write at addr 0100 (QA) 
    log 22010000, data 00000000 00000000 
%RSP-3-RESTART: cbus complex

または

%RSP-3-ERROR: CyBus error 01 
%RSP-3-ERROR: read data parity 
%RSP-3-ERROR: read parity error (bytes 0:7) 20 
%RSP-3-ERROR: physical address (bits 20:15) 000000

SRAM に不良パリティを書き込む他のインターフェイス プロセッサ(たとえば、VIP2-1-MSG エラー メッセージ)が示されていない場合、そのパリティ エラーの原因は、SRAM 自体にある可能性が高いと言えます。この場合は、RSP を交換します。

他のエラー メッセージに、インターフェイス プロセッサによる不良パリティの書き込みが示されている場合は、そのカードが不良か、あるいはカードが正しく装着されていない可能性があります。



Versatile Interface Processor

%VIP2-1-MSG: slot(x) メッセージがログまたは crashinfo ファイルに表示される場合は、『トラブルシューティング:バーサタイル インターフェイス プロセッサのクラッシュ』を参照してください。



推奨される対処法

パリティ エラーが初めて発生した時点では、ソフト パリティ エラーかハード パリティ エラーかを判別することはできません。過去の事例からすると、ほとんどのパリティ エラーはソフト パリティ エラーで、通常は無視できるものです。最近、何らかのハードウェアを変更したか、ボックスを移動した場合は、該当するすべての部品(DRAM、SRAM、NPE、RP、RSP、または VIP)を挿し直してみてください。複数のパリティ エラーが頻発する場合は、ハードウェアに障害があることを意味します。上記の指示を使用して、該当部分(DRAM、RSP、VIP、またはマザーボード)を交換します。



TAC のサービス リクエストをオープンする場合に収集する情報

上記のトラブルシューティング方法を実行した後も、依然としてサポートが必要で、Cisco TAC でサービス リクエストをオープンする必要がある場合は、必ず次の情報を添付してください。
  • サービス リクエストをオープンする前に実施したトラブルシューティング

  • show technical-support コマンドの出力(可能な場合はイネーブル モードで)

  • show log コマンドの出力またはコンソールのキャプチャ(可能な場合)

  • crashinfo ファイル(ファイルがあり、show technical-support コマンドの出力に含まれていない場合。crashinfo ファイルが複数ある場合は、それらをすべて含めてください。)

  • プロセッサ メモリのパリティ エラーが原因で発生したリロードの数と、それらが発生した日時。

収集したデータは、圧縮しないプレーンなテキスト形式(.txt)でサービス リクエストに添付してください。情報をサービス リクエストに添付するには、TAC Service Request Tool登録ユーザ専用)を使用してアップロードします。Service Request Tool にアクセスできない場合は、お客様の電子メールに関連情報を添付し、メッセージの件名の行にお客様のサービス リクエスト番号を記入して attach@cisco.com にその電子メールを送信してください。
一部ツールについては、ゲスト登録のお客様にはアクセスできない場合がありますことを、ご了承ください。

注:プロセッサ メモリのパリティ エラーのトラブルシューティングに必要でない限り、上記の情報を収集する前にルータを手作業でリロードしたり、電源のオフ/オンを行わないようにしてください。これを行うと、問題の原因の判断に必要な重要な情報が失われます。





関連するシスコ サポート コミュニティ ディスカッション

シスコ サポート コミュニティは、どなたでも投稿や回答ができる情報交換スペースです。


関連情報




Document ID: 6345