ルータ : Cisco 12000 シリーズ ルータ

Cisco 12000 シリーズ インターネットルータでのラインカード クラッシュのトラブルシューティング

2015 年 11 月 26 日 - 機械翻訳について
その他のバージョン: PDFpdf | ライター翻訳版 (2003 年 5 月 1 日) | 英語版 (2015 年 4 月 22 日) | フィードバック


対話式: この文書では、個別のユーザに合わせたシスコ デバイスの分析を行います。


目次


概要

このドキュメントでは、Cisco 12000 シリーズ インターネット ルータのラインカード クラッシュをトラブルシューティングする方法を示します。

前提条件

要件

このドキュメントに関する特別な要件はありません。

使用するコンポーネント

このドキュメントの情報は、次のソフトウェアとハードウェアのバージョンに基づくものです。

  • すべての Cisco 12000 シリーズ インターネット ルータ。12008、12012、12016、12404、12406、12410、および 12416。

  • すべての Cisco IOS か。 Cisco 12000 シリーズ インターネット ルータをサポートするソフトウェア バージョン。

このドキュメントの情報は、特定のラボ環境にあるデバイスに基づいて作成されたものです。 このドキュメントで使用するすべてのデバイスは、クリアな(デフォルト)設定で作業を開始しています。 ネットワークが稼働中の場合は、コマンドが及ぼす潜在的な影響を十分に理解しておく必要があります。

表記法

ドキュメント表記の詳細は、『シスコ テクニカル ティップスの表記法』を参照してください。

背景説明

このセクションは方法でバックグラウンドをラインカード クラッシュを識別する提供します。

ラインカード クラッシュを識別して下さい

すぐにラインカード クラッシュを識別するために、show context summary コマンドを使用して下さい:

   Router#show context summary 
       CRASH INFO SUMMARY 
         Slot 0 : 0 crashes 
         Slot 1 : 0 crashes 
         Slot 2 : 0 crashes 
         Slot 3 : 0 crashes 
         Slot 4 : 1 crashes 
           1 - crash at 04:28:56 EDT Tue Apr 20 1999 
         Slot 5 : 0 crashes 
         Slot 6 : 0 crashes 
         Slot 7 : 0 crashes 
         Slot 8 : 0 crashes 
         Slot 9 : 0 crashes 
         Slot 10: 0 crashes 
         Slot 11: 0 crashes

クラッシュがルータ自体(およびないラインカードだけ)に影響を及ぼしたら、ルータクラッシュのトラブルシューティングを参照して下さい。

クラッシュについての情報を収集して下さい

クラッシュについての関連データを収集するために、表 1.で示されているコマンドを使用して下さい

表 1 –クラッシュについてのデータを収集するのに使用するコマンド

コマンド 説明
show version システムのハードウェア および ソフトウェア構成についての概要を提供します。
show logging ルータの一般のログを表示する。
show diag [slot -] 特定のスロットについての特定の情報を提供します: エンジンの型、ハードウェアリビジョン、メモリコンフィギュレーション、等。
show context slot [slot -] 最近のクラッシュについてのコンテキスト情報を提供します。 これは頻繁にラインカード クラッシュを解決するためのほとんどの役に立つコマンドです。
コア ダンプ ラインカードのコアダンプはクラッシュの時にメモリの全内容です。 このデータは普通最初のトラブルシューティングのために必要ではないです。 問題が新しいソフトウェアバグであることが判明する場合それが必要とされた以降であるかもしれません。 そのケースでは、GSR ラインカードでのコア ダンプの設定を参照して下さい。

Ciscoデバイスからの show tech-support (イネーブル モードから)コマンドの出力がある場合、潜在的な問題 および修正を表示するのに使用できます。 使用するために 登録 ユーザである必要がありログオンされ、JavaScript を有効に してもらいます。

収集したデータを分析して下さい

show context slot [slot#] 出力の、sig= field の値をチェックします。

       Router#show context slot 4 
       CRASH INFO: Slot 4, Index 1, Crash at 04:28:56 EDT Tue Apr 20 1999 

       VERSION: 
       GS Software (GLC1-LC-M), Version 11.2(15)GS1a, EARLY DEPLOYMENT RELEASE 
       SOFTWARE (fc1) 
       Compiled Mon 28-Dec-98 14:53 by tamb 
       Card Type: 1 Port Packet Over SONET OC-12c/STM-4c, S/N CAB020500AL 
       System exception: SIG=20, code=0xA414EF5A, context=0x40337424 

       Traceback Using RA 
       STACK TRACE: 
         traceback 4014CFC0 40141AB8 40143944 4014607C 4014A7EC 401499D4 40149BB4 
       40149FD4 40080118 40080104 
       CONTEXT: 
       $0 : 00000000, AT : 40330000, v0 : 00000000, v1 : 00000038 
       a0 : 4094EF58, a1 : 00000120, a2 : 00000002, a3 : 00000001 
       t0 : 00000010, t1 : 3400BF01, t2 : 34008D00, t3 : FFFF00FF 
       t4 : 400A1410, t5 : 00000002, t6 : 00000000, t7 : 4041783C 
       s0 : 4093F980, s1 : 4093F980, s2 : 4094EEF0, s3 : 4094EF00 
       s4 : 00000000, s5 : 00000001, s6 : 00000000, s7 : 00000000 
       t8 : 34008000, t9 : 00000000, k0 : 404D1860, k1 : 400A2F68 
       gp : 402F3070, sp : 4082BFB0, s8 : 00000000, ra : 400826FC 
       EPC : 0x40098824, SREG : 0x3400BF04, Cause : 0x00000000 
       ErrorEPC : 0x4015B7E4

どんなエラーの理由が記録した SIG 値と一致するか調べるために表 2 を参照して下さい。

表 2 – SIG 値と一致するエラーを検出して下さい

SIG 値 SIG 名前 エラーの理由
2 SIGINT 予想外のハードウェア割り込み。
3 SIGQUIT ブレークキーによる打ち切る。
4 SIGILL 不正な命令コード例外。
5 SIGTRAP 中断点か算術的例外による打ち切る。
8 SIGFPE 浮動小数点ユニット(FPU)例外。
9 SIGKILL 予約済みの例外。
10 SIGBUS バス エラー エクセプション。
11 SIGSEGV SegV例外。
20 SIGCACHE キャッシュ パリティ例外。
21 SIGWBERR 書き込みバスエラー割り込み。
22 SIGERROR 致命的なハードウェアエラー。
23 SIGRELOAD ソフトウェア強制クラッシュ。

注: キャッシュ パリティ例外(SIG=20)、バス エラー エクセプション(SIG=10)、およびソフトウェア強制クラッシュ(SIG=23)はをラインカード クラッシュの 95% 以上説明します。

diag 実行 コマンド

Cisco 12000 シリーズ異なるボードコンポーネントをテストするための diag [slot#]コマンドをサポートします。 このコマンドはハードウェア関連 の クラッシュを解決するために役立ち、障害のあるボードを識別するために。

それらが実行されたと同時に冗長オプションによりルータはテストのリストを表示する。 さもなければ、それは" PASSED " or " FAILURE " メッセージを単に表示する。

注: この診断を行うことはテスト(通常およそ 5 分)の間にラインカードのすべてのアクティビティを停止します。

Cisco IOS software release 12.0(22)S から開始して、Cisco は Cisco IOSソフトウェアイメージからの Cisco 12000 シリーズ インターネット ルータ フィールド診断 ラインカードイメージを切り離しました。 以前のバージョンでは、診断はコマンド・ラインから起動でき、組み込みイメージは起動します。 20 MB フラッシュ メモリカードを持つ顧客に対応するために、ラインカード フィールド診断はフラッシュ メモリカードか Trivial File Transfer Protocol (TFTP) ブート サーバで利用可能である必要がある個々のイメージとして今 field diagnostics コマンドが使用することができる前に保存され、維持されます。 ルータプロセッサおよびスイッチ ファブリック フィールド診断は組み込まれ続け、個々のイメージから起動する必要はありません。 Cisco 12000 シリーズ インターネット ルータのためのフィールド診断で詳細を見つけることができます。

diag [slot#]コマンド 出力の例はここにあります:

Router#diag 3 verbose 
Running DIAG config check 
Running Diags will halt ALL activity on the requested slot. 
[confirm] 
CR1.LND10# 
Launching a Field Diagnostic for slot 3 
Downloading diagnostic tests to slot 3 (timeout set to 400 sec.) 
Field Diag download COMPLETE for slot 3 
FD 3> ***************************************************** 
FD 3> GSR Field Diagnostics V3.0 
FD 3> Compiled by award on Tue Aug 3 15:58:13 PDT 1999 
FD 3> view: award-bfr_112.FieldDiagRelease 
FD 3> ***************************************************** 
FD 3> BFR_CARD_TYPE_OC48_1P_POS testing... 
FD 3> running in slot 3 (128 tests) 

Executing all diagnostic tests in slot 3 
(total/indiv. timeout set to 600/200 sec.) 
FD 3> Verbosity now (0x00000001) TESTSDISP 

FDIAG_STAT_IN_PROGRESS: test #1 R5K Internal Cache 
FDIAG_STAT_IN_PROGRESS: test #2 Burst Operations 
FDIAG_STAT_IN_PROGRESS: test #3 Subblock Ordering 
FDIAG_STAT_IN_PROGRESS: test #4 Dram Marching Pattern 
FDIAG_STAT_DONE_FAIL test_num 4, error_code 6 
Field Diagnostic: ****TEST FAILURE**** slot 3: last test run 4, 
Dram Marching Pattern, error 6 
Field Diag eeprom values: run 2 fail mode 1 (TEST FAILURE) slot 3 
last test failed was 4, error code 6 
Shutting down diags in slot 3 

slot 3 done, will not reload automatically

見つけられたエラーによってはスロットはかもしれましたりまたは自動的にリロードされないかもしれません。 そうでない場合、スタックしたのか矛盾した状態(show diag [slot -] コマンドを用いるチェック)にまで手動でリロードされてあるかもしれません。 これは、正常な動作です。 手動で カードをリロードするために、hw-module slot [slot#] reload コマンドを使用して下さい。

キャッシュ パリティ例外

show context [slot -]出力の SIG=20 によってキャッシュ パリティ例外を識別できます。

Ciscoデバイスからの show tech-support (イネーブル モードから)コマンドの出力がある場合、潜在的な問題 および修正を表示するのに使用できます。 使用するために 登録 ユーザである必要がありログオンされ、JavaScript を有効に してもらいます。

パリティ エラーには次の 2 種類があります。

  • ソフトパリティ エラー—これらはと半導体素子(たとえば、1 かゼロ)変更内のエネルギー 準位発生します。 ソフト パリティ エラーの場合は、ボードやコンポーネントを交換する必要はありません。

  • ハード パリティ エラー—これらはデータを破損させますボード障害または半導体素子があると発生します。 この場合、通常メモリチップスワップかボード スワップ影響を受けたコンポーネントを再装着または交換する必要があります。 多重パリティエラーが同じアドレスで見られるときハード パリティ エラーがあります。 複数のパリティ エラーが短いある一定の時間(数週への月)の特定のメモリ領域で比較的見られればより識別しにくいの、一般に、これはハード パリティ エラーとみなすことができますより多くの複雑なケースがあります。

研究によれば、ソフト パリティ エラーはハード パリティ エラーの 10~100 倍の頻度で発生します。

これらのエラーを解決するために、そのスロットのための diag コマンドを実行すると Maintenance ウィンドウが見つけて下さい。

  • 診断が失敗という結果に終る場合、ラインカードを交換して下さい。

  • 失敗がない場合、ソフトパリティ エラーであることは可能性が高く(短いある一定の時間以降にパリティ エラーの二回目をクラッシュしなければ)ラインカードは交換される必要がありません。

バス エラー例外

show context [slot -]出力の SIG=10 によってバス エラー エクセプションを識別できます。

Ciscoデバイスからの show tech-support (イネーブル モードから)コマンドの出力がある場合、潜在的な問題 および修正を表示するのに使用できます。 使用するために 登録 ユーザである必要がありログオンされ、JavaScript を有効に してもらいます。

このクラッシュ の タイプは普通ソフトウェア関連ですが、どういうわけか(たとえば、それは真新しいカードです、またはクラッシュは後停電開始しました)考えます問題は実行しますそのスロットのための diag コマンドをハードウェア関連である可能性があります。

注: ハードウェアに問題がないのにいくつかのソフトウェアバグにより既知ずっと Report エラーに diag コマンドを引き起こすためにです。 カードが既に取り替えられていたが、診断の同じテストでそれでも失敗した、この問題から影響を受けるかもしれません。 そのケースでは、ソフトウェア側の問題としてクラッシュを扱って下さい。

Cisco IOS ソフトウェア リリース トレインの最新バージョンへのアップグレードはラインカード バス エラーを引き起こすすべての固定バグにより除去します。 アップグレードが show tech-support と共に、関連情報を(クラッシュについての収集する 情報を参照して下さい)、収集した、考えあらゆる情報(最近のトポロジー変更、か最近設定される新しい 機能のような)および役立つかもしれません後クラッシュがそれでもあったら Ciscoサポート技術員に連絡して下さい。

ソフトウェアによるクラッシュ

show context [slot -]出力の SIG=23 によってソフトウェア強制クラッシュを識別できます。 名前にもかかわらず、これらのクラッシュはソフトウェア関連常にではないです。

Ciscoデバイスからの show tech-support (イネーブル モードから)コマンドの出力がある場合、潜在的な問題 および修正を表示するのに使用できます。 使用するために 登録 ユーザである必要がありログオンされ、JavaScript を有効に してもらいます。

ソフトウェア強制クラッシュのためのもっとも一般的な原因は「ファブリックpingタイムアウト」です。 正常 な ルータ操作の間に、Route Processor (RP)は絶えずラインカードを ping します。 ラインカードが応答しない場合、ルートプロセッサはそれをリセットすることにします。 これは影響を受けたラインカードのソフトウェア強制クラッシュ(SIG=23)という結果に終り、ルータのログのこれらのエラーを見るはずです:

Mar 12 00:42:48: %GRP-3-FABRIC_UNI: 
Unicast send timed out (4) 
Mar 12 00:42:50: %GRP-3-COREDUMP: Core dump incident on slot 4, error: Fabric ping failure

ファブリックpingタイムアウトを解決するために、ラインカードが PING になぜ応答しなかったか調べる必要があります。 複数の原因がある場合もあります:

  • ラインカードは経験しています CPU使用率が高い状態—これは execute-on slot [slot -] show proc cpu コマンドを使用して確認することができます。 CPU が実際に高かったら(95% の上で)、トラブルシューティング:Cisco ルータで CPU 使用率が高い場合を参照して下さい。

  • Inter Process Communication (IPC)にソフトウェアバグがありますまたはラインカードは IPC バッファを使い果たしています。 ほとんどの場合これらのソフトウェアに強制的に引き起こされる リロードはソフトウェアバグによって引き起こされます。

    Cisco IOS ソフトウェア リリース トレインの最新バージョンへのアップグレードはファブリックpingタイムアウトを引き起こすすべての固定バグにより除去します。 アップグレードが、show tech-support と共に、関連情報を(クラッシュについての情報を得ることを参照して下さい) show ipc status 収集した、考えあらゆる情報(最近のトポロジー変更、か最近設定される新しい 機能のような)および役立つかもしれない後クラッシュがそれでもあったら Ciscoサポート技術員に連絡して下さい。

  • ハードウェア障害—場合カードがおよび最近のトポロジー長い間正常に稼動しない、移動か停電が、欠陥のあるハードウェア原因であるかもしれなかった後ソフトウェア、か開始する機能変更は、または問題起こりました。 影響を受けたラインカードの diag コマンドを実行して下さい。 不良ならラインカードを交換して下さい。 複数のラインカードが影響を受けているかまたは diag がうまくあったら、ファブリックを取り替えて下さい。

%GSRSPA-6-ERRORRECOVER: ハードウェアまたはソフトウェアエラーはサブスロット 0.Reason 驚嘆に発生しました: TXECCERR Automatic エラー回復開始

TXECCERR/RXECCERR エラーは RxFIFO または TxFIFO 回復不可能な ECC エラー 割り込みが MAC にタイムインターバル内の閾値よりもっと発生すると発生します。 回復不可能な ECC エラーは ECC ロジックによって訂正することができません。 回復不能誤 りが RxFIFO の間に発生するとき、データが SPI4 レシーブ インターフェイスの EOP/Abort を使う場合マークされ、上位レイヤ廃棄される属するパケット読んで下さい。

これは SIP/SPA をリロードすればハードウェアが原因で、訂正されます。 永続性のあるソリューションはエラーを防ぐために SIP/SPA を取り替えることです。

その他のクラッシュ

他のクラッシュタイプは、上記される 2 つより圧倒的に、より少なくよくあります。 ほとんどの場合、diag コマンドはカードが取り替えられる必要があるかどうか示す必要があります。 カードが診断テストに正しく合格する場合、ソフトウェアをアップグレードすることを考えて下さい。

TAC のサービスリクエストをオープンする場合に収集すべき情報

上記のトラブルシューティング手順を実行しても、なおサポートが必要で、Cisco TAC でサービス リクエストをオープンする登録ユーザ専用)場合には、必ず次の情報を提供してください。
  • サービス リクエストをオープンする前に実施したトラブルシューティング
  • show technical-support の出力(可能な場合はイネーブル モードで)
  • show log の出力、または(可能であれば)コンソールのキャプチャ。
  • ラインカード クラッシュが発生したスロットの execute-on slot [slot #] show tech
収集したデータは、圧縮しないプレーン テキスト形式(.txt)でサービス リクエストに添付してください。 情報をサービス リクエストに添付するには、TAC Service Request Tool登録ユーザ専用)を使用してアップロードします。 Service Request Tool にアクセスできない場合は、電子メールへの添付で、attach@cisco.com に情報を送信できます。この場合は、メッセージの件名(Subject)行にサービスリクエスト番号を記入してください。

注: 手動で上の情報を収集する前にルータをこれとして Cisco 12000 シリーズ インターネット ルータのラインカード クラッシュを、解決するために必要とされる問題の根本的な原因を判別するために必要である重要な情報を失います場合がありますリロードしましたり、またはパワーサイクルを行わないで下さい。

関連するシスコ サポート コミュニティ ディスカッション

シスコ サポート コミュニティは、どなたでも投稿や回答ができる情報交換スペースです。


関連情報


Document ID: 12770