オンライン診断の設定

この章は、次の項で構成されています。

オンライン診断について

オンライン診断では、スイッチの起動時またはリセット時にハードウェア コンポーネントを確認し、通常の動作時にはハードウェアの状態を監視します。

Cisco Nexus シリーズ スイッチは、起動時診断および実行時診断をサポートします。起動時診断には、システム起動時とリセット時に実行する、中断を伴うテストおよび非中断テストが含まれます。

実行時診断(ヘルス モニタリング診断)には、スイッチの通常の動作時にバックグラウンドで実行する非中断テストが含まれます。

ブートアップ診断

起動時診断は、スイッチをオンラインにする前にハードウェアの障害を検出します。起動診断では、スーパーバイザと ASIC の間のデータ パスと制御パスの接続も確認します。次の表に、スイッチの起動時またはリセット時にだけ実行される診断を示します。

表 1. ブートアップ診断

診断

説明

PCIe

PCI express(PCIe)アクセスをテストします。

NVRAM

NVRAM(不揮発性 RAM)の整合性を確認します。

インバンド ポート

インバンド ポートとスーパーバイザの接続をテストします。

管理ポート

管理ポートをテストします。

メモリ

DRAM の整合性を確認します。

起動時診断には、ヘルス モニタリング診断と共通するテスト セットも含まれます。

起動時診断では、オンボード障害ロギング(OBFL)システムに障害を記録します。また、障害により LED が表示され、診断テストのステート(on、off、pass、または fail)を示します。

起動診断テストをバイパスするように Cisco Nexus デバイス を設定することも、またはすべての起動診断テストを実行するように設定することもできます。

ヘルス モニタリング診断

ヘルス モニタリング診断では、スイッチの状態に関する情報を提供します。実行時のハードウェア エラー、メモリ エラー、ソフトウェア障害、およびリソースの不足を検出します。

ヘルス モニタリング診断は中断されずにバックグラウンドで実行され、ライブ ネットワーク トラフィックを処理するスイッチの状態を確認します。

次の表に、スイッチのヘルス モニタリング診断を示します。

表 2. ヘルス モニタリング診断テスト

診断

説明

LED

ポートおよびシステムのステータス LED を監視します。

電源モジュール

電源装置のヘルス ステータスを監視します。

温度センサー

温度センサーの読み取り値を監視します。

テスト ファン

ファンの速度およびファンの制御をモニタします。


(注)  

スイッチが吸気温度のしきい値に達し、120 秒の制限内には温度が低下しない場合、スイッチを復旧するには、スイッチの電源をオフにして、電源装置を再装着する必要があります。

次の表に、システム起動時とリセット時にも実行されるヘルス モニタリング診断を示します。

表 3. ヘルス モニタリングおよび起動時診断テスト

診断

説明

SPROM

バックプレーンとスーパーバイザ SPROM の整合性を確認します。

ファブリック エンジン

スイッチ ファブリック ASIC をテストします。

ファブリック ポート

スイッチ ファブリック ASIC 上のポートをテストします。

転送エンジン

転送エンジン ASIC をテストします。

転送エンジン ポート

転送エンジン ASIC 上のポートをテストします。

前面ポート

前面ポート上のコンポーネント(PHY および MAC など)をテストします。


(注)  

スイッチが 70 度(摂氏)の内部温度しきい値を超え、120 秒以内にしきい値の制限以下に温度が低下しない場合、スイッチを復旧するには、スイッチの電源をオフにして、スイッチの電源を再投入する必要があります。

拡張モジュール診断

スイッチの起動時またはリセット時の起動時診断には、スイッチのインサービス拡張モジュールのテストが含まれます。

稼働中のスイッチに拡張モジュールを挿入すると、診断テスト セットが実行されます。次の表に、拡張モジュールの起動時診断を示します。これらのテストは、起動時診断と共通です。起動時診断が失敗した場合、拡張モジュールはサービス状態になりません。

表 4. 拡張モジュールの起動時診断およびヘルス モニタリング診断

診断

説明

SPROM

バックプレーンとスーパーバイザ SPROM の整合性を確認します。

ファブリック エンジン

スイッチ ファブリック ASIC をテストします。

ファブリック ポート

スイッチ ファブリック ASIC 上のポートをテストします。

転送エンジン

転送エンジン ASIC をテストします。

転送エンジン ポート

転送エンジン ASIC 上のポートをテストします。

前面ポート

前面ポート上のコンポーネント(PHY および MAC など)をテストします。

ヘルス モニタリング診断は、IS 拡張モジュールで実行されます。次の表で、拡張モジュールのヘルス モニタリング診断に固有の追加のテストについて説明します。

表 5. 拡張モジュールのヘルス モニタリング診断

診断

説明

LED

ポートおよびシステムのステータス LED を監視します。

温度センサー

温度センサーの読み取り値を監視します。

オンライン診断の注意事項と制約事項

オンライン診断には、次の注意事項と制限事項があります。

  • 中断を伴うオンライン診断テストをオンデマンド方式で実行することはできません。

  • BootupPortLoopback テストはサポートされていません。

  • インターフェイス Rx および Tx パケット カウンタは、シャットダウン状態のポートで増えます(およそ 15 分ごとに 4 パケット)。

  • 管理ダウン ポートでは、ユニキャスト パケット Rx および Tx のカウンタが、GOLD ループバック パケットに対して追加されます。PortLoopback テストがオン デマンドなのは Cisco NX-OS 7.0(3)I1(2) より前のリリースであるため、パケット カウンタが追加されるのは、テストを管理ダウン ポートで実行する場合だけです。Cisco NX-OS リリース 7.0(3)I1(2) 以降では PortLoopback テストは定期的に行われるため、パケット カウンタは管理ダウン ポートで 30 分ごとに追加されます。テストは管理ダウン ポートでのみ実行されます。ポートが閉じられている場合は、カウンタは影響を受けません。

オンライン診断の設定

完全なテスト セットを実行するよう起動時診断を設定できます。もしくは、高速モジュール起動時のすべての起動時診断テストをバイパスできます。


(注)  

起動時オンライン診断レベルを complete に設定することを推奨します。起動時オンライン診断をバイパスすることは推奨しません。


手順

  コマンドまたはアクション 目的
ステップ 1

switch# configure terminal

グローバル コンフィギュレーション モードを開始します。

ステップ 2

switch(config)# diagnostic bootup level [complete | bypass ]

デバイスの起動時に診断を実行するよう起動時診断レベルを次のように設定します。

  • complete:すべての起動時診断を実行します。これはデフォルト値です。

  • bypass:起動時診断を実行しません。

ステップ 3

(任意) switch# show diagnostic bootup level

(任意)

現在、スイッチで実行されている起動時診断レベル(bypass または complete)を表示します。

次に、完全な診断を実行するよう起動時診断レベルを設定する例を示します。

switch# configure terminal
switch(config)# diagnostic bootup level complete
 

オンライン診断設定の確認

オンライン診断の設定情報を確認するには、次のコマンドを使用します。

コマンド

目的

show diagnostic bootup level

起動時診断レベルを表示します。

show diagnostic result module slot

診断テストの結果を表示します。

オンライン診断のデフォルト設定

次の表に、オンライン診断パラメータのデフォルト設定を示します。

表 6. デフォルトのオンライン診断パラメータ

パラメータ(Parameters)

デフォルト

起動時診断レベル

complete

パリティ エラーの診断

パリティ エラーのクリア

hardware profile parity-error {l2-table | l3-table} clear コマンドを使用して、パリティ エラーが検出された場合、対応するレイヤ 2 またはレイヤ 3 テーブル エントリ(0 付き)をクリアできます。このコマンドは、実行コンフィギュレーションでのシステムの起動時に有効です。また、このコマンドは有効にする必要があるため、設定を保存後、システムを再起動してコマンドを有効にします。


重要

このコマンドは、Cisco NX-OS リリース 6.0(2)U2(1) 以降のバージョンではサポートされていません。


次のガイドラインが適用されます。
  • l2_entry テーブルにこのコマンドが使用されている場合、トラフィック パターンのためにクリアされたエントリを再学習する必要があります。

  • l3_entry_only(ホスト)テーブルにこのコマンドが使用されている場合、クリアされたエントリは再学習されません。

このコマンドは、次のお客様の設定で役立ちます。
  • L2_Entry テーブル(スタティック L2_entry テーブル エントリなし)

    L2_Entry テーブル エントリがクリアされている場合、エントリはトラフィック パターンから動的に学習する必要があります。IGMP やマルチキャストから学習することはできません。

  • L3_Entry_only(ホスト)テーブル

    お客様はホスト テーブルを使用できません。hardware profile unicast enable-host-ecmp コマンドを有効にする必要があります。この場合、カスタマー ノードの L3_Entry_only テーブルには有効なエントリが存在しないため、L3_Entry_only エントリ テーブルをクリアしても何の影響も生じません。

手順

  コマンドまたはアクション 目的
ステップ 1

switch# configure terminal

グローバル コンフィギュレーション モードを開始します。

ステップ 2

switch(config)# hardware profile parity-error l2-table clear

レイヤ 2 テーブルのパリティ エラー エントリをクリアします。

ステップ 3

switch(config)# hardware profile parity-error l3-table clear

レイヤ 3 テーブルのパリティ エラー エントリをクリアします。

次に、レイヤ 2 テーブルのパリティ エラーをクリアする例を示します。

switch# configure terminal
switch(config)# hardware profile parity-error l2-table clear
switch(config)# copy running-config startup-config
switch(config)# reload

次に、レイヤ 3 テーブルのパリティ エラーをクリアする例を示します。

switch# configure terminal
switch(config)# hardware profile parity-error l3-table clear
switch(config)# copy running-config startup-config
switch(config)# reload 

ソフト エラー リカバリ

Cisco NX-OS リリース 6.0(2)U2(1) には、フォワーディング エンジンの内蔵メモリ テーブルにおけるソフト エラーに対するソフトウェア エラー リカバリ(SER)が導入されています。この機能は、デフォルトでイネーブルにされています。

フォワーディング エンジンの内蔵コントロール テーブルとパケット メモリは、エラー訂正コード(ECC)、パリティ保護、またはテーブルのパリティ チェックに基づいたソフトウェア スキャンなど、さまざまなメカニズムによって保護されます。ソフトウェアのキャッシュは、大部分のハードウェア テーブルで保持されます。パリティ エラーおよび ECC エラーは、トラフィックが影響を受けているエントリにヒットすると検出されます。Ternary Content Addressable Memory(TCAM)の場合、CPU によってソフトウェア シャドウ エントリとハードウェア エントリが比較されるときにエラーが検出されます。これらのいずれかのタイプのエラーが検出されると、そのメモリのエラーを報告するための割り込みが発生します。

修正メカニズムは、ハードウェア テーブルごとに異なります。ソフトウェア シャドウがあるハードウェア テーブルの場合は、影響を受けているエントリがソフトウェア キャッシュからコピーされて、割り込みがクリアされます。レイヤ 3 ホスト ルックアップ テーブルや ACL TCAM テーブルなどのハードウェア テーブルは、この方法で検出されて修正されます。ソフトウェア シャドウがないハードウェア テーブルの場合は、影響を受けているエントリがクリアされるか、またはゼロ設定されます。ハードウェア学習されたレイヤ 2 エントリ テーブルなどのハードウェア テーブルおよびカウンタのメモリは、この方法で検出されて修正されます。

パケットのフォワーディング ルックアップ時にハードウェアでパリティ エラーが発生すると、パリティ エラーが発生したテーブルによってはパケットがドロップされます。パリティ エラーの検出から修正までのリカバリ時間は、この場合、1 エントリで 600 マイクロ秒以上かかります。トラフィックがこのエントリにヒットしている場合、この期間のトラフィックは失われます。

パリティ保護されていない TCAM テーブルの場合、パリティ エラーを検出するために、テーブル エントリに対する定期的なソフトウェア スキャンが実行されます。パリティ エラーが検出された場合、影響を受けているメモリ位置がソフトウェア シャドウからコピーされて、エラーが修正されます。ソフトウェア起動のスキャンは 10 秒ごとに行われ、1 回のスキャンで 4,000 エントリがスキャンされます。フォワーディング エンジンには、スキャン対象の TCAM エントリが約 36,000 あります。最悪の場合、これらのテーブルのパリティ エラーを検出して修正するのに 90 秒以上かかります。リカバリ時間は、システムの負荷に基づき算出されます。

回復不能なパリティ エラーの場合、次の例のような、syslog イベント通知が生成されます。

2013 Nov 14 12:37:32 switch %USER-3-SYSTEM_MSG: bcm_usd_isr_switch_event_cb_log:658: slot_num 0, event 2, memory error type: Detection(0x1), table name: Ingress ACL result table(0x830004b5), index: 1790  - bcm_usd

メモリ テーブルの状態の確認

ASIC メモリ テーブルで発生したパリティ エラー数の概要を表示するには、次のコマンドを実行します。

コマンド 目的
show hardware forwarding memory health summary

ASIC メモリ テーブルのパリティ エラー数の概要を表示します。

次に、ASIC メモリ テーブルのパリティ エラー数の概要を表示する例を示します。

switch# show hardware forwarding memory health summary
Parity error counters:
Total parity error detections: 7
Total parity error corrections: 7
Total TCAM table parity error detections: 1
Total TCAM table parity error corrections: 1
Total SRAM table parity error detections: 6
Total SRAM table parity error corrections: 6
Parity error summary:
Table ID: L2 table      Detections: 1   Corrections: 1
Table ID: L3 Host table Detections: 1   Corrections: 1
Table ID: L3 LPM table  Detections: 1   Corrections: 1
Table ID: L3 LPM result table   Detections: 1   Corrections: 1
Table ID: Ingress pre-lookup ACL result table   Detections: 1   Corrections: 1
Table ID: Ingress ACL result table      Detections: 1   Corrections: 1
Table ID: Egress ACL result table       Detections: 1   Corrections: 1