Cisco Nexus 4001I/4005I Switch Module for IBM BladeCenter NX-OS コンフィギュレーション ガイド
オンライン診断の設定
オンライン診断の設定
発行日;2012/05/10 | 英語版ドキュメント(2012/05/09 版) | ドキュメントご利用ガイド | ダウンロード ; この章pdf , ドキュメント全体pdf (PDF - 15MB) | フィードバック

目次

オンライン診断の設定

オンライン ヘルス管理システム(OHMS)

システム ヘルスの初期化

ループバック テストの頻度の設定

ハードウェアの障害処理

テストの実行要件

指定モジュールのテスト

古いエラー通知のクリア

現在のステータスの説明

システム ヘルスの表示

オンボード障害ロギング

OBFL の概要

スイッチの OBFL の設定

OBFL ログの表示

デフォルト設定値

オンライン診断の設定

この章では、オンライン診断機能を設定する方法について説明します。

この章で説明する内容は、次のとおりです。

「オンライン ヘルス管理システム(OHMS)」

「オンボード障害ロギング」

オンライン ヘルス管理システム(OHMS)

Online Health Management System(OHMS; オンライン ヘルス管理システム)は、ハードウェアによる障害の検出および回復機能です。この機能により、スイッチの一般的なヘルスを保証します。

ここでは、次の内容について説明します。

「システム ヘルスの初期化」

「ループバック テストの頻度の設定」

「ハードウェアの障害処理」

「テストの実行要件」

「指定モジュールのテスト」

「古いエラー通知のクリア」

「現在のステータスの説明」

「システム ヘルスの表示」

OHMS は、システム ハードウェアを次のようにモニタリングします。

OHMS アプリケーションは、スイッチのデーモン プロセスを起動し、複数のテストを実行します。これらのテストは、事前に設定されたインターバルで実行され、すべての主要な障害ポイントを対象として、障害が発生している MDS スイッチのコンポーネントを隔離します。OHMS は、スイッチの他のすべての OHMS コンポーネントを制御した状態で保持します。

障害を検出すると、システム ヘルス アプリケーションは次のリカバリ アクションを試行します。

障害が発生しているコンポーネントを隔離するための追加のテストを実行します。

回復できない場合は、コール ホーム通知、システム メッセージ、および例外ログを送信し、障害が発生しているコンポーネント(イーサネット インターフェイスなど)のテストをシャットダウンして中止します。

障害を検出すると、ただちにコール ホーム メッセージ、システム メッセージ、および例外ログを送信します。

障害が発生しているコンポーネント(イーサネット インターフェイスなど)をシャットダウンします。

詳細なテストが実行されないように、障害が発生したポートを隔離します。

その障害を適切なソフトウェア コンポーネントに報告します。

テストの実行統計情報を表示、テスト、および取得し、スイッチのシステム ヘルス テスト設定を変更するための Command Line Interface(CLI; コマンドライン インターフェイス)を提供します。

問題領域に焦点を当てるためのテストを実行します。

スイッチは、関連するテストを実行するように設定されています。必要に応じて、テストのデフォルト パラメータを変更できます。

システム ヘルスの初期化

スイッチでは、システム ヘルス機能はデフォルトでイネーブルになっています。

スイッチでこの機能をイネーブルまたはディセーブルにする手順は、次のとおりです。

コマンド
目的

ステップ 1

switch# config terminal

switch(config)#

コンフィギュレーション モードを開始します。

ステップ 2

switch(config)# no system health

System Health is disabled.

このスイッチでテストを実行できないようにシステム ヘルスを設定します。

switch(config)# system health

System Health is enabled.

このスイッチでテストを実行できるようにシステム ヘルスを設定します(デフォルト)。

ステップ 3

switch(config)# no system health interface ethernet 1/1

System health for interface ethernet1/1 is disabled.

イーサネット インターフェイスのテストを実行できないようにシステム ヘルスを設定します。

ループバック テストの頻度の設定

ループバック テストでは、モジュールのデータ パスのハードウェア エラーを識別します。事前に設定された頻度で、ループバック フレームが各モジュールに 1 つ送信されます。このフレームは、イーサネット インターフェイスを通過します。

ループバック テストは 60 秒(デフォルト)~ 255 秒の範囲の頻度で実行できます。ループバックの頻度を設定しない場合、デフォルトの頻度(60 秒)がスイッチに適用されます。スイッチのループバック テストの頻度は変更可能です。

スイッチのループバック テストの頻度を設定する手順は、次のとおりです。

コマンド
目的

ステップ 1

switch# config terminal

switch(config)#

コンフィギュレーション モードを開始します。

ステップ 2

switch(config)# system health loopback frequency 60

The new frequency is set at 60 Seconds.

ループバック頻度を 60 秒に設定します。デフォルトのループバック頻度は 60 秒です。指定できる範囲は 60 ~ 255 秒です。

ハードウェアの障害処理

failure-action コマンドは、テストの実行中にハードウェア障害が発見された場合に、Cisco NX-OS ソフトウェアによる処理の実行を抑制します。

スイッチでは、この機能はデフォルトでイネーブルになっています。つまり、障害が発見されると処理が実行され、詳細なテストを行うために障害が発生したコンポーネントが隔離されます。

障害処理は、スイッチ全体で制御されます。

スイッチの障害処理を設定する手順は、次のとおりです。

コマンド
目的

ステップ 1

switch# config terminal

switch(config)#

コンフィギュレーション モードを開始します。

ステップ 2

switch(config)# system health failure-action

System health global failure action is now enabled.

障害処理を実行できるようにスイッチを設定します(デフォルト)。

ステップ 3

switch(config)# no system health failure-action

System health global failure action now disabled.

障害処理が実行されないようにスイッチの設定を取り消します。

ステップ 4

switch(config)# system health module 1 failure-action

System health failure action for module 1 is now enabled.

モジュール 1 の障害処理を実行できるようにスイッチを設定します。

ステップ 5

switch(config)# no system health module 1 loopback failure-action

System health failure action for module 1 loopback test is now disabled.

モジュール 1 のループバック テストによって発見された障害に対する障害処理を実行しないようにスイッチを設定します。

テストの実行要件

テストをイネーブルにしても、テストの実行が保障されるわけではありません。

特定のインターフェイスまたはモジュールのテストが実行されるのは、次のすべての項目に対してシステム ヘルスをイネーブルにしている場合だけです。

スイッチ全体

必要なモジュール

必要なインターフェイス


ヒント 上記のいずれかによってシステム ヘルスがディセーブルになっている場合、テストは実行されません。システム ヘルスでテストの実行がディセーブルになっている場合、テスト ステータスはディセーブル(Disabled)と表示されます。


ヒント スイッチまたはイーサネット インターフェイスでテストの実行がイネーブルになっているが、システム ヘルスがディセーブルであるためにテストが実行されない場合、テストはイネーブル(Enabled)と表示されます(実行中(Running)にはなりません)。

指定モジュールのテスト

NX-OS ソフトウェアのシステム ヘルス機能は、次の領域のテストを実行します。

スイッチのブート フラッシュの接続およびアクセス可能性

スイッチ上の各インターフェイスのデータ パスの完全性

管理ポートの接続性

内部接続性を確認するためのユーザによるテスト(イーサネット ポート)

特定のモジュールで必要なテストを実行する手順は、次のとおりです。

コマンド
目的

ステップ 1

switch# config terminal

switch(config)#

コンフィギュレーション モードを開始します。

(注) 次のステップは、任意の順序で実行できます。

(注) それぞれのテストの各種オプションについては、次のステップで説明します。各コマンドは任意の順序で設定できます。説明のため、各種オプションを同じステップに記述しています。

ステップ 2

switch(config)# system health module 1 bootflash

スイッチのブートフラッシュ テストをイネーブルにします。

switch(config)# system health module 1 bootflash frequency 200

スイッチのブートフラッシュ テストの新しい頻度を設定します。

ステップ 3

switch(config)# system health module 1 loopback

スイッチのループバック テストをイネーブルにします。

ステップ 4

switch(config)# system health module 1 management

スイッチの管理テストをイネーブルにします。

古いエラー通知のクリア

イーサネット インターフェイスまたはスイッチのエラー履歴をクリアできます。履歴をクリアすると、障害が発生してテストから除外されていたコンポーネントはすべて再度テストされます。

障害発生時に OHMS が一定期間(たとえば、1 週間)の間処理を実行しないようにオプション failure-action をイネーブルにしていて、指定期間が経過した後でエラー受信を再開する準備が整った場合には、それぞれのテストのシステム ヘルス エラー ステータスをクリアする必要があります。

インターフェイスまたはスイッチで EXECレベルの system health clear-errors コマンドを使用すると、システム ヘルス アプリケーションで記録された古いエラー状態はすべて消去されます。特定のモジュールに対して、 bootflash loopback 、および mgmt のテスト オプションを個別に指定できます。

次の例では、指定されたイーサネット インターフェイスのエラー履歴がクリアされます。

switch# system health clear-errors interface ethernet 1/1
 

次の例では、指定されたモジュールのエラー履歴がクリアされます。

switch# system health clear-errors module 1
 

次の例では、指定されたスイッチの管理テストのエラー履歴がクリアされます。

switch# system health clear-errors module 1 mgmt

現在のステータスの説明

各スイッチまたはテストのステータスは、OHMS テストの現在の設定状態によって異なります( 表 24-1 を参照)。

 

表 24-1 テストおよびモジュールに関する OHMS の設定ステータス

ステータス
説明

Enabled

テストはイネーブルに設定されていますが、現在は実行されていません。

Disabled

テストはディセーブルに設定されています。

Running

テストはイネーブルに設定され、現在実行中です。

Failing

このステートは、実行中のテストで障害が発生しそうな場合に表示されます。このステートは、テストで回復できる可能性があります。

Failed

テストで障害が発生しました。このステートは回復できません。

Stopped

テストは、Cisco NX-OS ソフトウェアによって内部的に停止されました。

Internal failure

このモジュールのテストで、内部障害が発生しました。たとえば、システム ヘルス アプリケーションがテスト手順の一部でソケットをオープンできません。

(注) 内部障害ステータスは、ループバック テストには適用されません。

On demand

システム ヘルス内部ループバック テストを現在実行中です。このコマンドは、オンデマンドで実行できます。

スイッチの各テストのステータスは、 show system health コマンドで表示できます。「システム ヘルスの表示」を参照してください。

システム ヘルスの表示

システム関連のステータス情報を表示するには、 show system health コマンドを使用します(例 24-1例 24-6 を参照)。

例 24-1 スイッチ内のすべてのモジュールの現在のヘルス情報の表示

switch# show system health
 
Current health information for module 1.
 
Test Frequency Status Action
-----------------------------------------------------------------
Bootflash 10 Sec Running Enabled
Management Port 60 Sec Running Enabled
Loopback 60 Sec Running Enabled
-----------------------------------------------------------------
 

例 24-2 指定されたモジュールの現在のヘルス情報の表示

switch# show system health module 1
 
Current health information for module 1.
 
Test Frequency Status Action
-----------------------------------------------------------------
Bootflash 10 Sec Running Enabled
Management Port 60 Sec Running Enabled
Loopback 60 Sec Running Enabled
-----------------------------------------------------------------

例 24-3 すべてのモジュールのヘルス統計情報の表示

switch# show system health statistics
 
Test statistics for module 1
------------------------------------------------------------------------------
Test Name State Frequency Run Pass Fail CFail Errs
------------------------------------------------------------------------------
Bootflash Running 10s 705 705 0 0 0
Management Port Running 60s 117 117 0 0 0
Loopback Running 60s 1504 1493 11 0 0
Loopback Port Status
1 Failed
2 Failed
3 Failed
4 Failed
5 Failed
6 Failed
7 Passed
8 Passed
9 Passed
10 Passed
11 Passed
12 Passed
13 Passed
14 Passed
15 Passed
16 Failed
17 Failed
18 Failed
19 Failed
20 Failed
------------------------------------------------------------------------------
 

例 24-4 指定されたモジュールの統計情報の表示

switch# show system health statistics module 1
 
Test statistics for module 1
------------------------------------------------------------------------------
Test Name State Frequency Run Pass Fail CFail Errs
------------------------------------------------------------------------------
Bootflash Running 10s 706 706 0 0 0
Management Port Running 60s 117 117 0 0 0
Loopback Running 60s 1504 1493 11 0 0
Loopback Port Status
1 Failed
2 Failed
3 Failed
4 Failed
5 Failed
6 Failed
7 Passed
8 Passed
9 Passed
10 Passed
11 Passed
12 Passed
13 Passed
14 Passed
15 Passed
16 Failed
17 Failed
18 Failed
19 Failed
20 Failed
------------------------------------------------------------------------------

例 24-5 スイッチ全体のループバック テストの統計情報の表示

switch# show system health statistics loopback
-----------------------------------------------------------------
Mod Port Status Run Pass Fail CFail Errs
1 20 Running 0 0 0 0 0
-----------------------------------------------------------------
 

例 24-6 指定されたインターフェイスのループバック テスト統計情報の表示

switch# show system health statistics loopback interface ethernet 1/1
-----------------------------------------------------------------
Mod Port Status Run Pass Fail CFail Errs
1 1 Running 0 0 0 0 0
-----------------------------------------------------------------

) ループバック テストでエラーまたは障害が報告されない限り、インターフェイス固有のカウンタはゼロのままです。


例 24-7 スイッチのループバック テスト時間ログの表示

switch# show system health statistics loopback timelog
-----------------------------------------------------------------
Mod Samples Min(usecs) Max(usecs) Ave(usecs)
1 0 0 0 0
-----------------------------------------------------------------
 

例 24-8 指定されたモジュールのループバック テスト時間ログの表示

switch# show system health statistics loopback module 1 timelog
-----------------------------------------------------------------
Mod Samples Min(usecs) Max(usecs) Ave(usecs)
1 0 0 0 0
-----------------------------------------------------------------

オンボード障害ロギング

On-Board Failure Logging(OBFL; オンボード障害ロギング)機能は、障害および環境情報をモジュールの不揮発性メモリに保管します。この情報は、障害が発生したカードの事後分析に役立ちます。

ここでは、次の内容について説明します。

「OBFL の概要」

「スイッチの OBFL の設定」

「OBFL ログの表示」

「デフォルト設定値」

OBFL の概要

OBFL データは、モジュール上の既存の eUSB に保存されます。OBFL では、モジュールのファームウェアで使用できる Persistent Logging(PLOG; 永続的ロギング)機能を使用して eUSB にデータを保存します。保存されたデータを取得するためのメカニズムも提供されます。

OBFL 機能によって保存されるデータは、次のとおりです。

最初の電源投入時刻

ファームウェア、BIOS、Field Programmable Gate Array(FPGA)、および Application-Specific Integrated Circuit(ASIC; 特定用途向け集積回路)のバージョン

カードのシリアル番号

クラッシュのスタック トレース

ソフトウェア エラー メッセージ

ハードウェア例外ログ

環境履歴

OBFL 固有の履歴情報

スイッチの OBFL の設定

スイッチのすべてのモジュールに OBFL を設定する手順は、次のとおりです。

コマンド
目的

ステップ 1

switch# config terminal

switch(config)#

コンフィギュレーション モードを開始します。

ステップ 2

switch(config)# hw-module logging onboard

すべての OBFL 機能をイネーブルにします。

switch(config)# hw-module logging onboard environmental-history

OBFL 環境履歴をイネーブルにします。

switch(config)# hw-module logging onboard obfl-log

ブート動作時間、デバイス バージョン、および OBFL 履歴をイネーブルにします。

switch(config)# no hw-module logging onboard

すべての OBFL 機能をディセーブルにします。

OBFL の設定ステータスを表示するには、 show logging onboard status コマンドを使用します。

switch# show logging onboard status
----------------------------
OBFL Status
----------------------------
Switch OBFL Log: Enabled
 
Module: 1 OBFL Log: Enabled
environmental-history Enabled
exception-log Enabled
obfl-log (boot-uptime/device-version/obfl-history) Enabled
temp error Enabled
stack-trace Enabled
 

OBFL ログの表示

スイッチに保存されている OBFL 情報を表示するには、次のコマンドを使用します。

 

コマンド
目的

show logging onboard boot-uptime

ブートおよび動作時間の情報を表示します。

show logging onboard device-version

デバイス バージョン情報を表示します。

show logging onboard endtime

終了時刻までの OBFL ログを表示します。

show logging onboard environmental-history

環境履歴を表示します。

show logging onboard exception-log

例外ログ情報を表示します。

show logging onboard miscellaneous-error

各種エラー情報を表示します。

show logging onboard obfl-history

履歴情報を表示します。

show logging onboard stack-trace

カーネル スタック トレース情報を表示します。

show logging onboard starttime

指定した開始時刻からの OBFL ログを表示します。

show logging onboard system-health

システム ヘルス情報を表示します。

デフォルト設定値

表 24-2 に、システム ヘルスおよびログのデフォルト設定値を示します。

 

表 24-2 システム ヘルスおよびログのデフォルト設定値

パラメータ
デフォルト

カーネル コアの生成

1 つのモジュール

システム ヘルス

イネーブル

ループバック頻度

60 秒

障害処理

イネーブル