オンライン診断について
オンライン診断では、ハードウェアとデータ パスを検証し、障害のあるデバイスを特定します。
オンライン診断機能の概要
GOLD(総合オンライン診断)フレームワークは、ライブ システムのハードウェア デバイスとデータ パスをテストおよび検証します。
GOLD テストは、次の 3 つのモードで実行できます。
-
ブートアップ
-
ヘルスモニタリング(ランタイムとも呼ばれる)
-
オンデマンド
次に、診断テスト スイートの属性について説明します。
- B/C/*:バイパス ブートアップ レベル テスト / 完全なブートアップ レベル テスト / NA
- P/*:ポートごとのテスト / NA
- S/*:アクティブへの適用のみ / スタンバイ ユニット / NA
- D/N/* - Disruptive test / Non-disruptive test / NA
- H/O/*:常に有効なモニタリング テスト / 条件付きで有効なテスト / NA
- F/* - Fixed monitoring interval test / NA
- X/* - Not a health monitoring test / NA
- E/*:ラインカード テストまで / NA
- L/*:このテストを排他的に実行する / NA
- T/*:オンデマンド テストではない / NA
- A/I/*:モニタリングがアクティブ / モニタリングが / NA
ブートアップ診断
ブートアップ診断は起動中に実行され、Cisco MDS 9700 シリーズ スイッチがモジュールをオンラインにする前に、障害ハードウェアが検出されます。たとえば、デバイスに障害のあるモジュールがある場合、適切なブートアップ診断テストで障害が示されません。
Note |
ブートアップ診断テストは、起動中にトリガーされます。 |
Table 1 で、モジュールおよびスーパーバイザのブートアップ診断テストについて説明します。
診断 |
属性 |
説明 |
||||
---|---|---|---|---|---|---|
ラインカード |
||||||
EOBCPortLoopback |
C**D**X**T* |
EOBC(イーサネット アウトオブバンド接続)インターフェイスの正常性を確認します。 |
||||
OBFL |
C**N**X**T* |
OBFL(オンボード障害ロギング)フラッシュの完全性を確認します。 |
||||
BootupPortLoopback |
CP*N**XE*T* |
PortLoopback テストはモジュールのブートアップ時にだけ実行されます。
|
||||
Supervisor(スーパバイザ) |
||||||
USB |
C**N**X**T* |
モジュールにおける USB コントローラの初期化を確認します。 |
||||
ManagementPortLoopback |
C**D**X**T* |
モジュールの管理インターフェイスの正常性を確認します。 |
||||
EOBCPortLoopback |
C**D**X**T* |
EOBC(イーサネット アウトオブバンド接続)インターフェイスの正常性を確認します。 |
||||
OBFL |
C**N**X**T* |
OBFL(オンボード障害ロギング)フラッシュの完全性を確認します。 |
show module コマンドを実行すると、ブートアップ診断の結果が Online Diag Status として表示されます。個別のテストの結果は、該当するモジュールとテスト ID またはテスト名に対して show diagnostic result コマンドを実行すると表示されます。
ブートアップ診断テストをバイパスするように Cisco MDS 9700 ファミリ スイッチを構成することも、またはすべてのブートアップ診断テストを実行するように設定することもできます。起動診断レベルの設定を参照してください。
ヘルス モニタリング診断
稼働中のシステムの正常性を定期的に検証するために、ヘルスモニタリング(HM)診断はデフォルトで有効になっています。モニタリング間隔(許可された範囲内)は、テストごとに異なるユーザが構成できます。詳細については、ヘルスモニタリング診断テストのアクティブ化を参照してください。診断テストは、ハードウェア エラーとデータ パスの問題を検出します。
ヘルスモニタリング診断は中断を伴いません(データや制御トラフィックは中断させません)。ヘルスモニタリング テストは、ユーザが無効にすることができます。詳細については、ヘルスモニタリング診断テストの非アクティブ化を参照してください。
次の表に、スーパーバイザのヘルスモニタリング診断を示します。
診断 |
デフォルトのテスト実施の間隔 |
属性 |
説明 |
---|---|---|---|
Supervisor(スーパバイザ) |
|||
ASICRegisterCheck |
20 秒 |
***N******A |
スーパーバイザ上の ASIC のスクラッチ レジスタへの読み取りまたは書き込みアクセスを確認します。 |
NVRAM |
5 分 |
***N******A |
スーパーバイザの NVRAM ブロックの健全性を確認します。 |
RealTimeClock |
5 分 |
***N******A |
スーパーバイザ上のリアルタイム クロックが時を刻んでいるかどうかを確認します。 |
PrimaryBootROM |
30 分 |
***N******A |
スーパーバイザ上のプライマリ ブート デバイスの完全性を確認します。 |
SecondaryBootROM |
30 分 |
***N******A |
スーパーバイザ上のセカンダリ ブート デバイスの完全性を確認します。 |
CompactFlash |
30 分 |
***N******A |
Compact Flash デバイスにアクセスできるかどうかを確認します。 |
ExternalCompactFlash |
30 分 |
***N******A |
外部コンパクト フラッシュ デバイスにアクセスできるかどうかを確認します。 |
PwrMgmtBus |
30 秒 |
**MN******A |
スタンバイの電源管理制御バスを確認します。 |
SystemMgmtBus |
30 秒 |
**MN******A |
スタンバイ システム管理バスの使用可能性を確認します。 |
StatusBus |
30 秒 |
**MN******A |
スーパーバイザ、モジュール、およびファブリック カードに対するステータス バイパスによって送信されるステータスを確認します。 |
StandbyFabricLoopback |
30 秒 |
**SN******A |
ファブリック モジュールへのスタンバイ スーパーバイザの接続を確認します。 |
Table 1 では、Cisco MDS 9700 48 ポート 32 Gbps ファイバチャネル スイッチング モジュール Cisco MDS 48 ポート 16 Gbps ファイバチャネル モジュール のヘルスモニタリング診断について説明します。
診断 |
デフォルトのテスト実施の間隔 |
属性 |
説明 |
||
---|---|---|---|---|---|
ラインカード |
|||||
ASICRegisterCheck |
1分 |
***N******A |
モジュール上の ASIC のスクラッチ レジスタへの読み取りまたは書き込みアクセスを確認します。 |
||
PrimaryBootROM |
30 分 |
***N******A |
モジュール上のプライマリ ブート デバイスの完全性を確認します。 |
||
SecondaryBootROM |
30 分 |
***N******A |
モジュール上のセカンダリ ブート デバイスの完全性を確認します。 |
||
SnakeLoopback |
20 分 |
*P*N***E** |
SUP からラインカードのすべてのポートへの接続を確認します。これは、MAC コンポーネントまでのデータ パスの整合性をプログレッシブな方法でチェックします(1 回のテスト実行ですべてのポートが対象になります)。状態に関係なく、すべてのポートで実行されます。 これは無停止テストです。 |
||
IntPortLoopback |
5 分 |
*P*N***E*** |
SUP からラインカードのすべてのポートへの接続を確認します(一度に 1 つのポート)。これは、MAC コンポーネントまでのデータ パスの完全性をチェックします。このテストは、ヘルスモニタリング(HM)モードで実行されるだけでなく、「オンデマンド モード」でトリガーすることもできます。 このテストは無停止です。
|
||
RewriteEngine ループバック |
1分 |
*P*N***E**A |
sup から linecard へのファブリック モジュール上の各リンクの完全性を確認します。 |
Table 2 では、Cisco MDS 48 ポート 10 Gbps ファイバチャネル オーバー イーサネット モジュール のヘルスモニタリング診断について説明します。
診断 |
デフォルトのテスト実施の間隔 |
属性 |
説明 |
||
---|---|---|---|---|---|
ラインカード |
|||||
ASICRegisterCheck |
1分 |
***N******A |
モジュール上の ASIC のスクラッチ レジスタへの読み取りまたは書き込みアクセスを確認します。 |
||
PrimaryBootROM |
30 分 |
***N******A |
モジュール上のプライマリ ブート デバイスの完全性を確認します。 |
||
SecondaryBootROM |
30 分 |
***N******A |
モジュール上のセカンダリ ブート デバイスの完全性を確認します。 |
||
PortLoopback |
15 分 |
*P*D***E**A |
SUP からラインカードのすべてのポートへの接続を確認します。PHY までのデータ パスの完全性をチェックします。このテストは、ヘルスモニタリング(HM)モードで実行されるだけでなく、「オンデマンド モード」でトリガーすることもできます。(管理上)ダウンしているポートでのみ実行されます。 これは、中断を伴うテストです。
|
||
RewriteEngine ループバック |
1分 |
*P*N***E**A |
ファブリック モジュールを介して、ラインカードまたは sup とラインカード間の各リンクの完全性を確認します。 |
||
SnakeLoopback |
20 分 |
*P*N***E** |
SUP からラインカードのすべてのポートへの接続を確認します。これは、プログレッシブな方法で MAC コンポーネントまでのデータ パスの完全性をチェックします。状態に関係なく、すべてのポートで実行されます。 これは無停止テストです。 |
オンデマンド診断
すべてのヘルスモニタリング テストをオンデマンドでも実行できます。オンデマンド診断は、ユーザによって呼び出された場合にのみ実行されます。
Cisco MDS 48 ポート 32 Gbps ファイバチャネル モジュール:オンデマンド モードでのみ呼び出すことができるテストは 2 つだけです。 Table 1 を参照してください。
Cisco MDS 48 ポート 16 Gbps ファイバチャネル モジュール:オンデマンド モードでのみ呼び出すことができるテストは 2 つだけです。 Table 1 を参照してください。
Cisco MDS 48 ポート 10 Gbps ファイバチャネル オーバー イーサネット モジュール:オンデマンド モードでのみ呼び出すことができるテストはありません。
Note |
他のヘルスモニタリング テストでは検証されないデータ パス(PHY および SFP)は、PortLoopback および ExtPortLoopback テストで検証できます。 |
必要なときにいつでもオンデマンド診断を実行できます。詳細については、オンデマンド診断テストの開始または中止を参照してください。
Cisco MDS 48 ポート 16 Gbps ファイバチャネル モジュール Cisco MDS 48 ポート 32 Gbps ファイバチャネル モジュールでは、PortLoopback テストと ExtPortLoopback テストの両方がオンデマンド モードでのみ使用可能です。これらは中断を伴うためです。
Table 1 に、Cisco MDS 48 ポート 16 Gbps ファイバチャネル モジュールのオンデマンド診断(モジュールのみ)について説明します。 Cisco MDS 48 ポート 32 Gbps ファイバチャネル モジュール
診断 |
属性 |
説明 |
||||
---|---|---|---|---|---|---|
ラインカード |
||||||
PortLoopback |
*P*D**XE*** |
sup からモジュールのすべてのポートへの接続を確認します。PHY までのデータ パスの完全性をチェックします。このテストは、「オンデマンド モード」でのみ利用できます。テストは、ポートの状態に関係なく、すべてのポートで実行されます。
|
||||
ExtPortLoopback |
*P*D**XE*** |
SFP を含む PHY までのデータ パス全体のハードウェア エラーを識別します。
|
Caution |
PortLoopback および ExtPortLoopback テストは、診断操作のためにポートをダウンさせるため、中断を伴います。 |
指定されたヘルスモニタリング診断でのリカバリ アクション
ヘルスモニタリング診断テストが最大 10 回のしきい値で連続して失敗すると、EEM を介してデフォルト アクションが実行されます。これには、アラートの生成(callhome、syslog)およびロギング(OBFL、例外ログ)が含まれます。また、診断テストは失敗したインスタンス(ポート、ファブリック、またはデバイス)で無効化されます。
これらのアクションは有益ですが、ネットワーク中断、トラフィック ブラックホールなどの結果が生じるデバイス障害をライブ システムから除くものではありません。
Note |
テスト結果をクリアし、非アクティブ化してから、同じモジュールでテストをアクティブ化することにより、失敗したインスタンスのヘルスモニタリング テストを再開します。詳細については、診断結果の消去、ヘルスモニタリング診断テストの非アクティブ化、および ヘルスモニタリング診断テストのアクティブ化 を参照してください。 |
Cisco MDS NX-OS リリース 6.2(11) 以降では、次のヘルスモニタリング テストのいずれかで、連続して失敗するしきい値の数に達した後に、デフォルト アクションに加えて修正(リカバリ)アクションを実行するようにシステムを構成できます。
- PortLoopback テスト(Cisco MDS 48 ポート 10 Gbps FCoE モジュールでのみサポート)
- RewriteEngineLoopback テスト
- StandbyFabricLoopback テスト
- 内部 PortLoopback テスト
Note |
修正(リカバリ)アクションは、デフォルトで無効になっています。 |
スーパーバイザの修正(リカバリ)アクション
sup の修正アクションは次のとおりです。
StandbyFabricLoopback テスト:システムはスタンバイ スーパーバイザをリロードし、3 回再試行した後、スタンバイ スーパーバイザの電源をオフにします。
Note |
リロード後、スタンバイ スーパーバイザがオンラインになると、ヘルスモニタリング診断がデフォルトで開始されます。 |
Note |
1 回の再試行は、スタンバイ スーパーバイザをリロードする完全なサイクルと、それに続く StandbyFabricLoopback テストの連続失敗のしきい値数を意味します。 |
Cisco MDS 48 ポート 32 Gbps ファイバチャネル モジュールの修正(リカバリ)アクション
各テストの修正アクションは次のとおりです。
-
内部 PortLoopback テスト:システムは、障害が発生したポートを停止し、診断障害状態にします。
-
RewriteEngineLoopback テスト:システムは、障害のあるコンポーネント(スーパーバイザまたはファブリック)に応じた異なる修正アクションを行います。
-
スタンバイ スーパーバイザを搭載したシャーシ(ha-standby 状態)では、システムがアクティブ スーパーバイザの障害を検出すると、システムはスイッチオーバーをトリガーし、スタンバイ スーパーバイザに切り替えます。シャーシにスタンバイ スーパーバイザがない場合、システムはアクションを実行しません。
-
(注) |
PortLoopback テストは、Cisco MDS 48 ポート 32 Gbps ファイバチャネル モジュールのオンデマンド モードでのみ使用できるため、修正アクションはサポートされていません。 |
(注) |
Cisco MDS NX-OS リリース 6.2(13) 以降、RewriteEngineLoopback テストと RewriteEngineLookpback テストの修正アクションが Cisco MDS 48 ポート 32 Gbps ファイバチャネル モジュールでサポートされます。 |
Cisco MDS 48 ポート 16 Gbps ファイバチャネル モジュールの修正(リカバリ)アクション
各テストの修正アクションは次のとおりです。
- 内部 PortLoopback テスト:システムは、障害が発生したポートを停止し、診断障害状態にします。
- RewriteEngineLoopback テスト:システムは、障害のあるコンポーネント(スーパーバイザまたはファブリック)に応じた異なる修正アクションを行います。
- スタンバイ スーパーバイザを搭載したシャーシ(ha-standby 状態)では、システムがアクティブ スーパーバイザの障害を検出すると、システムはスイッチオーバーをトリガーし、スタンバイ スーパーバイザに切り替えます。シャーシにスタンバイ スーパーバイザがない場合、システムはアクションを実行しません。
Note |
PortLoopback テストは、Cisco MDS 48 ポート 16 Gbps ファイバチャネル モジュールのオンデマンド モードでのみ使用できるため、修正アクションはサポートされていません。 |
Note |
Cisco MDS NX-OS リリース 6.2(13) 以降、RewriteEngineLoopback テストと RewriteEngineLookpback テストの修正アクションが Cisco MDS 48 ポート 16 Gbps ファイバチャネル モジュールでサポートされます。 |
Cisco MDS 48 ポート 10 Gbps FCoE モジュールの修正(リカバリ)アクション
- PortLoopback テスト:システムは、障害が発生したポートを停止し、エラー無効化状態にします。
- RewriteEngineLoopback テスト:システムは、障害のあるコンポーネント(スーパーバイザまたはファブリック)に応じた異なる修正アクションを行います。
- スタンバイ スーパーバイザを搭載したシャーシ(ha-standby 状態)では、システムがアクティブ スーパーバイザの障害を検出すると、システムは「スイッチオーバー」をトリガーし、スタンバイ スーパーバイザに切り替えます。シャーシにスタンバイ スーパーバイザがない場合、システムはアクションを実行しません。
Note |
シャーシに存在するスタンバイ スーパーバイザの電源が、(StandbyFabricLoopback テストに関連する)修正アクションに応じてオフになっている場合、システムは何のアクションも実行しません。 |
-
- RewriteEngineLoopback テストが 10 回連続して失敗した後、障害のあるコンポーネントがファブリック モジュールであると判断されると、その特定のファブリック モジュールがリロードされます。この 10 回の連続した障害とリロードのサイクルが 3 回連続して発生し、ファブリック モジュールの電源が切断されます。
- PortLoopback テストが 10 回連続して失敗した後、障害のあるコンポーネントがポートであると判断された場合、システムは障害のあるポートを error-disabled 状態に移行します。
高可用性
高可用性の重要な機能は、稼働しているシステムでハードウェア障害を検出して、修正アクションを行うことです。GOLD は、ハードウェア障害を検出し、スイッチオーバーの決定を行うためにソフトウェア コンポーネントにフィードバックを提供することにより、システムの高可用性に貢献します。
Cisco MDS 9700 ファミリ スイッチは、再起動後に実行構成を適用することにより、GOLD のステートレスな再起動をサポートします。スーパーバイザのスイッチオーバーの後、GOLD は新しいアクティブ スーパーバイザから診断を再開します。