ハイ アベイラビリティの概要

CLI を使用して、ハイ アベイラビリティ(HA)ソフトウェア フレームワークと冗長性機能を設定できます。これらの機能には、アプリケーションの再起動性とスーパーバイザの無停止の切り替え可能性が含まれます。シスコの高可用性は、Cisco NX-OS ソフトウェアで提供されるテクノロジーであり、ネットワーク全体の復元力を実現してネットワークの可用性を向上させます。

Cisco MDS マルチレイヤ ディレクタおよびスイッチは、アプリケーションの再起動性とスーパーバイザの無停止切り替え機能をサポートします。スイッチは、冗長ハードウェア コンポーネントと高可用性ソフトウェア フレームワークによってシステム障害から保護されています。

ハイ アベイラビリティ ソフトウェア フレームワークは、次の機能を有効にします:

  • 無停止のソフトウェアアップグレード機能を保証します。

  • デュアル スーパーバイザ モジュールを使用して、スーパーバイザ モジュールの障害に対する冗長性を提供します。

  • 同じスーパーバイザ モジュールで、障害が発生したプロセスの中断のない再起動を実行します。スーパーバイザおよびスイッチング モジュールで実行されるサービスは、設定で定義されたハイ アベイラビリティ ポリシーを追跡し、ポリシーに基づいてアクションを実行します。この機能は、Cisco MDS 9200 および MDS 9100 スイッチでも使用できます。

  • ポート チャネル(ポート集約)機能を使用して、リンク障害から保護します。この機能は、Cisco MDS 9200 および MDS 9100 スイッチでも使用できます。

  • アクティブ スーパーバイザに障害が発生した場合にスイッチオーバーを提供します。スタンバイ スーパーバイザ(存在する場合)は、ストレージまたはホスト トラフィックを中断することなく処理を引き継ぎます。

  • Cisco MDS スイッチがスイッチ内部で発生する CRC エラーを検出し、エラーの原因を特定できるようにします。

スーパーバイザ冗長性

Cisco MDS ディレクタ スイッチには、冗長性を確保するために 2 つのスーパーバイザ モジュールがあります。スイッチの電源が投入され、両方のスーパーバイザ モジュールが存在する場合、最初に起動したスーパーバイザ モジュールがアクティブ モードになり、2 番目に起動したスーパーバイザ モジュールがスタンバイ モードになります。アクティブ モードのスーパーバイザがスイッチを制御します。スイッチのすべてのコンポーネントが正常に動作していることを確認するために必要なすべての機能を実行します。スタンバイ スーパーバイザ モジュールは、常に現用系スーパーバイザ モジュールをモニタリングします。アクティブ スーパーバイザ モジュールが機能不全になると、ユーザー トラフィックに影響を与えることなくスタンバイ スーパーバイザ モジュールに切り替わります。障害が発生したスーパーバイザが回復すると、スタンバイ スーパーバイザになり、新しい現用系スーパーバイザをモニターします。

Cisco MDS NX-OS リリース 8.4(2)より前では、Cisco MDS ディレクタ スイッチ上のスタンバイ スーパーバイザの管理イーサネット リンクがダウンしていました。したがって、管理リンクのピア ポートもダウンしており、未使用ポートと誤認される可能性があります。この未使用のポートは、誤って無効化にされているか、再利用されている可能性があります。スイッチオーバーが発生すると、新しくアクティブになったスーパーバイザの管理リンクは使用できなくなり、新しくアクティブになったスーパーバイザの管理ポートへのアクティブな接続がないため、スイッチは管理できなくなります。

Cisco MDS NX-OS リリース 8.4(2)から Cisco MDS ディレクタ スイッチ上のスタンバイ スーパーバイザのマネジメント イーサネット リンクは、スーバーバイザがスタンバイ ステートに到達した場合に起動します。ただし、IP などの上位層プロトコルは現用系ではありません。これにより、スタンバイ スーパーバイザの管理リンクのピア ポートがアップ状態になり、長期間のダウンによって誤って無効になったり、再利用されたりすることがなくなります。


(注)  


ディレクタ スイッチで高可用性を備えたアウト オブ バンド管理では、両方のスーパーバイザの mgmt0 ポートを同じサブネットまたは仮想 LAN に接続する必要があります。これは、mgmt0 IP アドレスが現在アクティブなスーパーバイザによって使用されるためです。


内部 CRC 検出と分離

Cisco MDS NX-OS リリース 6.2(13)以降では、内部巡回冗長検査(CRC)の検出および分離機能が Cisco MDS 9700 シリーズ スイッチでサポートされています。

この機能により、Cisco MDS スイッチは、スイッチ内部で発生する CRC エラーを検出し、これらのエラーの原因を特定できます。


Note


内部 CRC 検出と分離は、Cisco MDS 9700 シリーズ マルチレイヤ ディレクタでのみサポートされます。


デフォルトでは、内部 CRC 検出と分離は無効になっています。

この機能をサポートするモジュールは次のとおりです:

  • Cisco MDS 9700 48 ポート 16 Gbps ファイバ チャネル スイッチング モジュール

  • Cisco MDS 9700 48 ポート 10-Gbps Fibre Channel over Ethernet スイッチング モジュール

  • Cisco MDS 9700 40 Gbps 24 ポート Fibre Channel over Ethernet スイッチング モジュール

  • Cisco MDS 24/10 ポート SAN 拡張 スイッチング モジュール

  • Cisco MDS 9700 48 ポート 32 Gbps ファイバ チャネル スイッチング モジュール

  • Cisco MDS 9700 ファブリック モジュール 1

  • Cisco MDS 9700 ファブリック モジュール 3

  • Cisco MDS 9700 スーパーバイザ モジュール 1

  • Cisco MDS 9700 スーパーバイザ モジュール 4


Note


モジュールは、 スイッチング モジュールまたはスーパーバイザ モジュールのいずれかを指します。


これらのエラーは、スイッチの外部から到着したフレーム(CRC エラーを含む)とは別のクラスの CRC エラーです。保存モードと転送モードでは、CRC エラーのあるフレームは入力ポートでドロップされ、システムを介して伝播されません。内部 CRC エラーは、フレームがエラーなしで受信されたが、スイッチング パスを通過するときに破損した場合に発生します。

内部 CRC エラーは通常、システムの障害が原因で発生します。このような障害は、モジュールが誤って取り外された場合など、一時的な場合もあれば、モジュールの取り付け不良などの永続的な場合もあります。また、まれに、ハードウェア コンポーネントの障害または障害が発生している場合もあります。エラー率は多くの要因によって異なり、非常に高いものから非常に低いものまでさまざまです。

エラーレートのしきい値はシステム全体の値として設定できますが、エラーの原因を特定するために、モジュールごとに個別のエラー カウントが維持されます。


Note


カウンタは、内部巡回冗長検査(CRC)の検出と分離が最初に設定された時点から 24 時間でリセットされます。

内部 CRC 検出および分離の段階

スイッチで内部 CRC エラーが発生する可能性のある 5 つの段階:

  1. ステージ 1:モジュールの入力バッファ

  2. ステージ 2:モジュールの入力クロスバー

  3. ステージ 3:シャーシの中央クロスバー

  4. ステージ 4:モジュールの出力クロスバー

  5. ステージ 5:モジュールの出力バッファ

Figure 1. 内部 CRC 検出および分離の段階


エラー数がしきい値を超えると、各モジュールのエラーが個別に処理されます。


Note


モジュール上の該当するすべての ASIC のエラーの合計がしきい値を超える必要があります。


エラーが指定されたしきい値を超えると、XBAR_MONITOR_INTERNAL_CRC_ERR がログに記録される syslog メッセージです。この syslog メッセージは、エラーの場所と実行されたアクションのタイプを示します。

例:エラー メッセージ

switch# show logging logfile | inc MONITOR_INTERNAL_CRC_ERR
2015 May 25 21:20:41 switch %XBAR-2-XBAR_MONITOR_INTERNAL_CRC_ERR: Module-1 detects CRC
Error:4 at Egress Q-engine, putting it in failure state
2015 May 25 21:15:35 switch %XBAR-2-XBAR_MONITOR_INTERNAL_CRC_ERR: Fab_slot-12 detects CRC
error:1 at ingress stage2, putting it in failure state
2015 May 25 15:47:10 switch %XBAR-2-XBAR_MONITOR_INTERNAL_CRC_ERR: Module-5 detects CRC
error:2 at Ingress Qengine, Only one Sup is present, bringing down the active VSAN
2015 May 25 15:08:17 switch %XBAR-2-XBAR_MONITOR_INTERNAL_CRC_ERR: Module-5 detects CRC
error:1 at Ingress Qengine, putting it in failure state

ステージ 1:モジュールの入力バッファ

各モジュールには複数の入力バッファがあります。スイッチング モジュールの入力バッファの CRC エラー レートがしきい値に達すると、モジュール全体がシャットダウンします。詳細については 、「しきい値を超えた場合にスーパーバイザで実行されるアクション」を 参照してください。

ステージ 2:モジュールの入力クロスバー

入力クロスバーは、入力バッファからファブリック モジュールにトラフィックを切り替える入力モジュール上の ASIC コンプレックスです。入力スイッチング モジュール クロスバーの CRC エラー率がしきい値に達すると、モジュール全体がシャットダウンされます。詳細については 、「しきい値を超えた場合にスーパーバイザで実行されるアクション」を 参照してください。

ステージ 3:シャーシの中央クロスバー

クロスバーは、トラフィックを入力モジュールから出力モジュールに切り替えるファブリック モジュール上の ASIC コンプレックスです。

クロスバーの CRC エラー レートがしきい値に達すると、対応するスイッチに複数のファブリック モジュールがある場合、ホスト ファブリック モジュールがシャットダウンされます。スイッチにファブリック モジュールが 1 つしかない場合は、エラーが発生したファブリック モジュール リンクに接続されているモジュールがシャットダウンされます。

ステージ 4:モジュールの出力クロスバー

出力クロスバーは、ファブリック モジュールから出力バッファにトラフィックをスイッチングする、出力モジュール上の ASIC コンプレックスです。出力スイッチング モジュール クロスバーの CRC エラー レートがしきい値に達すると、エラーのあるフレームを受信した接続された中央クロスバーの電源が切断されます。詳細については 、「しきい値を超えた場合にスーパーバイザで実行されるアクション」を 参照してください。

ステージ 5:モジュールの出力バッファ

各モジュールには複数の出力バッファがあります。スイッチング モジュールの出力バッファの CRC エラー レートがしきい値に達すると、モジュール全体がシャットダウンします。詳細については 、「しきい値を超えた場合にスーパーバイザで実行されるアクション」を 参照してください。

しきい値を超過した場合にスーパーバイザに起こされるアクション

内部 CRC 検出および分離の次の段階でしきい値を超えた場合にスーパーバイザで実行されるアクション。

  1. ステージ 1:モジュールの入力バッファ

  2. ステージ 2:モジュールの入力クロスバー

  3. ステージ 3:シャーシの中央クロスバー

  4. ステージ 5:モジュールの出力バッファ


Note


  • アクティブ スーパーバイザとスタンバイ スーパーバイザの両方がスイッチに存在する場合、アクティブ スーパーバイザがダウンし、スタンバイ スーパーバイザが引き継ぎます。

  • アクティブなスーパーバイザだけがスイッチに存在する場合(2 番目のスーパーバイザが存在しないか、ダウンしている場合)、すべてのアクティブな VSAN が一時停止され、データ トラフィックが停止します。アクティブ スーパーバイザは、手動デバッグに使用できます。

  • 単一のファブリック モジュールが存在し、ステージ 2 エラーが発生すると、ファブリック モジュールに接続されているライン カードの電源が切断されます。その結果、スイッチがダウンします。このメカニズムは、エラーが発生したスパインに接続されているライン カードがダウンしたときに、障害のあるスパイン ポートまたはリンクを分離するのに役立ちます。


内部 CRC 検出および分離機能の構成については、「内部 CRC 検出と分離の構成」を参照してください。