この製品のマニュアルセットは、偏向のない言語を使用するように配慮されています。このマニュアルセットでの偏向のない言語とは、年齢、障害、性別、人種的アイデンティティ、民族的アイデンティティ、性的指向、社会経済的地位、およびインターセクショナリティに基づく差別を意味しない言語として定義されています。製品ソフトウェアのユーザーインターフェイスにハードコードされている言語、RFP のドキュメントに基づいて使用されている言語、または参照されているサードパーティ製品で使用されている言語によりドキュメントに例外が存在する場合があります。シスコのインクルーシブランゲージに対する取り組みの詳細は、こちらをご覧ください。
このドキュメントは、米国シスコ発行ドキュメントの参考和訳です。リンク情報につきましては、日本語版掲載時点で、英語版にアップデートがあり、リンク先のページが移動/変更されている場合がありますことをご了承ください。あくまでも参考和訳となりますので、正式な内容については米国サイトのドキュメントを参照ください。
この章では、Cisco Unified Computing System(UCS)の障害の概要について説明します。この章の内容は、次のとおりです。
(注) NX-OS 障害メッセージについては、『Cisco NX-OS System Messages Reference』を参照してください。
Cisco UCS では、障害は Cisco UCS Manager によって管理される可変オブジェクトです。障害は、Cisco UCS インスタンスの障害や、発生したしきい値のアラームを表します。障害のライフサイクルの間に、障害の状態または重大度が変化する場合があります。
各障害には、障害の発生時に影響を受けたオブジェクトの動作状態に関する情報が含まれます。障害の状態が移行して解決すると、そのオブジェクトは機能状態に移行します。
障害収集ポリシーの設定に従って、障害がクリアおよび削除されるまで障害は Cisco UCS Manager 内に残ります。
Cisco UCS インスタンス内のすべての障害は、Cisco UCS Manager CLI または Cisco UCS Manager GUI を使用して表示できます。また、障害収集ポリシーを設定して、Cisco UCS インスタンスが障害を収集および保持する方法を決定することもできます。
(注) すべての Cisco UCS 障害は、SNMP によってトラップできます。
Cisco UCS インスタンスで発生した障害は、ライフサイクルの中で複数の重大度に移行する場合があります。 表 1-1 では、発生する可能性のある障害の重大度についてアルファベット順に説明します。
Cisco UCS インスタンスで発生した障害は、 表 1-2 で説明されている種類のいずれかです。
|
|
---|---|
FSM タスクが正常に完了しなかったか、Cisco UCS Manager が FSM の段階の 1 つを再試行しています。 |
|
Cisco UCS Manager は、物理コンポーネントが動作不能であるか、別の機能的な問題があることを検出しました。 |
|
Cisco UCS Manager が、この表に記載されているカテゴリのいずれにも属さない、一般的なエラーを検出しました。 |
|
(注) 上記の表にリストされているエラーは、Cisco UCS MIB にリストされている障害の順序とは、必ずしも一致しないことに注意してください。
Cisco UCS Manager では、Cisco UCS インスタンスで発生した各障害に関する詳細な情報を提供しています。 表 1-3 では、Cisco UCS Manager CLI または Cisco UCS Manager GUI で表示できる障害のプロパティについて説明します。
|
|
---|---|
障害の現在の重大度。これは、表 1-1 で説明した重大度のいずれかになります。 |
|
障害の重大度が最後に変更された日時。障害が発生してから重大度が変更されていない場合、このプロパティは元の作成日を表します。 |
|
障害状態に関する追加情報。これは、表 1-4 で説明した状態のいずれかになります。 |
|
発生した障害の種類。これは、表 1-2 で説明した種類のいずれかになります。 |
|
Cisco UCS の障害はステートフルで、Cisco UCS インスタンスで発生した障害は、ライフサイクルの中で複数の状態に移行します。また、各オブジェクトには、特定の障害のインスタンスが 1 つだけ存在できます。同じ障害が 2 度発生すると、Cisco UCS は発生回数を 1 つ増やします。
1. ある状況がシステムで発生し、Cisco UCS でアクティブ状態の障害が発生します。
2. 障害がフラッピング間隔と呼ばれる短期間で緩和された場合、障害の重大度は元のアクティブな値のままですが、障害はソーキング状態になります。ソーキング状態は、障害が発生した状態がクリアされたが、システムは障害状態が再発するかどうかの確認を待機していることを示します。
3. フラッピング間隔にその状態が再発すると、障害はフラッピング状態になります。障害が発生し、すぐに何度かクリアされると、フラッピングが発生します。フラッピング間隔中に同じ状態が再発しない場合は、障害がクリアされます。
4. クリアされた障害は保持期間になります。この期間は、障害が発生した状態が緩和された場合でも管理者が障害に気付くようにしたり、障害が早々に削除されないようにするためのものです。保持期間のうち、障害収集ポリシーに指定された期間はクリアされた障害が保持されます。
5. 保持期間にその状態が再発すると、障害はアクティブな状態を返します。この状況が再発生しない場合は、障害が削除されます。
障害がアクティブな場合、 表 1-4 に示す追加のライフサイクル状態情報が障害通知の [Status] フィールドに表示される可能性があります。
|
|
---|---|
短い間隔で障害が発生してクリアされました。これはフラッピング間隔と呼ばれます。これはフラッピング状態の可能性があるため、障害の重大度は元のアクティブな値のままですが、この状態は障害が発生した状態がクリアされたことを示します。 |
|
障害収集ポリシーは、フラッピング間隔や保持期間に障害を保持する時間など、Cisco UCS インスタンスでの障害のライフサイクルを制御します。
ヒント 障害収集ポリシーの設定方法については、『Cisco UCS B-Series Servers Documentation Roadmap』からアクセスできる Cisco UCS の設定ガイドを参照してください。
システム内の 1 つのオブジェクトの障害を表示する場合は、Cisco UCS Manager GUI でそのオブジェクトにナビゲートして、[Work] ペインの [Faults] タブをクリックします。システム内のすべてのオブジェクトの障害を表示するには、[Faults, Events and Audit Log] の下の [Admin] タブにある [Faults] ノードにナビゲートします。
また、すべての障害の要約は Cisco UCS インスタンスで表示できます。Cisco UCS Manager GUI の左上にある [Fault Summary] 領域に移動します。この領域には、Cisco UCS インスタンスで発生したすべての障害の要約が表示されます。
障害の重大度は、それぞれ異なるアイコンで表示されます。各アイコンの下の数字は、システム内でその重大度の障害が発生した回数を示します。アイコンをクリックすると、Cisco UCS Manager GUI によって [Work] ペインの [Faults] タブが開かれ、その重大度のすべての障害の詳細が表示されます。
システム内のすべてのオブジェクトの障害を表示する場合は、最上位レベルのスコープで show fault コマンドを入力します。特定のオブジェクトの障害を表示する場合は、そのオブジェクトのスコープに移動して、 show fault コマンドを入力します。
フォールト抑制を使用すると、予定されたメンテナンス時間中に SNMP トラップおよび Call Home 通知を抑制することができます。フォールト抑制タスクを作成し、一時的な障害がレイズまたはクリアされるたびに通知が送信されることを防止できます。
障害は、期限切れになるか、フォールト抑制タスクがユーザによって手動で停止されるまで抑制されたままになります。フォールト抑制が終了すると、Cisco UCS Manager はクリアされなかった未処理の抑制された障害に関する通知を送信します。『Cisco UCS Manager GUI System Monitoring Guide, Release 2.2』および『Cisco UCS Manager CLI System Monitoring Guide, Release 2.2』にフォールト抑制に関する詳細な情報が記載されています。
有限ステート マシン(FSM)とはワークフロー モデルを表し、フロー チャートと似ています。FSM は次の内容で構成されています。
FSM での現在の段階は、過去の段階と、段階を遷移する際に実行された動作によって決まります。ある段階から別の段階への遷移は、動作の成功または失敗によって決まります。
Cisco UCS Manager は、データ管理エンジン(DME)で実行する FSM タスクを使用して、次の内容を含む UCS オブジェクト モデルのエンド ポイントを管理します。
DME は FSM の段階と遷移を管理し、管理対象のエンド ポイントで操作を実行するようにアプリケーション ゲートウェイ(AG)に指示します。そのため、各段階は、DME、AG、および管理対象エンド ポイント間の対話であると考えることができます。AG は、CIMC、アダプタ、I/O モジュールなどの管理対象エンド ポイントとの対話という実際の作業を行います。
FSM の段階すべてが正常に実行された場合は、Cisco UCS によって FSM 操作が成功したと見なされます。
ある段階で FSM にエラーやタイムアウトが発生した場合、FSM はスケジュール設定された間隔でその段階を再試行します。その段階の再試行回数が最大値 20 に達すると、FSM は停止し、Cisco UCS Manager は変更が失敗したことを宣言します。FSM タスクが失敗すると、Cisco UCS Manager は適切な障害とアラームを発生させます。
複数の FSM タスクを 1 つのエンド ポイントに関連付けることができます。ただし、一度に実行できる FSM タスクは 1 つだけです。同じエンド ポイントのその他の FSM タスクはキューに配置され、前の FSM タスクが正常に完了するか失敗してから実行されるようにスケジュールされます。
特定のエンド ポイントの FSM の詳細を表示して、タスクが成功したかどうかを判断できます。また、FSM を使用して任意のエラーのトラブルシューティングを行うこともできます。
Fsm ObjectWorkflowOperationWhere-is-it-executed
FSM の段階名には、FSM を識別するプレフィックスと、FSM 内の段階を識別するサフィックスがあります。プレフィックスの表記法は Fsm ObjectWorkflow で、サフィックスの表記法は OperationWhere-is-it-executed です。たとえば、FSM 名が FsmComputeBladeDiscoverBmcInventory である場合は次のようになります。
Cisco UCS Manager GUI では、エンドポイントの [FSM] タブにエンド ポイントの FSM 情報が表示されます。[FSM] タブを使用して、現在の FSM タスクの経過や状態を監視したり、保留中の FSM タスクのリストを表示できます。
Cisco UCS Manager GUI の現在の FSM タスクの情報は動的に変化し、タスクの経過に合わせて変更されます。現在の FSM タスクに関する次の情報を表示できます。
FSM をサポートするエンドポイントの FSM タスクを表示するには、[Navigation] ペインでエンド ポイントにナビゲートし、[Work] ペインで [FSM] タブをクリックします。
Cisco UCS Manager CLI では、対象のエンド ポイントのコマンド モードを使用しているときに、エンド ポイントの FSM 情報を表示できます。
エンド ポイントの現在の FSM タスクを表示するには、適切なモードで show fsm status コマンドを入力します。CLI で表示される現在の FSM タスクの情報は、静的な情報です。経過の更新情報を確認するには、コマンドを再入力する必要があります。次の例では、シャーシ 1、スロット 6 にあるサーバの現在の FSM タスクに関する情報を表示します。
FSM のキューにある保留中のタスクをすべて表示するには、適切なモードで show fsm task コマンドを入力します。次の例では、シャーシ 1、スロット 6 にあるサーバの FSM タスク キューを表示します。