Cisco Prime Collaboration Manager 1.0 ユーザ ガイド
障害管理について
障害管理について
発行日;2012/05/09 | 英語版ドキュメント(2011/04/26 版) | ドキュメントご利用ガイド | ダウンロード ; この章pdf , ドキュメント全体pdf (PDF - 2MB) | フィードバック

目次

障害管理について

障害管理について

企業ネットワークの管理における一般的な問題は、単一の障害が、Network Management System(NMS; ネットワーク管理システム)での複数のアラームとして現れることです。これによって、手動による障害の分析が高くつき、さらに主要な問題から注意がそれることになります。ハードウェアの障害やソフトウェアの障害など、多くの種類の問題によってサービスの配信が脅かされます。

Cisco Prime Collaboration Manager は、ほぼリアルタイムで、迅速かつ正確な障害検出を実現します。Cisco Prime CM は、イベントの特定後に、関連するイベントをグループ化し、障害分析を実行してビデオ コラボレーション ネットワークで障害の根本原因を判別します。

図 17-1 に、Cisco Prime CM 障害管理のフロー図を示します。

図 17-1 Cisco Prime CM での障害管理

 

イベント

イベントは、特定の時点で発生する別個の問題です。イベントの例には次のものがあります。

ポート ステータスの変更。

ピア ルータでのルーティング プロトコル プロセス間の接続損失(たとえば、BGP ネイバー損失)。

デバイスのリセット。

デバイスが管理ステーションから到達不能になる。

次に、イベントの説明を示します。

ネットワークでのエラー、障害、または例外状態である障害の考えられる症状。たとえば、デバイスが到達不能になると、到達不能イベントがトリガーされます。

障害クリアの考えられる症状。たとえば、デバイスの状態が到達不能から到達可能に変更されると、到達可能イベントがトリガーされます。

アラーム

障害シナリオのライフ サイクルはアラームと呼ばれます。アラームには、ポートの停止やポートの起動など、一連の関連するイベントという特徴があります(図 17-2 を参照)。

図 17-2 アラームの順序

 

上の図では、イベントの順序の一部として、イベント A の後にイベント B が発生します。イベントの順序では、重大度が最も高いイベントが、アラームの重大度を決定します。

イベントの作成

Cisco Prime CM は、イベント カタログを維持して、イベントを作成する方法とタイミング、およびアラームをイベントに関連付けるかどうかを決定します。複数のイベントを同じアラームに関連付けることができます。

Cisco Prime CM は、次の方法でイベントを検出します。

通知イベント(たとえば、Syslog やトラップ)を受信して、分析します。

デバイスを自動的にポーリングして変更を検出します(たとえば、到達不能なデバイス)。

Cisco Prime CM サーバで重大な変更(たとえば、サーバのリブート)が発生したときにイベントを受信します。

アラームのステータスが変更されると(たとえば、ユーザがアラームを認知するかクリアすると)、イベントを受信します。

着信イベント通知(トラップおよび Syslog)は、イベント データを事前定義済みのパターンと突き合わせることで識別されます。トラップまたは Syslog は、一致するパターンがあり、正しく識別できる場合は Cisco Prime CM でサポートされると見なされます。イベント データが事前定義済みのパターンと一致しない場合は、イベントはサポートされないと見なされ、ドロップされます。

障害は、ポーリング、トラップ、または Syslog メッセージによって Cisco Prime CM に通知されることがあります。Cisco Prime CM は、すべての障害のコンテキストを維持して、重複したイベントやアラームが Cisco Prime CM データベースに維持されないようにします。

 

時刻
イベント
Cisco Prime CM の動作

10:00AM PDT June 7, 2010

デバイス A が到達不能になった。

デバイス A で新しい到達不能イベントを作成します。

10:30AM PDT June 7, 2010

デバイス A は引き続き到達不能状態。

イベント ステータスに変更はありません。

10:45AM PDT June 7, 2010

デバイス A が到達可能になった。

デバイス A で新しい到達可能イベントを作成します。

11:00AM PDT June 7, 2010

デバイス A は到達可能なまま。

イベント ステータスに変更はありません。

12:00AM PDT June 7, 2010

デバイス A が到達不能になった。

デバイス A で新しい到達不能イベントを作成します。

アラームの作成

アラームは、ネットワークにおける障害のライフ サイクルを表します。これは、障害の根本原因を定義します。複数のイベントを単一のアラームに関連付けることができます。

アラームは、次の順序で作成されます。

1. ネットワークで障害が発生すると、通知がトリガーされます。

2. 通知に基づいてイベントが作成されます。

3. このイベントに対応するアクティブなアラームがないかどうかを確認した後で、アラームが作成されます。

アラームは、次の 2 つのタイプのイベントに関連付けられます。

アクティブ イベント:クリアされていないイベント。アラームは、ネットワークで障害が解決されるまでこの状態のままです。

履歴イベント:クリアされたイベント。イベントは、ネットワークで障害が解決されるとその状態を履歴イベントに変更します。

アラームのクリア後は、アラームのライフ サイクルの終了を示します。クリアされたアラームは、プリセット期間内に同じ障害が再発生した場合に復活されることがあります。プリセット期間は、Cisco Prime CM で 5 分に設定されます。

イベントとアラームの関連付け

Cisco Prime CM は、イベントとアラームのカタログを維持します。カタログには、Cisco Prime CM によって管理されるイベントのリスト、およびイベントとアラーム間の関係が含まれています。さまざまなタイプのイベントを同じアラーム タイプに結び付けることができます。

通知の受信時には、次のことが行われます。

1. Cisco Prime CM は、着信通知をイベントとアラーム カタログと突き合わせて比較します。

2. Cisco Prime CM は、イベントを出す必要があるかどうかを決定します。

3. イベントを出す場合、Cisco Prime CM は、イベントが新しいアラームをトリガーするか、既存のアラームに関連付けるかを決定します。

トリガーされる新しいイベントのタイプが同じで、同じソースで発生する場合、新しいイベントは既存のアラームに関連付けられます。

たとえば、アクティブなインターフェイス エラー アラームです。同じインターフェイスで発生するインターフェイス エラー イベントは、すべて同じアラームに関連付けられます。

アラームのステータス

次に、アラームでサポートされるステータスを示します。

[New]:イベントが新しいアラームをトリガーしたか、イベントが既存のアラームに関連付けられる場合。

アラームが認知されていない場合は、ステータスは [Acknowledged] から [New] に変更されます。

[Acknowledged]:ユーザがアラームを認知すると、ステータスは [New] から [Acknowledged] に変更されます。

[Cleared]:アラームのステータスには次のものがあります。

[Auto-clear from the device]:障害がデバイスで解決され、同じデバイスでイベントがトリガーされます。たとえば、デバイス到達可能イベントは、デバイス到達不能イベントをクリアします。次に、これによって、デバイス到達不能アラームがクリアされます。

[Manual-clear from Cisco Prime CM users]:ネットワークで障害を解決せずに、アクティブ アラームを手動でクリアできます。クリア イベントがトリガーされ、このイベントによってアラームがクリアされます。

障害が引き続きネットワークに存在する場合は、イベント通知(トラップまたは Syslog)に基づいて、その後に新しいイベントとアラームが作成されます。

[Auto-clear from the Cisco Prime CM server]:セッションが終了すると、Cisco Prime CM はセッション関連のアラームをすべてクリアします。

24 時間アクティブ アラームに対する更新がない場合、Cisco Prime CM はアラームを自動的にクリアします。

イベントとアラームの重大度

各イベントには重大度が割り当てられています。イベントは、次の重大度カテゴリに大きく分類され、Cisco Prime CM ではそれぞれに色が関連付けられています。

フラグ付き:障害を示します。クリティカル(赤)、メジャー(オレンジ)、マイナー(黄色)、または警告(空色)。

情報:情報(青)。一部の情報イベントは、フラグ付きイベントをクリアします。

たとえば、「リンク停止」イベントには、クリティカルの重大度が割り当てられる可能性があるのに対して、対応する「リンク起動」イベントは情報の重大度になります。

イベントの順序では、重大度が最も高いイベントが、アラームの重大度を決定します。

維持されるイベントとアラーム

アクティブとクリア済みを含むすべてのイベントとアラームが、Cisco Prime CM データベースに維持されます。

イベント間の関係は保存されます。データベースの内容は、[Alarm and Event Browser] ページを使用して確認できます。


) イベントは、Cisco Prime CM イベント オブジェクトの形式で保存されます。着信イベント通知(トラップまたは Syslog)の元の通知構造は維持されません。


Cisco Prime CM の削除ポリシーについて理解するには、「バックアップと復元の実行」を参照してください。

アラーム通知

Cisco Prime CM では、重大、やや重大、比較的重大ではないアラームの通知を受信するよう購読できます。[Administration] > [System Configuration] タブを使用して、通知を送信するよう Cisco Prime CM を設定できます。

[Device Details]

[Device Name]:管理対象デバイスのホスト名。

[Device IP Address]:管理対象デバイスの IP アドレス。

[Device Software]:デバイスで実行されているソフトウェア バージョン。

[Alarm Details]

[Alarm Time Stamp]:アラームがトリガーされた時刻。Cisco Prime CM クライアントのタイムゾーンが使用されます。

[Alarm Type Name]:アラームのタイプ。たとえば、[Call Quality - Packet Loss]、[Device Access Error]、[Interface Error] です。

[Alarm Severity]:アラームの重大度。たとえば、[MAJOR]、[MINOR] です。

[Alarm Device Category]:デバイスのタイプ。たとえば、[CTS]、[CTMS] です。

[Alarm Description]:アラームの説明。たとえば、[Call quality alarm]、[packet loss above threshold] です。

[Event Description]:イベントの説明。たとえば、[audio rx packet loss on primary Codec stream is 1.11% (> 1.00%)] です。

[Alarm Acknowledged]:アラームが認知されているかどうかのステータス。

[Session Details]

[Device in Session]:デバイスがセッションでアクティブかどうかを表示します。

[Session Status]:セッションのステータスを表示します。

[Session Type]:セッションがポイントツーポイントであるか、マルチポイント セッションであるか。

[Phone Number Dialed]:ダイヤルしたエンドポイントの電話番号。

[Session Duration]:セッションの期間。

セッションの詳細は、エンドポイントのアラーム通知を受信する場合は適用されません。

[Cisco Prime Collaboration Manager Server Name]:Cisco Prime CM サーバのホスト名。