プロセス ヘルス モニタリング
プロセス ヘルス モニタリング

目次

プロセス ヘルス モニタリング

この章では、ルータの各種コンポーネントの正常性を管理および監視する方法について説明します。 ここで説明する内容は、次のとおりです。

コントロール プレーンのリソースの監視

ここでは、Cisco IOS プロセスとコントロール プレーン全体の観点から見たメモリおよび CPU の監視について説明します。

定期的な監視による問題の回避

プロセスを正しく動作させるには、プロセスのステータス/正常性を監視して通知する機能が必要です。 プロセスに障害が発生すると、syslog エラー メッセージが表示され、プロセスの再起動またはルータのリブートが実行されます。 プロセスがスタックしているかクラッシュしたことをモニターが検出すると、syslog エラー メッセージが表示されます。 プロセスが再起動可能な場合は再起動され、それ以外の場合はルータが再起動されます。

システム リソースの監視によって、起こり得る問題を発生前に検出できるため、システムの停止を回避できます。 次に、定期的な監視のメリットを示します。

  • 数年にわたって稼働しているラインカードのメモリ不足が原因で、大規模な停止が発生する可能性があります。 メモリの使用状況を監視することで、ラインカードのメモリの問題を特定でき、停止を防止できます。

  • 定期的な監視によって、正常なシステム負荷の基準が確立されます。 ハードウェアやソフトウェアをアップグレードした時に、この情報を比較の根拠として使用し、アップグレードがリソースの使用率に影響を与えたかどうかを確認できます。

Cisco IOS プロセスのリソース

アクティブ プロセスの CPU 使用率統計情報を表示し、これらのプロセスで使用されているメモリの容量を確認するには、show memory コマンドと show process cpu コマンドを使用できます。 これらのコマンドは、Cisco IOS プロセスのみのメモリと CPU の使用状況を示します。プラットフォーム全体のリソースに関する情報は含まれません。 たとえば、8 GB RAM を搭載し、1 つの Cisco IOS プロセスを実行しているシステムで show memory コマンドを実行すると、次のメモリ使用状況情報が表示されます。

Router# show memory
           Head           Total(b)     Used(b)     Free(b)      Lowest(b)    Largest(b)
Processor  2ABEA4316010   4489061884   314474916   4174586968   3580216380   3512323496
lsmpi_io   2ABFAFF471A8   6295128      6294212     916          916          916
Critical   2ABEB7C72EB0   1024004      92          1023912      1023912      1023912

show process cpu コマンドは、Cisco IOS CPU の平均使用率を次のように表示します。

Router# show process cpu
CPU utilization for five seconds: 0%/0%; one minute: 0%; five minutes: 0%
 PID Runtime(ms)   Invoked      uSecs   5Sec   1Min   5Min TTY Process
   1         583     48054         12  0.00%  0.00%  0.00%   0 Chunk Manager
   2         991    176805          5  0.00%  0.00%  0.00%   0 Load Meter
   3           0         2          0  0.00%  0.00%  0.00%   0 IFCOM Msg Hdlr
   4           0        11          0  0.00%  0.00%  0.00%   0 Retransmission o
   5           0         3          0  0.00%  0.00%  0.00%   0 IPC ISSU Dispatc
   6      230385    119697       1924  0.00%  0.01%  0.00%   0 Check heaps
   7          49        28       1750  0.00%  0.00%  0.00%   0 Pool Manager
   8           0         2          0  0.00%  0.00%  0.00%   0 Timers
   9       17268    644656         26  0.00%  0.00%  0.00%   0 ARP Input
  10         197    922201          0  0.00%  0.00%  0.00%   0 ARP Background
  11           0         2          0  0.00%  0.00%  0.00%   0 ATM Idle Timer
  12           0         1          0  0.00%  0.00%  0.00%   0 ATM ASYNC PROC
  13           0         1          0  0.00%  0.00%  0.00%   0 AAA_SERVER_DEADT
  14           0         1          0  0.00%  0.00%  0.00%   0 Policy Manager
  15           0         2          0  0.00%  0.00%  0.00%   0 DDR Timers
  16           1        15         66  0.00%  0.00%  0.00%   0 Entity MIB API
  17          13      1195         10  0.00%  0.00%  0.00%   0 EEM ED Syslog
  18          93        46       2021  0.00%  0.00%  0.00%   0 PrstVbl
  19           0         1          0  0.00%  0.00%  0.00%   0 RO Notify Timers

コントロール プレーン全体のリソース

各コントロール プロセッサのコントロール プレーンのメモリおよび CPU の使用状況により、コントロール プレーン全体のリソースを管理できます。 コントロール プレーンのメモリと CPU の使用状況の情報を表示するには、show platform software status control-processor brief コマンド(サマリー ビュー)または show platform software status control-processor コマンド(詳細ビュー)を使用できます。

すべてのコントロール プロセッサのステータスとして [Healthy] が表示されるのが正常です。 他に表示されうるステータスの値は、[Warning] と [Critical] です。 [Warning] は、ルータが動作中であるものの、動作レベルの確認が必要であることを示しています。 [Critical] は、ルータで障害が発生する可能性が高いことを示しています。

[Warning] または [Critical] ステータスが表示されたら、次の対処方法に従ってください。

  • 設定内の要素の数を減らすか、動的なサービスの容量を制限して、システムに対する静的および動的な負荷を減らします。

  • ルータと隣接機器の数を減らしたり、ACL などのルールの数を制限したり、VLAN の数を減らしたりなどの対処を行います。

ここでは、show platform software status control-processor コマンドの出力のフィールドについて説明します。

Load Average

[Load Average] は、CPU リソースのプロセス キューまたはプロセス コンテンションを示します。 たとえば、シングルコア プロセッサで瞬間的な負荷が 7 の場合は、7 つのプロセッサが稼働可能な状態になっていて、そのうちの 1 つが現在稼働しているという意味です。 デュアルコア プロセッサで負荷が 7 となっている場合、7 つのプロセッサが稼働可能な状態になっていて、そのうちの 2 つが現在稼働していることを示します。

Memory Utilization

[Memory] は次のフィールドで示されます。

  • Total:ラインカードの合計メモリ

  • Used:使用済みメモリ

  • Free:使用可能なメモリ

  • Committed:プロセスに割り当てられている仮想メモリ

CPU Utilization

[CPU Utilization] は CPU が使用されている時間の割合を表すもので、次のフィールドで示されます。

  • CPU:割り当て済みプロセッサ

  • User:Linux カーネル以外のプロセス

  • System:Linux カーネルのプロセス

  • Nice:プライオリティの低いプロセス

  • Idle:CPU が非アクティブだった時間の割合

  • IRQ:割り込み

  • SIRQ:システムの割り込み

  • IOwait:CPU が入出力を待っていた時間の割合

例:show platform software status control-processor コマンド

次に show platform software status control-processor コマンドのいくつかの使用例を示します。

Router# show platform software status control-processor
RP0: online, statistics updated 5 seconds ago
Load Average: healthy
  1-Min: 0.07, status: healthy, under 5.00
  5-Min: 0.11, status: healthy, under 5.00
  15-Min: 0.09, status: healthy, under 5.00
Memory (kb): healthy
  Total: 3971216
  Used: 3415976 (86%)
  Free: 555240 (14%)
  Committed: 2594412 (65%), status: healthy, under 90%
Per-core Statistics
CPU0: CPU Utilization (percentage of time spent)
  User:  1.40, System:  1.20, Nice:  0.00, Idle: 97.39
  IRQ:  0.00, SIRQ:  0.00, IOwait:  0.00
CPU1: CPU Utilization (percentage of time spent)
  User:  0.89, System:  0.79, Nice:  0.00, Idle: 98.30
  IRQ:  0.00, SIRQ:  0.00, IOwait:  0.00
CPU2: CPU Utilization (percentage of time spent)
  User:  0.80, System:  2.50, Nice:  0.00, Idle: 96.70
  IRQ:  0.00, SIRQ:  0.00, IOwait:  0.00
CPU3: CPU Utilization (percentage of time spent)
  User:  3.09, System:  6.19, Nice:  0.00, Idle: 90.60
  IRQ:  0.00, SIRQ:  0.09, IOwait:  0.00
CPU4: CPU Utilization (percentage of time spent)
  User:  0.10, System:  0.30, Nice:  0.00, Idle: 99.60
  IRQ:  0.00, SIRQ:  0.00, IOwait:  0.00
CPU5: CPU Utilization (percentage of time spent)
  User:  0.89, System:  1.59, Nice:  0.00, Idle: 97.50
  IRQ:  0.00, SIRQ:  0.00, IOwait:  0.00
CPU6: CPU Utilization (percentage of time spent)
  User:  0.80, System:  1.10, Nice:  0.00, Idle: 98.10
  IRQ:  0.00, SIRQ:  0.00, IOwait:  0.00
CPU7: CPU Utilization (percentage of time spent)
  User:  0.20, System:  3.40, Nice:  0.00, Idle: 96.40
  IRQ:  0.00, SIRQ:  0.00, IOwait:  0.00

Router# show platform software status control-processor brief
Load Average
 Slot  Status  1-Min  5-Min 15-Min
  RP0 Healthy   0.09   0.10   0.09

Memory (kB)
 Slot  Status    Total     Used (Pct)     Free (Pct) Committed (Pct)
  RP0 Healthy  3971216  3426452 (86%)   544764 (14%)   2595212 (65%)

CPU Utilization
 Slot  CPU   User System   Nice   Idle    IRQ   SIRQ IOwait
  RP0    0   1.60   0.90   0.00  97.30   0.10   0.10   0.00
         1   0.09   1.29   0.00  98.60   0.00   0.00   0.00
         2   0.10   0.10   0.00  99.79   0.00   0.00   0.00
         3   0.00   0.00   0.00 100.00   0.00   0.00   0.00
         4   0.60   4.90   0.00  94.50   0.00   0.00   0.00
         5   0.70   1.30   0.00  98.00   0.00   0.00   0.00
         6   0.10   0.00   0.00  99.90   0.00   0.00   0.00
         7   1.39   0.49   0.00  98.10   0.00   0.00   0.00

アラームを使用したハードウェアの監視

ルータの設計とハードウェアの監視

問題が検出されるとルータからアラーム通知が送信されます。これにより、ネットワークをリモートで監視できます。 show コマンドを使用してデバイスを定期的にポーリングする必要はありませんが、必要に応じてオンサイト モニタリングを実行できます。

ブートフラッシュ ディスクの監視

ブートフラッシュ ディスクには、2 つのコア ダンプを保存できる十分な空き領域が必要です。 この条件が監視されて、ブートフラッシュ ディスクが 2 つのコア ダンプを保存するには小さすぎる場合には、次の例に示すような syslog アラームが生成されます。

Aug 22 13:40:41.038 R0/0: %FLASH_CHECK-3-DISK_QUOTA: Flash disk quota exceeded 
[free space is 7084440 kB] - Please clean up files on bootflash.

ブートフラッシュ ディスクのサイズは、少なくともルータに搭載されている物理メモリと同じサイズでなければなりません。 この条件を満たしていない場合、次の例に示すような syslog アラームが生成されます。

%IOSXEBOOT-2-FLASH_SIZE_CHECK: (rp/0): Flash capacity (8 GB) is insufficient for fault analysis based on 
installed memory of RP (16 GB)
%IOSXEBOOT-2-FLASH_SIZE_CHECK: (rp/0): Please increase the size of installed flash to at least 16 GB (same as 
physical memory size)

ハードウェア アラームの監視方法

オンサイトのネットワーク管理者が可聴アラームまたは可視アラームに対応する

可聴アラームと可視アラームについて

電源モジュールの DB-25 アラーム コネクタを使用することにより、外部デバイスを電源モジュールに接続できます。 外部デバイスは視覚アラーム用 DC 電球または聴覚アラーム用ベルです。

ルータの前面プレートにある CRIT、MIN、または MAJ のいずれかの LED がアラームによって点灯する場合、可視アラームまたは可聴アラームが有線接続されていると、アラームによって電源 DB-25 コネクタのアラーム リレーも作動し、ベルが鳴るか、または電球が点滅します。

可聴アラームのクリア

可聴アラームを解除するには、次のいずれかの作業を行います。

  • 前面プレートの [ACO] ボタンを押す。

  • clear facility-alarm コマンドを入力する

可視アラームのクリア

視覚アラームを解除するには、アラーム条件を解決する必要があります。 clear facility-alarm コマンドを入力しても、前面プレートのアラーム LED の解除や DC 電球の消灯はできません。 たとえば、アクティブなモジュールをグレースフルに非アクティブ化せずに取り外したためにクリティカル アラーム LED が点灯した場合、このアラームを解決する唯一の方法はモジュールを再度取り付けることです。

コンソールまたは syslog でのアラーム メッセージの確認

ネットワーク管理者は、システム コンソールまたはシステム メッセージ ログ(syslog)に送信されるアラーム メッセージを確認することにより、アラーム メッセージを監視できます。

logging alarm コマンドのイネーブル化

アラーム メッセージをコンソールや syslog などのロギング デバイスに送信するには、logging alarm コマンドをイネーブルにする必要があります。 このコマンドはデフォルトではディセーブルになっています。

ログに記録されるアラームの重大度レベルを指定できます。 指定したしきい値以上のアラームが発生するたびに、アラーム メッセージが生成されます。 たとえば、次のコマンドではクリティカル アラーム メッセージだけがロギング デバイスに送信されます。

Router(config)# logging alarm critical

アラームの重大度を指定しない場合、すべての重大度のレベルのアラーム メッセージがロギング デバイスに送信されます。

アラーム メッセージの例

正しい非アクティブ化の実行前にモジュールが取り外された場合にコンソールに送信されるアラーム メッセージの例を、次に示します。 モジュールを再び装着すると、アラームは消去されます。

モジュールが取り外された場合
*Aug 22 13:27:33.774: %ISR4451-X_OIR-6-REMSPA: Module removed from subslot 1/1, interfaces disabled
*Aug 22 13:27:33.775: %SPA_OIR-6-OFFLINECARD: Module (SPA-4XT-SERIAL) offline in subslot 1/1
モジュールが再び装着された場合
*Aug 22 13:32:29.447: %ISR4451-X_OIR-6-INSSPA: Module inserted in subslot 1/1
*Aug 22 13:32:34.916: %SPA_OIR-6-ONLINECARD: Module (SPA-4XT-SERIAL) online in subslot 1/1
*Aug 22 13:32:35.523: %LINK-3-UPDOWN: SIP1/1: Interface EOBC1/1, changed state to up
アラーム

アラームを表示するには、show facility-alarm status コマンドを使用します。 電源のクリティカル アラームの例を次に示します。

Router# show facility-alarm status
System Totals  Critical: 5  Major: 0  Minor: 0

Source                     Severity      Description [Index]
------                     --------      -------------------
Power Supply Bay 0         CRITICAL      Power Supply/FAN Module Missing [0]
GigabitEthernet0/0/0       CRITICAL      Physical Port Link Down [1]
GigabitEthernet0/0/1       CRITICAL      Physical Port Link Down [1]
GigabitEthernet0/0/2       CRITICAL      Physical Port Link Down [1]
GigabitEthernet0/0/3       CRITICAL      Physical Port Link Down [1]
xcvr container 0/0/0       INFO          Transceiver Missing [0]
xcvr container 0/0/1       INFO          Transceiver Missing [0]
xcvr container 0/0/2       INFO          Transceiver Missing [0]
xcvr container 0/0/3       INFO          Transceiver Missing [0]

クリティカル アラームを表示するには、次の例に示すように show facility-alarm status critical コマンドを使用します。

Router# show facility-alarm status critical
System Totals  Critical: 5  Major: 0  Minor: 0

Source                     Severity      Description [Index]
------                     --------      -------------------
Power Supply Bay 0         CRITICAL      Power Supply/FAN Module Missing [0]
GigabitEthernet0/0/0       CRITICAL      Physical Port Link Down [1]
GigabitEthernet0/0/1       CRITICAL      Physical Port Link Down [1]
GigabitEthernet0/0/2       CRITICAL      Physical Port Link Down [1]
GigabitEthernet0/0/3       CRITICAL      Physical Port Link Down [1]

ルータの主要ハードウェア コンポーネントの動作状態を表示するには、show platform diag コマンドを使用します。 次の例は、電源 P0 で障害が発生したことを示します。

Router# show platform diag
Chassis type: ISR4451/K9

Slot: 0, ISR4451-NGSM
  Running state               : ok
  Internal state              : online
  Internal operational state  : ok
  Physical insert detect time : 00:01:09 (1w0d ago)
  Software declared up time   : 00:01:42 (1w0d ago)
  CPLD version                : 12061320
  Firmware version            : 12.2(20120618:163328)[ciscouser-ESGROM_20120618_GAMMA 101]

Sub-slot: 0/0, ISR4451-4X1GE
  Operational status          : ok
  Internal state              : inserted
  Physical insert detect time : 00:02:48 (1w0d ago)
  Logical insert detect time  : 00:02:48 (1w0d ago)

Slot: 1, ISR4451-NGSM
  Running state               : ok
  Internal state              : online
  Internal operational state  : ok
  Physical insert detect time : 00:01:09 (1w0d ago)
  Software declared up time   : 00:01:43 (1w0d ago)
  CPLD version                : 12061320
  Firmware version            : 12.2(20120618:163328)[ciscouser-ESGROM_20120618_GAMMA 101]

Slot: 2, ISR4451-NGSM
  Running state               : ok
  Internal state              : online
  Internal operational state  : ok
  Physical insert detect time : 00:01:09 (1w0d ago)
  Software declared up time   : 00:01:44 (1w0d ago)
  CPLD version                : 12061320
  Firmware version            : 12.2(20120618:163328)[ciscouser-ESGROM_20120618_GAMMA 101]

Slot: R0, ISR4451/K9
  Running state               : ok, active
  Internal state              : online
  Internal operational state  : ok
  Physical insert detect time : 00:01:09 (1w0d ago)
  Software declared up time   : 00:01:09 (1w0d ago)
  CPLD version                : 12061320
  Firmware version            : 12.2(20120618:163328)[ciscouser-ESGROM_20120618_GAMMA 101]

Slot: F0, ISR4451-FP
  Running state               : init, active
  Internal state              : online
  Internal operational state  : ok
  Physical insert detect time : 00:01:09 (1w0d ago)
  Software declared up time   : 00:01:37 (1w0d ago)
  Hardware ready signal time  : 00:00:00 (never ago)
  Packet ready signal time    : 00:00:00 (never ago)
  CPLD version                :
  Firmware version            : 12.2(20120618:163328)[ciscouser-ESGROM_20120618_GAMMA 101]

Slot: P0, Unknown
  State                       : ps, fail
  Physical insert detect time : 00:00:00 (never ago)

Slot: P1, XXX-XXXX-XX
  State                       : ok
  Physical insert detect time : 00:01:26 (1w0d ago)

Slot: P2, ACS-4450-FANASSY
  State                       : ok
  Physical insert detect time : 00:01:26 (1w0d ago)

アラーム メッセージの確認と分析

アラーム メッセージの確認を容易にするために、コンソールまたは syslog に送信されたアラーム メッセージを分析するスクリプトを作成できます。 スクリプトは、アラーム、セキュリティの警告、インターフェイスのステータスなどのイベントに関するレポートを表示できます。

syslog メッセージも、CISCO-SYSLOG-MIB に定義されている履歴表を使用して、簡易ネットワーク管理プロトコル(SNMP)経由でアクセスできます。

SNMP 経由でアラームが報告された場合のネットワーク管理システムによるネットワーク管理者への警告

アプリケーション層プロトコルである SNMP は、ネットワーク内のデバイスを監視および管理するための、標準化されたフレームワークと共通の言語を提供します。 アラームを監視するすべての方法の中で、SNMP は、エンタープライズとサービス プロバイダのセットアップで複数のルータを監視するための最適な方法です。

SNMP は、サービスに影響を及ぼす可能性のある障害、アラーム、状況を通知します。 これにより、ネットワーク管理者は、ログの確認、デバイスのポーリング、ログ レポートの確認を行う代わりに、ネットワーク管理システム(NMS)経由でルータ情報を入手できます。

SNMP を使用してアラーム通知を取得するには、次の MIB を使用します。

  • ENTITY-MIB, RFC 4133(CISCO-ENTITY-ALARM-MIB および CISCO-ENTITY-SENSOR-MIB の稼働に必要)

  • CISCO-ENTITY-ALARM-MIB

  • CISCO-ENTITY-SENSOR-MIB(トランシーバ環境アラーム情報用。この情報は CISCO-ENTITY-ALARM-MIB では提供されません)