プロセス ヘルス モニタリング

この章では、デバイスの各種コンポーネントの正常性を管理および監視する方法について説明します。ここで説明する内容は、次のとおりです。

コントロール プレーンのリソースの監視

ここでは、Cisco IOS プロセスとコントロール プレーン全体の観点から見たメモリおよび CPU の監視について説明します。

定期的な監視による問題の回避

プロセスを正しく動作させるには、プロセスのステータス/正常性を監視して通知する機能が必要です。プロセスに障害が発生すると、Syslog エラーメッセージが表示され、プロセスの再起動またはデバイスのリブートが実行されます。プロセスがスタックしているかクラッシュしたことをモニターが検出すると、syslog エラー メッセージが表示されます。プロセスが再起動可能な場合は再起動され、それ以外の場合はデバイスが再起動されます。

システム リソースの監視によって、起こり得る問題を発生前に検出できるため、システムの停止を回避できます。次に、定期的な監視のメリットを示します。

  • 数年にわたって稼働しているラインカードのメモリ不足が原因で、大規模な停止が発生する可能性があります。メモリの使用状況を監視することで、ラインカードのメモリの問題を特定でき、停止を防止できます。

  • 定期的な監視によって、正常なシステム負荷の基準が確立されます。ハードウェアやソフトウェアをアップグレードした時に、この情報を比較の根拠として使用し、アップグレードがリソースの使用率に影響を与えたかどうかを確認できます。

Cisco IOS プロセスのリソース

アクティブ プロセスの CPU 使用率統計情報を表示し、これらのプロセスで使用されているメモリの容量を確認するには、show memory コマンドと show process cpu コマンドを使用できます。これらのコマンドは、Cisco IOS プロセスのみのメモリと CPU の使用状況を示します。プラットフォーム全体のリソースに関する情報は含まれません。たとえば、8 GB RAM を搭載し、1 つの Cisco IOS プロセスを実行しているシステムで show memory コマンドを実行すると、次のメモリ使用状況が表示されます。

Router# show memory
Tracekey : 1#08d3ff66f05826cb63fb2b7325fcbed0

                Head    Total(b)     Used(b)     Free(b)   Lowest(b)  Largest(b)
Processor  7FB733EC4048   3853903068   193512428   3660390640   707918492   3145727908
reserve P  7FB733EC40A0      102404          92      102312      102312      102312
 lsmpi_io  7FB7320C11A8     6295128     6294304         824         824         412
Dynamic heap limit(MB) 3000      Use(MB) 0

show process cpu コマンドは、Cisco IOS CPU の平均使用率を次のように表示します。

Router# show process cpu
CPU utilization for five seconds: 1%/0%; one minute: 1%; five minutes: 1%
 PID Runtime(ms)     Invoked      uSecs   5Sec   1Min   5Min TTY Process
   1           1          14         71  0.00%  0.00%  0.00%   0 Chunk Manager
   2         127         872        145  0.00%  0.00%  0.00%   0 Load Meter
   3           0           1          0  0.00%  0.00%  0.00%   0 Policy bind Proc
   4           0           1          0  0.00%  0.00%  0.00%   0 Retransmission o
   5           0           1          0  0.00%  0.00%  0.00%   0 IPC ISSU Dispatc
   6          11          13        846  0.00%  0.00%  0.00%   0 RF Slave Main Th
   7           0           1          0  0.00%  0.00%  0.00%   0 EDDRI_MAIN
   8           0           1          0  0.00%  0.00%  0.00%   0 RO Notify Timers
   9        1092         597       1829  0.00%  0.01%  0.00%   0 Check heaps
  10           8          73        109  0.00%  0.00%  0.00%   0 Pool Manager
  11           0           1          0  0.00%  0.00%  0.00%   0 DiscardQ Backgro
  12           0           2          0  0.00%  0.00%  0.00%   0 Timers
  13           0          32          0  0.00%  0.00%  0.00%   0 WATCH_AFS
  14           0           1          0  0.00%  0.00%  0.00%   0 MEMLEAK PROCESS
  15        1227       40758         30  0.00%  0.02%  0.00%   0 ARP Input
  16          41        4568          8  0.00%  0.00%  0.00%   0 ARP Background
  17           0           2          0  0.00%  0.00%  0.00%   0 ATM Idle Timer
  18           0           1          0  0.00%  0.00%  0.00%   0 ATM ASYNC PROC
  19           0           1          0  0.00%  0.00%  0.00%   0 CEF MIB API
  20           0           1          0  0.00%  0.00%  0.00%   0 AAA_SERVER_DEADT
  21           0           1          0  0.00%  0.00%  0.00%   0 Policy Manager
  22           0           2          0  0.00%  0.00%  0.00%   0 DDR Timers
  23          60          23       2608  0.00%  0.00%  0.00%   0 Entity MIB API
  24          43          45        955  0.00%  0.00%  0.00%   0 PrstVbl
  25           0           2          0  0.00%  0.00%  0.00%   0 Serial Backgroun
  26           0           1          0  0.00%  0.00%  0.00%   0 RMI RM Notify Wa
  27           0           2          0  0.00%  0.00%  0.00%   0 ATM AutoVC Perio
  28           0           2          0  0.00%  0.00%  0.00%   0 ATM VC Auto Crea
  29          30        2181         13  0.00%  0.00%  0.00%   0 IOSXE heartbeat
  30           1           9        111  0.00%  0.00%  0.00%   0 Btrace time base
  31           5         182         27  0.00%  0.00%  0.00%   0 DB Lock Manager
  32          16        4356          3  0.00%  0.00%  0.00%   0 GraphIt
  33           0           1          0  0.00%  0.00%  0.00%   0 DB Notification
  34           0           1          0  0.00%  0.00%  0.00%   0 IPC Apps Task
  35           0           1          0  0.00%  0.00%  0.00%   0 ifIndex Receive
  36           4         873          4  0.00%  0.00%  0.00%   0 IPC Event Notifi
  37          49        4259         11  0.00%  0.00%  0.00%   0 IPC Mcast Pendin
  38           0           1          0  0.00%  0.00%  0.00%   0 Platform appsess
  39           2          73         27  0.00%  0.00%  0.00%   0 IPC Dynamic Cach
  40           5         873          5  0.00%  0.00%  0.00%   0 IPC Service NonC
  41           0           1          0  0.00%  0.00%  0.00%   0 IPC Zone Manager
  42          38        4259          8  0.00%  0.00%  0.00%   0 IPC Periodic Tim
  43          18        4259          4  0.00%  0.00%  0.00%   0 IPC Deferred Por
  44           0           1          0  0.00%  0.00%  0.00%   0 IPC Process leve
  45           0           1          0  0.00%  0.00%  0.00%   0 IPC Seat Manager
  46           3         250         12  0.00%  0.00%  0.00%   0 IPC Check Queue
  47           0           1          0  0.00%  0.00%  0.00%   0 IPC Seat RX Cont
  48           0           1          0  0.00%  0.00%  0.00%   0 IPC Seat TX Cont
  49          22         437         50  0.00%  0.00%  0.00%   0 IPC Keep Alive M
  50          25         873         28  0.00%  0.00%  0.00%   0 IPC Loadometer
  51           0           1          0  0.00%  0.00%  0.00%   0 IPC Session Deta
  52           0           1          0  0.00%  0.00%  0.00%   0 SENSOR-MGR event
  53           2         437          4  0.00%  0.00%  0.00%   0 Compute SRP rate

コントロール プレーン全体のリソース

各コントロール プロセッサのコントロール プレーンのメモリおよび CPU の使用状況により、コントロール プレーン全体のリソースを管理できます。show platform resources コマンドを使用すると、IOS XE プラットフォームの全体的なシステムの正常性とリソース使用率をモニタできます。また、コントロールプレーンのメモリと CPU の使用状況についての情報を表示するには、show platform software status control-processor brief コマンド(サマリービュー)または show platform software status control-processor コマンド(詳細ビュー)を使用できます。

すべてのコントロール プロセッサのステータスとして [Healthy] が表示されるのが正常です。他に表示されうるステータスの値は、[Warning] と [Critical] です。[Warning] は、デバイスが動作中であるものの、動作レベルの確認が必要であることを示しています。[Critical] は、デバイスで障害が発生する可能性が高いことを示しています。

[Warning] または [Critical] ステータスが表示されたら、次の対処方法に従ってください。

  • 設定内の要素の数を減らすか、動的なサービスの容量を制限して、システムに対する静的および動的な負荷を減らします。

  • ルータと隣接機器の数を減らしたり、ACL などのルールの数を制限したり、VLAN の数を減らしたりなどの対処を行います。

ここでは、show platform software status control-processor コマンドの出力のフィールドについて説明します。

Load Average

[Load Average] は、CPU リソースのプロセス キューまたはプロセス コンテンションを示します。たとえば、シングルコアプロセッサで瞬間的な負荷が 7 の場合は、7 つのプロセスが実行可能な状態になっていて、そのうちの 1 つが現在実行中という意味です。デュアルコアプロセッサで負荷が 7 となっている場合、7 つのプロセスが実行可能な状態になっていて、そのうちの 2 つが現在実行中であることを示します。

Memory Utilization

[Memory Utilization] は次のフィールドで示されます。

  • Total:ラインカードの合計メモリ

  • Used:使用済みメモリ

  • Free:使用可能なメモリ

  • Committed:プロセスに割り当てられている仮想メモリ

CPU Utilization

[CPU Utilization] は CPU が使用されている時間の割合を表すもので、次のフィールドで示されます。

  • CPU:割り当て済みプロセッサ

  • User:Linux カーネル以外のプロセス

  • System:Linux カーネルのプロセス

  • Nice:プライオリティの低いプロセス

  • Idle:CPU が非アクティブだった時間の割合

  • IRQ:割り込み

  • SIRQ:システムの割り込み

  • IOwait:CPU が入出力を待っていた時間の割合

例:show platform software status control-processor コマンド

次に show platform software status control-processor コマンドのいくつかの使用例を示します。

Router# show platform software status control-processor
RP0: online, statistics updated 3 seconds ago
RP0: online, statistics updated 5 seconds ago
Load Average: healthy
  1-Min: 1.35, status: healthy, under 9.30
  5-Min: 1.06, status: healthy, under 9.30
  15-Min: 1.02, status: healthy, under 9.30
Memory (kb): healthy
  Total: 7768456
  Used: 2572568 (33%), status: healthy
  Free: 5195888 (67%)
  Committed: 3112968 (40%), under 90%
Per-core Statistics
CPU0: CPU Utilization (percentage of time spent)
  User:  3.00, System:  2.40, Nice:  0.00, Idle: 94.60
  IRQ:  0.00, SIRQ:  0.00, IOwait:  0.00
CPU1: CPU Utilization (percentage of time spent)
  User:  0.00, System:  0.00, Nice:  0.00, Idle:100.00
  IRQ:  0.00, SIRQ:  0.00, IOwait:  0.00
CPU2: CPU Utilization (percentage of time spent)
  User:  0.00, System:  0.00, Nice:  0.00, Idle:100.00
  IRQ:  0.00, SIRQ:  0.00, IOwait:  0.00
CPU3: CPU Utilization (percentage of time spent)
  User:  0.00, System:  0.00, Nice:  0.00, Idle:100.00
  IRQ:  0.00, SIRQ:  0.00, IOwait:  0.00
CPU4: CPU Utilization (percentage of time spent)
  User:  7.30, System:  1.70, Nice:  0.00, Idle: 91.00
  IRQ:  0.00, SIRQ:  0.00, IOwait:  0.00
CPU5: CPU Utilization (percentage of time spent)
  User:  3.30, System:  1.50, Nice:  0.00, Idle: 95.20
  IRQ:  0.00, SIRQ:  0.00, IOwait:  0.00
CPU6: CPU Utilization (percentage of time spent)
  User: 17.91, System: 11.81, Nice:  0.00, Idle: 70.27
  IRQ:  0.00, SIRQ:  0.00, IOwait:  0.00
CPU7: CPU Utilization (percentage of time spent)
  User: 11.91, System: 13.31, Nice:  0.00, Idle: 74.77
  IRQ:  0.00, SIRQ:  0.00, IOwait:  0.00
CPU8: CPU Utilization (percentage of time spent)
  User:  2.70, System:  2.00, Nice:  0.00, Idle: 95.30
  IRQ:  0.00, SIRQ:  0.00, IOwait:  0.00
CPU9: CPU Utilization (percentage of time spent)
  User:  0.00, System:  0.00, Nice:  0.00, Idle:100.00
  IRQ:  0.00, SIRQ:  0.00, IOwait:  0.00
CPU10: CPU Utilization (percentage of time spent)
  User:  0.00, System:  0.00, Nice:  0.00, Idle:100.00
  IRQ:  0.00, SIRQ:  0.00, IOwait:  0.00
CPU11: CPU Utilization (percentage of time spent)
  User:  0.00, System:  0.00, Nice:  0.00, Idle:100.00
  IRQ:  0.00, SIRQ:  0.00, IOwait:  0.00



Router# show platform software status control-processor brief
Load Average
 Slot  Status  1-Min  5-Min 15-Min
  RP0 Healthy   1.14   1.07   1.02

Memory (kB)
 Slot  Status    Total     Used (Pct)     Free (Pct) Committed (Pct)
  RP0 Healthy  7768456  2573416 (33%)  5195040 (67%)   3115096 (40%)

CPU Utilization
 Slot  CPU   User System   Nice   Idle    IRQ   SIRQ IOwait
  RP0    0   2.80   1.80   0.00  95.39   0.00   0.00   0.00
         1   0.00   0.00   0.00 100.00   0.00   0.00   0.00
         2   0.00   0.00   0.00 100.00   0.00   0.00   0.00
         3   0.00   0.00   0.00 100.00   0.00   0.00   0.00
         4   6.80   1.80   0.00  91.39   0.00   0.00   0.00
         5   3.20   1.60   0.00  95.19   0.00   0.00   0.00
         6  16.30  12.60   0.00  71.10   0.00   0.00   0.00
         7  12.40  13.70   0.00  73.90   0.00   0.00   0.00
         8   2.40   2.40   0.00  95.19   0.00   0.00   0.00
         9   0.00   0.00   0.00 100.00   0.00   0.00   0.00
        10   0.00   0.00   0.00 100.00   0.00   0.00   0.00
        11   0.00   0.00   0.00 100.00   0.00   0.00   0.00


アラームを使用したハードウェアの監視

デバイスの設計とハードウェアの監視

問題が検出されるとルータからアラーム通知が送信されます。これにより、ネットワークをリモートで監視できます。show コマンドを使用してデバイスを定期的にポーリングする必要はありませんが、必要に応じてオンサイト モニタリングを実行できます。

ブートフラッシュ ディスクの監視

ブートフラッシュ ディスクには、2 つのコア ダンプを保存できる十分な空き領域が必要です。この条件が監視されて、ブートフラッシュ ディスクが 2 つのコア ダンプを保存するには小さすぎる場合には、次の例に示すような syslog アラームが生成されます。

Aug 22 13:40:41.038 R0/0: %FLASH_CHECK-3-DISK_QUOTA: Flash disk quota exceeded 
[free space is 7084440 kB] - Please clean up files on bootflash.

ブートフラッシュディスクのサイズは、少なくともデバイスに搭載されている物理メモリと同じサイズでなければなりません。この条件を満たしていない場合、次の例に示すような syslog アラームが生成されます。

%IOSXEBOOT-2-FLASH_SIZE_CHECK: (rp/0): Flash capacity (8 GB) is insufficient for fault analysis based on 
installed memory of RP (16 GB)
%IOSXEBOOT-2-FLASH_SIZE_CHECK: (rp/0): Please increase the size of installed flash to at least 16 GB (same as 
physical memory size)

ハードウェア アラームの監視方法

オンサイトのネットワーク管理者が可聴アラームまたは可視アラームに対応する

可聴アラームと可視アラームについて

電源モジュールの DB-25 アラーム コネクタを使用することにより、外部デバイスを電源モジュールに接続できます。外部デバイスは視覚アラーム用 DC 電球または聴覚アラーム用ベルです。

デバイスの前面プレートにある CRIT、MIN、または MAJ のいずれかの LED がアラームによって点灯する場合、可視アラームまたは可聴アラームが有線接続されていると、アラームによって電源 DB-25 コネクタのアラームリレーも作動し、ベルが鳴るか、または電球が点滅します。

可聴アラームのクリア

可聴アラームを解除するには、次のいずれかの作業を行います。

  • 前面プレートの Audible Cut Off ボタンを押す

  • clear facility-alarm コマンドを入力する

可視アラームのクリア

視覚アラームを解除するには、アラーム条件を解決する必要があります。clear facility-alarm コマンドを入力しても、前面プレートのアラーム LED の解除や DC 電球の消灯はできません。たとえば、アクティブなモジュールをグレースフルに非アクティブ化せずに取り外したためにクリティカル アラーム LED が点灯した場合、このアラームを解決する唯一の方法はモジュールを再度取り付けることです。

コンソールまたは syslog でのアラーム メッセージの確認

ネットワーク管理者は、システム コンソールまたはシステム メッセージ ログ(syslog)に送信されるアラーム メッセージを確認することにより、アラーム メッセージを監視できます。

logging alarm コマンドの有効化

アラーム メッセージをコンソールや syslog などのロギング デバイスに送信するには、logging alarm コマンドを有効にする必要があります。このコマンドはデフォルトでは無効になっています。

ログに記録されるアラームの重大度レベルを指定できます。指定したしきい値以上のアラームが発生するたびに、アラーム メッセージが生成されます。たとえば、次のコマンドではクリティカル アラーム メッセージだけがロギング デバイスに送信されます。

Router(config)# logging alarm critical

アラームの重大度を指定しない場合、すべての重大度のレベルのアラーム メッセージがロギング デバイスに送信されます。

アラーム メッセージの例

正しい非アクティブ化の実行前にモジュールが取り外された場合にコンソールに送信されるアラーム メッセージの例を、次に示します。モジュールを再び装着すると、アラームは消去されます。

モジュールが取り外された場合
*Aug 22 13:27:33.774: %C-SM-X-16G4M2X: Module removed from subslot 1/1, interfaces disabled
*Aug 22 13:27:33.775: %SPA_OIR-6-OFFLINECARD: Module (SPA-4XT-SERIAL) offline in subslot 1/1
モジュールが再び装着された場合
*Aug 22 13:32:29.447: %CC-SM-X-16G4M2X: Module inserted in subslot 1/1
*Aug 22 13:32:34.916: %SPA_OIR-6-ONLINECARD: Module (SPA-4XT-SERIAL) online in subslot 1/1
*Aug 22 13:32:35.523: %LINK-3-UPDOWN: SIP1/1: Interface EOBC1/1, changed state to up
アラーム

アラームを表示するには、show facility-alarm status コマンドを使用します。電源のクリティカル アラームの例を次に示します。

Router# show facility-alarm status
System Totals  Critical: 1  Major: 0  Minor: 0

Source                     Time                   Severity      Description [Index]
------                     ------                 --------      -------------------

Power Supply Bay 1         Jul 08 2020 11:51:34   CRITICAL      Power Supply/FAN Module Missing [0]

POE Bay 0                  Jul 08 2020 11:51:34   INFO          Power Over Ethernet Module Missing [0]

POE Bay 1                  Jul 08 2020 11:51:34   INFO          Power Over Ethernet Module Missing [0]

xcvr container 0/0/4       Jul 08 2020 11:51:47   INFO          Transceiver Missing - Link Down [1]

TenGigabitEthernet0/1/0    Jul 08 2020 11:52:24   INFO          Physical Port Administrative State Down [2]

GigabitEthernet1/0/0       Jul 08 2020 11:56:35   INFO          Physical Port Administrative State Down [2]

GigabitEthernet1/0/1       Jul 08 2020 11:56:35   INFO          Physical Port Administrative State Down [2]

GigabitEthernet1/0/2       Jul 08 2020 11:56:35   INFO          Physical Port Administrative State Down [2]

GigabitEthernet1/0/3       Jul 08 2020 11:56:35   INFO          Physical Port Administrative State Down [2]

GigabitEthernet1/0/4       Jul 08 2020 11:56:35   INFO          Physical Port Administrative State Down [2]

GigabitEthernet1/0/5       Jul 08 2020 11:56:35   INFO          Physical Port Administrative State Down [2]

GigabitEthernet1/0/6       Jul 08 2020 11:56:35   INFO          Physical Port Administrative State Down [2]

GigabitEthernet1/0/7       Jul 08 2020 11:56:35   INFO          Physical Port Administrative State Down [2]

TwoGigabitEthernet1/0/17   Jul 08 2020 11:56:35   INFO          Physical Port Administrative State Down [2]

TwoGigabitEthernet1/0/18   Jul 08 2020 11:56:35   INFO          Physical Port Administrative State Down [2]

TwoGigabitEthernet1/0/19   Jul 08 2020 11:56:35   INFO          Physical Port Administrative State Down [2]

クリティカルアラームを表示するには、次の例に示すように show facility-alarm status critical コマンドを使用します。

Router# show facility-alarm status critical
System Totals  Critical: 1  Major: 0  Minor: 0

Source                     Time                   Severity      Description [Index]
------                     ------                 --------      -------------------

Power Supply Bay 1         Jul 08 2020 11:51:34   CRITICAL      Power Supply/FAN Module Missing [0]

デバイスの主要ハードウェアコンポーネントの動作状態を表示するには、show platform diag コマンドを使用します。

Router# show platform diag
Chassis type: C8300-1N1S-4T2X

Slot: 0, C8300-1N1S-4T2X
  Running state               : ok
  Internal state              : online
  Internal operational state  : ok
  Physical insert detect time : 00:00:24 (01:29:20 ago)
  Software declared up time   : 00:01:01 (01:28:44 ago)
  CPLD version                : 20011540
  Firmware version            : 17.3(1r)

Sub-slot: 0/0, 4x1G-2xSFP+
  Operational status          : ok
  Internal state              : inserted
  Physical insert detect time : 00:01:14 (01:28:30 ago)
  Logical insert detect time  : 00:01:14 (01:28:30 ago)

Sub-slot: 0/1, C-NIM-1X
  Operational status          : ok
  Internal state              : inserted
  Physical insert detect time : 00:01:14 (01:28:31 ago)
  Logical insert detect time  : 00:01:14 (01:28:31 ago)

Slot: 1, C8300-1N1S-4T2X
  Running state               : ok
  Internal state              : online
  Internal operational state  : ok
  Physical insert detect time : 00:00:24 (01:29:20 ago)
  Software declared up time   : 00:01:02 (01:28:43 ago)
  CPLD version                : 20011540
  Firmware version            : 17.3(1r)

Sub-slot: 1/0, C-SM-X-16G4M2X
  Operational status          : ok
  Internal state              : inserted
  Physical insert detect time : 00:01:14 (01:28:30 ago)
  Logical insert detect time  : 00:01:14 (01:28:30 ago)

Slot: R0, C8300-1N1S-4T2X
  Running state               : ok, active
アラーム メッセージの確認と分析

アラーム メッセージの確認を容易にするために、コンソールまたは syslog に送信されたアラーム メッセージを分析するスクリプトを作成できます。スクリプトは、アラーム、セキュリティの警告、インターフェイスのステータスなどのイベントに関するレポートを表示できます。

syslog メッセージも、CISCO-SYSLOG-MIB に定義されている履歴表を使用して、簡易ネットワーク管理プロトコル(SNMP)経由でアクセスできます。

SNMP 経由でアラームが報告された場合のネットワーク管理システムによるネットワーク管理者への警告

アプリケーション層プロトコルである SNMP は、ネットワーク内のデバイスを監視および管理するための、標準化されたフレームワークと共通の言語を提供します。アラームを監視するすべての方法の中で、SNMP は、企業とサービスプロバイダーのセットアップで複数のデバイスを監視するための最適な方法です。

SNMP は、サービスに影響を及ぼす可能性のある障害、アラーム、状況を通知します。これにより、ネットワーク管理者は、ログの確認、デバイスのポーリング、ログレポートの確認を行う代わりに、ネットワーク管理システム(NMS)経由でデバイス情報を入手できます。

SNMP を使用してアラーム通知を取得するには、次の MIB を使用します。

  • ENTITY-MIB, RFC 4133(CISCO-ENTITY-ALARM-MIB および CISCO-ENTITY-SENSOR-MIB の稼働に必要)

  • CISCO-ENTITY-ALARM-MIB

  • CISCO-ENTITY-SENSOR-MIB(トランシーバ環境アラーム情報用。この情報は CISCO-ENTITY-ALARM-MIB では提供されません)