環境モニタリングについて
シャーシ コンポーネントの環境モニタリングは、コンポーネント障害の兆候を早期に警告します。この警告により、安全で信頼性の高いシステム運用を実現し、ネットワーク障害を防止できます。
ここでは、重要なシステム コンポーネントをモニタリングする方法について説明します。これにより、ハードウェア関連の問題点を特定し、速やかに対応できるようになります。
CLI コマンドによる環境のモニタリング
システムステータス情報を表示するには、show environment [all | counters | history | location | sensor | status | summary | table] コマンドを使用します。次の表に、キーワードの意味を示します。
キーワード |
目的 |
---|---|
all |
すべての環境モニタ パラメータ(たとえば、電源、温度示度、電圧示度など)の詳細なリストを表示します。これはデフォルトです。 |
counters |
動作カウンタを表示します。 |
history |
センサーの状態変化履歴を表示します。 |
location |
ロケーション別にセンサーを表示します。 |
sensor |
センサーのサマリーを表示します。 |
status |
現場交換可能ユニット(FRU)の動作ステータスおよび電源と電源装置ファン センサーの情報を表示します。 |
summary |
すべての環境モニタリング センサーのサマリーを表示します。 |
table |
センサーの状態テーブルを表示します。 |
環境状態の表示
スーパーバイザ モジュールとそれらに関連付けられたラインカードは、カードごとに複数の温度センサーをサポートします。環境状態の出力には、各センサーから読み取った温度および各センサーの温度しきい値が表示されます。これらのラインカードは、警告、重大、シャットダウンの 3 つのしきい値をサポートしています。
次に、スーパーバイザ モジュールの環境状態を表示する例を示します。しきい値はカッコ内に表示されています。
Device# show environment
Number of Critical alarms: 0
Number of Major alarms: 0
Number of Minor alarms: 0
Slot Sensor Current State Reading Threshold(Minor,Major,Critical,Shutdown)
---- ------ ------------- ------- ---------------------------------------
R0 HotSwap: Volts Normal 53 V DC na
R0 HotSwap: Power Normal 231 Watts na
R0 Temp: Coretemp Normal 46 Celsius (107,117,123,125)(Celsius)
R0 Temp: DopplerD Normal 55 Celsius (107,117,123,125)(Celsius)
R0 V1: VX1 Normal 845 mV na
R0 V1: VX2 Normal 1499 mV na
R0 V1: VX3 Normal 1058 mV na
R0 V1: VX4 Normal 849 mV na
R0 V1: VX5 Normal 1517 mV na
R0 V1: VX6 Normal 1306 mV na
R0 V1: VX7 Normal 1007 mV na
R0 V1: VX8 Normal 1098 mV na
R0 V1: VX9 Normal 1205 mV na
R0 V1: VX10 Normal 1704 mV na
R0 V1: VX11 Normal 1208 mV na
R0 V1: VX12 Normal 1804 mV na
R0 V1: VX13 Normal 2518 mV na
R0 V1: VX14 Normal 3288 mV na
R0 Temp: outlet Normal 39 Celsius (55 ,65 ,75 ,100)(Celsius)
R0 Temp: inlet Normal 35 Celsius (45 ,55 ,65 ,72 )(Celsius)
次に、スーパーバイザ モジュールの LED ステータスを表示する例を示します。
Device# show hardware led
Current Mode: STATUS
SWITCH: C9407R
SYSTEM: AMBER
SUPERVISOR: ACTIVE
STATUS: (10) Te3/0/1:BLACK Te3/0/2:BLACK Te3/0/3:BLACK Te3/0/4:BLACK Te3/0/5:BLACK Te3/0/6:BLACK Te3/0/7:BLACK Te3/0/8:BLACK Fo3/0/9:BLACK Fo3/0/10:BLACK
BEACON: BLACK
RJ45 CONSOLE: GREEN
FANTRAY STATUS: GREEN
FANTRAY BEACON: BLACK
POWER-SUPPLY 1 BEACON: BLACK
POWER-SUPPLY 3 BEACON: BLACK
オンボード障害ロギング(OBFL)情報の表示
OBFL 機能は、スイッチに取り付けられているラインカードやスーパーバイザ モジュールの問題の診断に役立つ動作温度、ハードウェア稼働時間、割り込み、およびその他の重要なイベントとメッセージを記録します。データのログは、不揮発性メモリに保存されるファイルに作成されます。オンボード ハードウェアが起動すると、監視されている各領域で最初のレコードが作成され、後続のレコードの基準値となります。OBFL 機能は、継続的なレコードの収集と古い(履歴)レコードのアーカイブで循環更新スキームを提供し、システムに関する正確なデータを保証します。データは、測定と継続ファイルのサンプルのスナップショットを表示する継続情報の形式、または収集したデータに関する詳細を提供する要約情報の形式で記録されます。データを表示するには、show logging onboard コマンドを使用します。履歴データが利用できない場合は、「No historical data to display」というメッセージが表示されます。
Device# show logging onboard RP active voltage detail
--------------------------------------------------------------------------------
VOLTAGE SUMMARY INFORMATION
--------------------------------------------------------------------------------
Number of sensors : 16
--------------------------------------------------------------------------------
Sensor ID Normal Range Maximum Sensor Value
--------------------------------------------------------------------------------
SYSTEM Rail-5.0 0 0 - 5 0
SYSTEM Rail-0.9PEX 1 0 - 5 1
SYSTEM Rail-0.9 2 0 - 5 1
SYSTEM Rail-1.8 3 0 - 5 0
SYSTEM Rail-3.3 4 0 - 5 1
SYSTEM Rail-2.5 5 0 - 5 1
SYSTEM Rail-1.5CPU 6 0 - 5 1
SYSTEM Rail-1.5 7 0 - 5 1
SYSTEM Rail-1.2 8 0 - 5 1
SYSTEM Rail-1.1 9 0 - 5 1
SYSTEM Rail-1.0 10 0 - 5 1
SYSTEM Rail-0.9CPU 11 0 - 5 1
SYSTEM Rail-0.85 12 0 - 5 2
SYSTEM Rail-0.85DOPv
13 0 - 5 3
SYSTEM Rail-0.85DOPv^N 14 0 - 5 5
SYSTEM Rail-0.85DOPv^O 15 0 - 5 0
--------------------------------------------------------------------------------
Sensor Value
Total Time of each Sensor
--------------------------------------------------------------------------------
--------------------------------------------------------------------------------
No historical data
--------------------------------------------------------------------------------
--------------------------------------------------------------------------------
VOLTAGE CONTINUOUS INFORMATION
--------------------------------------------------------------------------------
Sensor ID
--------------------------------------------------------------------------------
SYSTEM Rail-5.0 0
SYSTEM Rail-0.9PEX 1
SYSTEM Rail-0.9 2
SYSTEM Rail-1.8 3
SYSTEM Rail-3.3 4
SYSTEM Rail-2.5 5
SYSTEM Rail-1.5CPU 6
SYSTEM Rail-1.5 7
SYSTEM Rail-1.2 8
SYSTEM Rail-1.1 9
SYSTEM Rail-1.0 10
SYSTEM Rail-0.9CPU 11
SYSTEM Rail-0.85 12
SYSTEM Rail-0.85DOPv
13
SYSTEM Rail-0.85DOPv^N 14
SYSTEM Rail-0.85DOPv^O 15
--------------------------------------------------------------------------------
Time Stamp | Sensor Voltage 0V
MM/DD/YYYY HH:MM:SS | Sensor Value
--------------------------------------------------------------------------------
05/06/2015 16:42:51 0 1 1 0 1 1 1 1 1 1 1 1 2 3 5 0
05/06/2015 18:24:24 0 1 1 0 1 1 1 1 1 1 1 1 2 3 5 0
05/10/2015 17:53:42 0 1 1 0 1 1 1 1 1 1 1 1 2 3 5 0
08/30/2017 16:14:40 0 1 1 0 1 1 1 1 1 1 1 1 2 3 5 0
08/30/2017 23:34:24 0 1 1 0 1 1 1 1 1 1 1 1 2 3 5 0
08/31/2017 22:16:23 0 1 1 0 1 1 1 1 1 1 1 1 2 3 5 0
09/01/2017 00:57:15 0 1 1 0 1 1 1 1 1 1 1 1 2 3 5 0
--------------------------------------------------------------------------------
緊急処理
シャーシは、1 つのカードの電源を切って、ラインカードの過熱状態に対して詳細な応答を提供できます。ただし、シャーシは、スーパーバイザ モジュール自体の温度が重大しきい値を超過すると安全に動作させることができません。スーパーバイザ モジュールはシャーシの電源をオフにしてそのモジュール自体の過熱を防止します。このような場合、電源装置の電源オン/オフ スイッチまたは電源装置の AC または DC 入力電源をオフにしてから再びオンにして、スイッチを回復できます。
重大およびシャットダウン温度という緊急状態により同じ処理が行われます。次の表に、温度による緊急状態を示しますが、重大とシャットダウンの緊急状態は区別しません。
ケース 1. ファンの完全な障害による緊急状態 |
syslog メッセージが表示され、シャーシはシャットダウンします。 |
ケース 2. ラインカードの温度による緊急状態。 |
ラインカードの電源を切ります。 |
ケース 3. 電源の温度による緊急状態。重大またはシャットダウン アラームしきい値を超えると、すべての電源がシャットダウンします。 |
デバイスの電源を再投入して、電源シャットダウンから回復します。 |
ケース 4. アクティブなスーパーバイザ モジュールの温度による緊急状態。 |
シャーシの電源を切断します。 |
システム アラーム
どのシステムにも、メジャーとマイナーの 2 種類のアラームがあります。メジャー アラームは、システムのシャットダウンにつながる可能性のある重大な問題を示します。マイナー アラームは情報で、対処しないと重大な問題となる可能性がある点について通知します。
次の表に、使用可能な環境アラームを示します。
警告しきい値を超える温度センサー |
マイナー |
||
重大しきい値を超える温度センサー |
メジャー |
||
シャットダウンしきい値を超える温度センサー |
メジャー |
||
ファンの部分的な障害 |
マイナー |
||
ファンの完全な障害
|
メジャー |
ファン障害アラームは、ファン障害状態が検知されると発生し、ファン障害状態が解消すると取り消されます。温度がしきい値温度に到達するとすぐに温度アラームが発行されます。スーパーバイザ モジュールの LED は、アラームが発生したかどうかを示します。
システムによってメジャー アラームが発生するとタイマーが始動しますが、その期間はアラームによって異なります。タイマーが切れるまでにアラームが取り消されない場合は、過熱による影響が生じないようにするためにシステムは緊急処理を行います。タイマー値および緊急処理は、スーパーバイザ モジュールのタイプによって異なります。
(注) |
スーパーバイザ モジュールのシステム LED の起動動作など、LED の詳細については、『Hardware Installation Guide』を参照してください。 |
イベント |
アラームの種類 |
スーパーバイザ LED の色 |
説明およびアクション |
---|---|---|---|
カードの温度が重大しきい値を超過 |
メジャー |
赤 |
アラームが発生すると、Syslog メッセージが表示されます。 |
カードの温度がシャットダウンしきい値を超過 |
メジャー |
赤 |
アラームが発生すると、Syslog メッセージが表示されます。 |
シャーシの温度が警告しきい値を超過 |
マイナー |
オレンジ |
アラームが発生すると、Syslog メッセージが表示されます。 |
シャーシ ファン トレイの部分的な障害 |
マイナー |
オレンジ |
アラームが発生すると、Syslog メッセージが表示されます。 |
シャーシ ファン トレイの完全な障害 |
メジャー |
赤 |
アラームが発生すると、Syslog メッセージが表示されます。 |
サーマルシャットダウンの無効化
Cisco IOS XE Gibraltar 16.11.1 リリース以降、システムのサーマルシャットダウンを手動で無効にするオプションが導入されました。これにより、温度が重大およびシャットダウン温度を超えた場合でも、シャーシの電源をオフにするスーパバイザエンジンの動作がトリガーされなくなります。サーマルシャットダウンのディセーブル機能を使用すると、システムがすでにシャットダウン状態になっている場合でも、システムのサーマル シャットダウン プロセスをバイパスできます。
サーマルシャットダウンのディセーブルオプションを設定するには、thermal shutdown disable コマンドを使用します。更新された設定をスタートアップ コンフィギュレーションに保存すると、システムは、次の電源再投入またはシステムのリロード後に、サーマルシャットダウンを無効にして起動します。
システムのサーマルシャットダウン機能を再度有効にするには、no thermal shutdown disable コマンドを使用します。
サーマルシャットダウンのディセーブル機能は、高可用性を完全にはサポートしていません。次に、サポートされないケースを示します。
-
アクティブなスーパバイザエンジンでのみサーマルシャットダウンがディセーブルになっている場合、システムがシャットダウン状態になったときに 2 番目のスーパバイザエンジンを起動すると、システムはシャットダウンしたままになります。
-
両方のスーパバイザエンジンでサーマルシャットダウンがディセーブルになっていて、システムがシャットダウン状態になった場合、サーマルシャットダウン機能を再度有効にすると、システムはシャットダウンしません。変更を有効にするには、設定の変更をスタートアップ コンフィギュレーションに保存し、スイッチをリロードする必要があります。
次の表に、スーパバイザエンジンの状態と、これらの各状態のサーマル シャットダウン ディセーブル設定サポートの可能な組み合わせを示します。
アクティブ スーパバイザ |
スタンバイ スーパバイザ |
サーマルシャットダウンのディセーブル設定のサポート |
---|---|---|
シャットダウン状態 |
シャットダウン状態 |
|
正常状態 |
シャットダウン状態 |
|
シャットダウン状態 |
正常状態 |
|
正常状態 |
正常状態 |
|