音声とユニファイド コミュニケーション : Cisco Unified Communications Manager(CallManager)

UCS プラットフォームの CUCM よくある問題: コア、高CPU - I/O、ハングした状態

2016 年 10 月 27 日 - 機械翻訳について
その他のバージョン: PDFpdf | 英語版 (2015 年 8 月 22 日) | フィードバック

概要

この資料に見つけられるユニファイド コンピューティング システム(UCS)プラットフォームの Cisco Unified Communications Manager (CUCM)で 5 つのよくある問題シナリオを解決する方法を記述されています。

いくつかのコモン コーズは次のとおりです:

  • ハードディスク の 障害
  • Redundant Array of Independent Disk (RAID) コントローラ障害
  • バッテリー バックアップ ユニット(BBU)失敗

Sivakumar Shanmugam によって貢献される、Cisco TAC エンジニア。

シナリオ 1: I/O 待機問題による CPU使用率が高い状態

症状

CCM CTI コアによる Cisco Call Manager (CCM)およびコンピュータ テレフォニー インテグレーション (CTI) サービス 再始動。

確認する方法

CUCM トレース

CUCM トレースを収集するためにこれらの CLI コマンドを使用して下さい:

  • CPU を使用して最も show process
  • show status
  • utils コア アクティブ リスト
  • util コアは <latest 出力を最後の 2 output> 解析します

これらの実時間監視 ツール(RTMT)ログを検査して下さい:

  • 詳しい CCM
  • 詳しい CTI
  • リアルタイム情報 サーバ(RIS)データコレクタ PerfMonLogs
  • イベントビューアアプリケーションログ
  • イベント ビューア システムログ

出力例

出力例はここにあります:

admin:utils core active list
Size Date Core File Name
===============================================
355732 KB 2014-X-X 11:27:29 core.XXX.X.ccm.XXXX
110164 KB 2014-X-X 11:27:25 core.XXX.X.CTIManager.XXXX
admin:util core analyze output 

====================================
CCM service backtrace
===================================
#0 0x00df6206 in raise () from /lib/libc.so.6
#1 0x00df7bd1 in abort () from /lib/libc.so.6
#2 0x084349cb in IntentionalAbort (reason=0xb0222f8 "CallManager unable to process
signals. This may be due to CPU or blocked function. Attempting to restart
CallManager.") at ProcessCMProcMon.cpp:80
#3 0x08434a8c in CMProcMon::monitorThread () at ProcessCMProcMon.cpp:530
#4 0x00a8fca7 in ACE_OS_Thread_Adapter::invoke (this=0xb2b04270) at OS_Thread_
Adapter.cpp:94
#5 0x00a45541 in ace_thread_adapter (args=0xb2b04270) at Base_Thread_Adapter.cpp:137
#6 0x004aa6e1 in start_thread () from /lib/libpthread.so.0
#7 0x00ea2d3e in clone () from /lib/libc.so.6
====================================
 
 
====================================
CTI Manager backtrace
===================================
#0 0x00b3e206 in raise () from /lib/libc.so.6
#1 0x00b3fbd1 in abort () from /lib/libc.so.6
#2 0x08497b11 in IntentionalAbort (reason=0x86fe488 "SDL Router Services declared
dead. This may be due to high CPU usage or blocked function. Attempting to restart
CTIManager.") at ProcessCTIProcMon.cpp:65
#3 0x08497c2c in CMProcMon::verifySdlTimerServices () at ProcessCTIProcMon.cpp:573
#4 0x084988d8 in CMProcMon::callManagerMonitorThread (cmProcMon=0x93c9638) at Process
CTIProcMon.cpp:330
#5 0x007bdca7 in ACE_OS_Thread_Adapter::invoke (this=0x992d710) at OS_Thread_
Adapter.cpp:94
#6 0x00773541 in ace_thread_adapter (args=0x992d710) at Base_Thread_Adapter.cpp:137
#7 0x0025d6e1 in start_thread () from /lib/libpthread.so.0
#8 0x00bead3e in clone () from /lib/li
====================================

RIS データコレクタ PerfMonLogs から、コア時間の間に高いディスク I/O を表示できます。

backtrace は Cisco バグ ID CSCua79544 と一致します: 高いディスク I/O による頻繁な CCM プロセス コア。 この不具合はハードウェア上の問題を記述し、更に問題を隔離する方法を説明します。

イネーブル ファイル I/O レポート(FIOR):

FIOR を有効に するためにこれらのコマンドを使用して下さい:

utils fior start
utils fior enable

それから、次の発生のための待機。 出力を集める CLI コマンドはここにあります: ファイルは activelog platform/io 統計を得ます。 FIOR をディセーブルにするためにこれらのコマンドを入力して下さい:

utils fior stop
utils fior disable

サンプル FIOR ログ 出力はここにあります:

kern 4 kernel: fio_syscall_table address set to c0626500 based on user input
kern 4 kernel: fiostats: address of do_execve set to c048129a
kern 6 kernel: File IO statistics module version 0.99.1 loaded. 
kern 6 kernel: file reads > 265000 and writes > 51200 will be logged
kern 4 kernel: fiostats: enabled.
kern 4 kernel: fiostats[25487] started.

解決策

I/O 待機は通常 UCS プラットフォームおよびストレージにおいての問題です。

UCS ログが原因の位置を隔離するために必要となります。 トレースを収集する手順に関しては UCS ログ セクションを集める方法を参照して下さい。

シナリオ 2: 定期的に CUCM リブート

症状

ESXI クラッシュしかし根本的な問題による CUCM リブートは UCS マシンは電源が切断されることです。

確認する方法

これらの CUCM トレースを検査して下さい:

  • Cisco RIS データコレクタ PerfMonLog
  • イベントビューアアプリケーションログ
  • イベント ビューア-システムログ
  • 詳しい CCM

CUCM トレースで関連した何もありません。 CUCM は事件の前に停止し、これは正常なサービス再始動続かれます。 これは CUCM を除去し、原因が他の所であることを示します。

CUCM 実行に問題があるところ UCS プラットフォーム。 UCS プラットフォームにそれで動作する多くの Virtual Machine (VM) 例があります。 どの VM でもエラーに出会う場合、それは UCS ログで見られます。

UCS ログが原因の位置を隔離するために必要となります。 トレースを収集する方法についての手順のための UCS ログ セクションを集める方法を参照して下さい。

出力される Cisco Integrated Management Controller を(CIMC)見本抽出して下さい

出力例はここにあります:

5:2014 May 11 13:10:48:BMC:kernel:-:<5>[lpc_reset_isr_handler]:79:LPC Reset ISR ->
ResetState: 1
5:2014 May 11 13:10:48:BMC:kernel:-:<5>drivers/bmc/usb/usb1.1/se_pilot2_udc_usb1_1.c:
2288:USB FS: VDD Power WAKEUP- Power Good = OFF
5:2014 May 11 13:10:48:BMC:kernel:-:<5>[se_pilot2_wakeup_interrupt]:2561:USB HS:
VDD Power = OFF
5:2014 May 11 13:10:48:BMC:BIOSReader:1176: BIOSReader.c:752:File Close :
/var/nuova/BIOS/BiosTech.txt
5:2014 May 11 13:10:48:BMC:kernel:-:<5>[block_transfer_fetch_host_request_for_app]:
1720:block_transfer_fetch_host_request_for_app : BT_FILE_CLOSE : HostBTDescr = 27 :
FName = BiosTech.txt
5:2014 May 11 13:10:48:BMC:IPMI:1357: Pilot2SrvPower.c:466:Blade Power Changed To:
[ OFF ]
5:2014 May 11 13:10:49:BMC:lv_dimm:-: lv_dimm.c:126:[lpc_reset_seen]LPC Reset Count
is Different [0x1:0x2] Asserted LPC Reset Seen
 

解決策

このエラーに出会うとき、Pilot2SrvPower.c:466:Blade 電源はに変更しました: [OFF] UCS マシンは電源が切断されることを-パワー 問題、意味します。 それ故に、それに UCS マシン gets 十分な電力を確認する必要があります。

シナリオ 3: CUCM クラッシュ

症状

CUCM VM クラッシュはまだ ping にしかし応答します。 vSphere コンソール 画面 ディスプレイこの情報:

*ERROR* %No Memory Available*ERROR* %No Memory Available

確認する方法

これらの CUCM トレースを検査して下さい:

  • Cisco RIS データコレクタ PerfMonLog
  • イベントビューアアプリケーションログ
  • イベント ビューア-システムログ
  • 詳しい CCM

CUCM トレースで関連した何もありません。 CUCM は事件の前に停止し、正常なサービス再始動に先行しています。 これは CUCM を除去し、原因が他の所であることを示します。

CUCM 実行に問題があるところ UCS プラットフォーム。 UCS プラットフォームにそれで動作する多くの VM 例があります。 どの VM でもエラーに出会う場合、それは UCS ログで見られます。

UCS ログが原因の位置を隔離するために必要となります。 トレースを収集する方法についての手順のための UCS ログ セクションを集める方法を参照して下さい。

回避策

電源遮断の VM それをリブートし。 再度ブートするが、システムうまく働いた後。

シナリオ 4: CUCM はハングします

症状

CUCM サーバはハングする状態に行きます。

確認する方法

これらの CUCM トレースを検査して下さい:

  • Cisco RIS データコレクタ PerfMonLog
  • イベントビューアアプリケーションログ
  • イベント ビューア-システムログ
  • 詳しい CCM

CUCM トレースで関連した何もありません。 CUCM は事件の前に停止し、正常なサービス再始動に先行しています。 これは CUCM を除去し、原因が他の所であることを示します。

CUCM 実行に問題があるところ UCS プラットフォーム。 UCS プラットフォームにそれで動作する多くの VM 例があります。 どの VM でもエラーに出会う場合、それは UCS ログで見られます。

UCS ログが原因の位置を隔離するために必要となります。 トレースを収集する方法についての手順のための UCS ログ セクションを集める方法を参照して下さい。

回避策

助けるかどうか見るために手動再始動を試みて下さい。

シナリオ 5: CUCM は読み取り専用 の モードにあります

症状

このエラーが発生します。

The /common file system is mounted read only.Please use Recovery Disk to check
the file system using fsck.

確認する方法 

同じ UCS マシンでインストールされている 1 人のサブスクライバ(SUB)はおよびパブリッシャ(PUB)読み取り専用 の モード エラーを示します。 リカバリ ディスクは問題を解決しません。

CUCM トレースで関連した何もありません。 CUCM は事件の前に停止し、正常なサービス再始動に先行しています。 これは CUCM を除去し、原因が他の所であることを示します。

CUCM 実行に問題があるところ UCS プラットフォーム。 UCS プラットフォームにそれで動作する多くの VM 例があります。 どの VM でもエラーに出会う場合、それは UCS ログで見られます。

UCS ログが原因の位置を隔離するために必要となります。 トレースを収集する方法についての手順のための UCS ログ セクションを集める方法を参照して下さい。

解決策

ハードウェア置換の後で、問題となるノードを再製して下さい。

UCS ログを集める方法

このセクションは問題点を明らかにするのに必要とされるトレースを収集する方法を記述するか、またはその情報を提供する技術情報へのリンクを提供します。

CIMC ログを集める方法: Show tech

CICM ログを集める方法についての情報に関してはこれらの技術情報を参照して下さい:

show-tech 詳細を集める Cisco CIMC GUI の使用

テクニカル サポート ファイルを収集するためのビジュアル ガイド(B および C シリーズ)

ESXI ログを集める方法: システムログ

ESXI ログを集める方法についての情報に関してはこの技術情報を参照して下さい:

vSphere クライアントを使用した ESXi 5.x ホストのための診断情報の取得 

サンプル CIMC CLI 出力

ハードディスク の 障害から出力されるサンプル CIMC CLI はここにあります:

ucs-c220-m3 /chassis # show hdd
Name Status LocateLEDStatus
-------------------- -------------------- --------------------
HDD1_STATUS present TurnOFF
HDD2_STATUS present TurnOFF
HDD3_STATUS failed TurnOFF
HDD4_STATUS present TurnOFF
HDD5_STATUS absent TurnOFF
HDD6_STATUS absent TurnOFF
HDD7_STATUS absent TurnOFF
HDD8_STATUS absent TurnOFF
 
ucs-c220-m3 /chassis # show hdd-pid
Disk Controller Product ID Vendor Model
---- ----------- -------------------- ---------- ------------
1 SLOT-2 A03-D500GC3 ATA ST9500620NS
2 SLOT-2 A03-D500GC3 ATA ST9500620NS
3 SLOT-2 A03-D500GC3 ATA ST9500620NS
4 SLOT-2 A03-D500GC3 ATA ST9500620NS
 
 
ucs-c220-m3 /chassis/storageadapter # show physical-drive
Physical Drive Number Controller Health Status Manufacturer Model Predictive
Failure Count Drive Firmware Coerced Size Type
--------------------- ---------- -------------- ---------------------- ------
-------- -------------- ------------------------ -------------- -------------- -----
1 SLOT-2 Good Online ATA ST9500620NS 0 CC03 475883 MB HDD
2 SLOT-2 Good Online ATA ST9500620NS 0 CC03 475883 MB HDD
3 SLOT-2 Severe Fault Unconfigured Bad ATA ST9500620NS 0 CC03 0 MB HDD
4 SLOT-2 Good Online ATA ST9500620NS 0 CC03 475883 MB HDD

RAID コントローラ障害から出力されるサンプル CICM CLI はここにあります:

ucs-c220-m3 /chassis/storageadapter # show virtual-drive
Virtual Drive Health Status Name Size RAID Level Boot Drive
------------- -------------- -------------------- ---------------- ----------
---------- ----------
0 Moderate Fault Degraded 951766 MB RAID 10 true

サンプル CIMC GUI 出力

ハードディスク の 障害から出力されるサンプル CIMC GUI はここにあります:

紫色画面 エラーからのサンプル CIMC GUI 出力はここにあります:

(侵略コントローラ障害 | 問題: CSCuh86924 ESXi PSOD PF 例外 14 - LSI RAID コントローラ 9266-8i)

BBU 失敗から出力されるサンプル CIMC GUI はここにあります:



Document ID: 118702