Голосовая связь и система унифицированных коммуникаций : Cisco Unified Communications Manager (CallManager)

Типичные проблемы CUCM на платформе UCS: ядро, высокая загрузка CPU - ввод-вывод, состояние зависания

20 октября 2016 - Машинный перевод
Другие версии: PDF-версия:pdf | Английский (22 августа 2015) | Отзыв

Введение

Этот документ описывает, как устранить неполадки пяти сценариев типичной проблемы, с которыми встречаются с Cisco Unified Communications Manager (CUCM) на платформе системы Unified Computing System (UCS).

Некоторые типичные причины:

  • Сбой жесткого диска
  • Резервный набор независимых дисков (RAID) неисправность контроллера
  • Сбой Батарейки (BBU)

Внесенный Sivakumar Shanmugam, специалистом службы технической поддержки Cisco.

Сценарий 1: Высокая загрузка ЦП из-за ввода-вывода ждет проблема

Признаки

Cisco Call Manager (CCM) и сервисы Интеграции компьютерной телефонии (CTI) перезапускают из-за ядра CTI CCM.

Как проверить

Трассировки CUCM

Используйте эти команды CLI для сбора трассировок CUCM:

  • покажите процесс с помощью ЦПУ
  • show status
  • список активных пользователей ядра utils
  • ядро util анализирует выходные данные <последние, последние два выходных данных>

Исследуйте эти журналы устройства контроля в реальном времени (RTMT):

  • Подробный CCM
  • Подробный CTI
  • Служба сбора данных Сервера поступающия в реальном времени данные (RIS) PerfMonLogs
  • Журналы программы просмотра событий
  • Системные журналы Просмотра событий

Образец выходных данных

Пример выходных данных:

admin:utils core active list
Size Date Core File Name
===============================================
355732 KB 2014-X-X 11:27:29 core.XXX.X.ccm.XXXX
110164 KB 2014-X-X 11:27:25 core.XXX.X.CTIManager.XXXX
admin:util core analyze output 

====================================
CCM service backtrace
===================================
#0 0x00df6206 in raise () from /lib/libc.so.6
#1 0x00df7bd1 in abort () from /lib/libc.so.6
#2 0x084349cb in IntentionalAbort (reason=0xb0222f8 "CallManager unable to process
signals. This may be due to CPU or blocked function. Attempting to restart
CallManager.") at ProcessCMProcMon.cpp:80
#3 0x08434a8c in CMProcMon::monitorThread () at ProcessCMProcMon.cpp:530
#4 0x00a8fca7 in ACE_OS_Thread_Adapter::invoke (this=0xb2b04270) at OS_Thread_
Adapter.cpp:94
#5 0x00a45541 in ace_thread_adapter (args=0xb2b04270) at Base_Thread_Adapter.cpp:137
#6 0x004aa6e1 in start_thread () from /lib/libpthread.so.0
#7 0x00ea2d3e in clone () from /lib/libc.so.6
====================================
 
 
====================================
CTI Manager backtrace
===================================
#0 0x00b3e206 in raise () from /lib/libc.so.6
#1 0x00b3fbd1 in abort () from /lib/libc.so.6
#2 0x08497b11 in IntentionalAbort (reason=0x86fe488 "SDL Router Services declared
dead. This may be due to high CPU usage or blocked function. Attempting to restart
CTIManager.") at ProcessCTIProcMon.cpp:65
#3 0x08497c2c in CMProcMon::verifySdlTimerServices () at ProcessCTIProcMon.cpp:573
#4 0x084988d8 in CMProcMon::callManagerMonitorThread (cmProcMon=0x93c9638) at Process
CTIProcMon.cpp:330
#5 0x007bdca7 in ACE_OS_Thread_Adapter::invoke (this=0x992d710) at OS_Thread_
Adapter.cpp:94
#6 0x00773541 in ace_thread_adapter (args=0x992d710) at Base_Thread_Adapter.cpp:137
#7 0x0025d6e1 in start_thread () from /lib/libpthread.so.0
#8 0x00bead3e in clone () from /lib/li
====================================

От Службы сбора данных RIS PerfMonLogs вы видите высокий дисковый ввод-вывод в течение базового времени.

След совпадает с идентификатором ошибки Cisco CSCua79544: Частый Process core CCM из-за Высокого Дискового ввода-вывода. Этот дефект описывает неполадку в оборудовании и объясняет, как далее изолировать проблему.

Включите Файловый ввод-вывод, Сообщив (FIOR):

Используйте эти команды для включения FIOR:

utils fior start
utils fior enable

Затем ждите следующего возникновения. Вот команда CLI для сбора выходных данных: файл получает activelog platform/io-stats. Введите эти команды для отключения FIOR:

utils fior stop
utils fior disable

Вот некоторый типовой вывод лога FIOR:

kern 4 kernel: fio_syscall_table address set to c0626500 based on user input
kern 4 kernel: fiostats: address of do_execve set to c048129a
kern 6 kernel: File IO statistics module version 0.99.1 loaded. 
kern 6 kernel: file reads > 265000 and writes > 51200 will be logged
kern 4 kernel: fiostats: enabled.
kern 4 kernel: fiostats[25487] started.

Решение

Ввод-вывод ЖДЕТ, обычно проблема с платформой UCS и ее хранилищем.

Журнал UCS требуется, чтобы изолировать местоположение причины. См., Как Собрать раздел Журналов UCS для инструкций для сбора трассировок.

Сценарий 2: Перезагрузки CUCM периодически

Признаки

Перезагрузки CUCM из-за катастрофического отказа ESXI, но основной проблемы - то, что машина UCS теряет питание.

Как проверить

Исследуйте эти Трассировки CUCM:

  • Cisco Служба сбора данных RIS PerfMonLog
  • Просмотр событий - Журнал приложения
  • Просмотр событий - Системный журнал
  • Подробный CCM

В трассировках CUCM нет ничего соответствующего. CUCM останавливается, прежде чем инцидент и это придерживаются обычный сервисный перезапуск. Это устраняет CUCM и указывает, что причина находится в другом месте.

Платформа UCS, где выполнения CUCM имеет проблему. Платформа UCS имеет много экземпляров Виртуальной машины (VM), которые работают на ней. Если какой-либо VM встречается с ошибкой, то он замечен в журналах UCS.

Журнал UCS требуется для изоляции местоположения причины. См., Как Собрать раздел Журналов UCS для инструкций о том, как собрать трассировки.

Типовые выходные данные интегрированного контроллера управления Cisco (CIMC)

Пример выходных данных:

5:2014 May 11 13:10:48:BMC:kernel:-:<5>[lpc_reset_isr_handler]:79:LPC Reset ISR ->
ResetState: 1
5:2014 May 11 13:10:48:BMC:kernel:-:<5>drivers/bmc/usb/usb1.1/se_pilot2_udc_usb1_1.c:
2288:USB FS: VDD Power WAKEUP- Power Good = OFF
5:2014 May 11 13:10:48:BMC:kernel:-:<5>[se_pilot2_wakeup_interrupt]:2561:USB HS:
VDD Power = OFF
5:2014 May 11 13:10:48:BMC:BIOSReader:1176: BIOSReader.c:752:File Close :
/var/nuova/BIOS/BiosTech.txt
5:2014 May 11 13:10:48:BMC:kernel:-:<5>[block_transfer_fetch_host_request_for_app]:
1720:block_transfer_fetch_host_request_for_app : BT_FILE_CLOSE : HostBTDescr = 27 :
FName = BiosTech.txt
5:2014 May 11 13:10:48:BMC:IPMI:1357: Pilot2SrvPower.c:466:Blade Power Changed To:
[ OFF ]
5:2014 May 11 13:10:49:BMC:lv_dimm:-: lv_dimm.c:126:[lpc_reset_seen]LPC Reset Count
is Different [0x1:0x2] Asserted LPC Reset Seen
 

Решение

Когда вы встречаетесь с этой ошибкой, Pilot2SrvPower. c : 466:Blade Питание, Измененное На: [ВЫКЛЮЧЕНО] - Проблема питания, это означает, что машина UCS теряет питание. Следовательно, необходимо гарантировать, что машина UCS получает достаточную мощность.

Ситуация 3: Сбои CUCM

Признаки

Сбои VM CUCM, но все еще отвечают на эхо-запросы. vSphere экран консоли отображает эту информацию:

*ERROR* %No Memory Available*ERROR* %No Memory Available

Как проверить

Исследуйте эти Трассировки CUCM:

  • Cisco Служба сбора данных RIS PerfMonLog
  • Просмотр событий - Журнал приложения
  • Просмотр событий - Системный журнал
  • Подробный CCM

В трассировках CUCM нет ничего соответствующего. CUCM останавливается перед инцидентом и придерживается обычным сервисным перезапуском. Это устраняет CUCM и указывает, что причина находится в другом месте.

Платформа UCS, где выполнения CUCM имеет проблему. Платформа UCS имеет много экземпляров VM, которые работают на ней. Если какой-либо VM встречается с ошибкой, то он замечен в журналах UCS.

Журнал UCS требуется для изоляции местоположения причины. См., Как Собрать раздел Журналов UCS для инструкций о том, как собрать трассировки.

Обходной путь

Выключите VM и перезагрузите его. После перезагрузки хорошо работает система.

Сценарий 4: CUCM "зависает"

Признаки

Сервер CUCM переходит к состоянию, где он "зависает".

Как проверить

Исследуйте эти Трассировки CUCM:

  • Cisco Служба сбора данных RIS PerfMonLog
  • Просмотр событий - Журнал приложения
  • Просмотр событий - Системный журнал
  • Подробный CCM

В трассировках CUCM нет ничего соответствующего. CUCM останавливается перед инцидентом и придерживается обычным сервисным перезапуском. Это устраняет CUCM и указывает, что причина находится в другом месте.

Платформа UCS, где выполнения CUCM имеет проблему. Платформа UCS имеет много экземпляров VM, которые работают на ней. Если какой-либо VM встречается с ошибкой, то он замечен в журналах UCS.

Журнал UCS требуется для изоляции местоположения причины. См., Как Собрать раздел Журналов UCS для инструкций о том, как собрать трассировки.

Обходной путь

Попробуйте ручной перезапуск, чтобы видеть, помогает ли он.

Сценарий 5: CUCM находится в Режиме чтения

Признаки

Вы получаете эту ошибку:

The /common file system is mounted read only.Please use Recovery Disk to check
the file system using fsck.

Как проверить 

Издатель (PUB) и один Абонент (SUB), которые установлены на той же машине UCS, показывают ошибку режима чтения. Аварийный диск не устраняет проблему.

В трассировках CUCM нет ничего соответствующего. CUCM останавливается перед инцидентом и придерживается обычным сервисным перезапуском. Это устраняет CUCM и указывает, что причина находится в другом месте.

Платформа UCS, где выполнения CUCM имеет проблему. Платформа UCS имеет много экземпляров VM, которые работают на ней. Если какой-либо VM встречается с ошибкой, то он замечен в журналах UCS.

Журнал UCS требуется для изоляции местоположения причины. См., Как Собрать раздел Журналов UCS для инструкций о том, как собрать трассировки.

Решение

После замены оборудования восстановите проблематичные узлы.

Как Собрать журналы UCS

В этом разделе описывается собрать, трассировки должны были определить проблему или предоставляют ссылки на статьи, которые предоставляют ту информацию.

Как собрать журналы CIMC: Show tech

См. эти информационные статьи о том, как собрать журналы CICM:

Использование Cisco GUI CIMC для Сбора Подробных данных показывать-технологии

Визуальное Руководство для сбора файлов Технической поддержки (B и серии C)

Как собрать журналы ESXI: Системные журналы

См. эту информационную статью о том, как собрать журналы ESXI:

Получение Диагностической информации для ESXi 5.x хосты с помощью vSphere Клиента 

Произведите выборку выходных данных CLI CIMC

Вот некоторые типовые выходные данные CIMC CLI от Сбоя жесткого диска:

ucs-c220-m3 /chassis # show hdd
Name Status LocateLEDStatus
-------------------- -------------------- --------------------
HDD1_STATUS present TurnOFF
HDD2_STATUS present TurnOFF
HDD3_STATUS failed TurnOFF
HDD4_STATUS present TurnOFF
HDD5_STATUS absent TurnOFF
HDD6_STATUS absent TurnOFF
HDD7_STATUS absent TurnOFF
HDD8_STATUS absent TurnOFF
 
ucs-c220-m3 /chassis # show hdd-pid
Disk Controller Product ID Vendor Model
---- ----------- -------------------- ---------- ------------
1 SLOT-2 A03-D500GC3 ATA ST9500620NS
2 SLOT-2 A03-D500GC3 ATA ST9500620NS
3 SLOT-2 A03-D500GC3 ATA ST9500620NS
4 SLOT-2 A03-D500GC3 ATA ST9500620NS
 
 
ucs-c220-m3 /chassis/storageadapter # show physical-drive
Physical Drive Number Controller Health Status Manufacturer Model Predictive
Failure Count Drive Firmware Coerced Size Type
--------------------- ---------- -------------- ---------------------- ------
-------- -------------- ------------------------ -------------- -------------- -----
1 SLOT-2 Good Online ATA ST9500620NS 0 CC03 475883 MB HDD
2 SLOT-2 Good Online ATA ST9500620NS 0 CC03 475883 MB HDD
3 SLOT-2 Severe Fault Unconfigured Bad ATA ST9500620NS 0 CC03 0 MB HDD
4 SLOT-2 Good Online ATA ST9500620NS 0 CC03 475883 MB HDD

Вот некоторые типовые выходные данные CICM CLI от сбоя RAID-контроллера:

ucs-c220-m3 /chassis/storageadapter # show virtual-drive
Virtual Drive Health Status Name Size RAID Level Boot Drive
------------- -------------- -------------------- ---------------- ----------
---------- ----------
0 Moderate Fault Degraded 951766 MB RAID 10 true

Типовые выходные данные CIMC GUI

Вот некоторые типовые выходные данные CIMC GUI от Сбоя жесткого диска:

Вот некоторые типовые выходные данные CIMC GUI от Фиолетовой Экранной Ошибки:

(Сбой RAID-контроллера | Дефект: исключение CSCuh86924 ESXi PSOD PF 14 - 9266-8i RAID-контроллер LSI  )

Вот некоторые типовые выходные данные CIMC GUI от Сбоя BBU:



Document ID: 118702