简介
本文档介绍当思科即时消息和在线状态(IM&P)的服务未按预期启动时应该采取的步骤。
背景信息
服务的状态
IM&P服务具有以下状态:
已启动
|
服务处于活动状态且正在运行。
|
开始
|
服务正在从停止过渡到已启动。
|
已停止
|
服务未启动,可能是因为它被手动停止或未激活。
|
停止
|
该服务正在从开始到停止的转换中。
|
请记住,在重新启动IM&P节点后,将生成下一个警告,如果您导航到“通知”(Notifications)页面,则可以在图形用户界面(GUI)上找到该警告,也可以通过命令行界面(CLI)找到该警告:

Cisco IM and Presence Data Monitor检测到数据库复制未完成,并且/或者从Cisco Unified Communications Manager的Cisco Sync Agent同步未完成。某些服务可以保持为“正在启动”状态,直到复制和Cisco Sync Agent同步成功完成。
该消息并不一定意味着服务在生成警报后仍处于Starting状态。当IM&P在重新启动或引导后出现时,IM&P Data Monitor将开始监控服务。Monitor Service检测到的第一件事是所有主服务都处于Starting过程中,这将触发消息。
要确认服务的实际状态,请运行utils service list命令。
注意:如果服务处于Started状态,请随时删除警报以保持通知警报的正常状态。
故障排除
识别问题
对服务未启动进行故障排除的第一步是了解哪些服务未启动。
验证出现在已停止服务的右侧的图例非常重要,通常您可以确定:
- 服务未激活:这意味着功能服务未激活,需要首先执行此操作。

- 已停止服务:重新启动服务器后,如果尚未禁用HA或重新启动某些服务,并且该操作导致其他服务的手动停止,则会显示此消息。在其他情况下,当网络管理员手动停止服务时,会显示此消息。此处的解决方案是从GUI或CLI手动启动服务。

- NOTRUNNING:当服务出现错误且无法启动时,会显示此消息。有时,在尝试手动启动服务后会出现此消息。第一次尝试是手动启动服务,但是如果此操作不起作用,则需要执行后续故障排除步骤。使用本指南帮助您解决服务未启动的问题。

服务仍处于启动状态
在重新启动后,在IM&P订用服务器上发现的一个最常见问题是查看几乎所有服务处于STARTING状态,而IM&P Publisher将所有服务显示为STARTED。
此行为的常见原因是在未从在线状态冗余组禁用高可用性(HA)时重新启动IM&P订户。
解决方案
步骤1.从在线状态冗余组中禁用高可用性,导航到CUCM管理页面>系统。
步骤2.在两个IM&P节点上运行下一个命令:set replication-sync monitor disable。
步骤3.等待约5分钟,然后再次运行下一命令:utils service list,确认服务现已启动。
步骤4.验证已在订阅服务器上启动所有服务,然后在两个IM&P节点上运行下一个命令:set replication-sync monitor enable。
步骤5.从在线状态冗余组重新启用高可用性。
特定服务未启动
网络服务
虽然不常见,但有时某些网络服务不会在IM&P发布方启动,这些情况包括:
- 思科客户端配置文件代理
- 思科可扩展通信平台(XCP)路由器
- 思科XCP配置管理器
- 思科路由和在线状态数据存储区
警告:XCP、在线状态引擎和SIP代理服务无法启动,因为这些服务取决于列出的网络服务。这会导致即时消息数据库(IMDB)不复制,并且Jabber用户无法登录。
解决方案
服务可以通过Web界面(导航到IM and Presence Serviceability > Tools > Control Center - Network Services > Look for the IM and Presence Services)启动,也可以通过命令行界面(CLI)启动,使用utils service start <name_of_the_service>命令。
步骤1.从在线状态冗余组禁用高可用性。
步骤2.严格按照下一个顺序手动启动每项服务:
- 思科客户端配置文件代理
- 思科路由数据存储
- Cisco Presence Datastore
- 思科XCP配置管理器
- 思科XCP路由器
注意:要启动Cisco Client Profile Agent,需要启动Cisco Tomcat服务。
如果上述步骤不起作用,则需要打开思科技术支持中心(TAC)案例以进一步排除故障。请记住,需要并输入后续输出和日志。
- CLI输出:
- show network cluster
- utils dbreplication runtimestate
- utils ha状态
- utils core active list
- utils service list
- 日志/跟踪:
- 思科系统日志代理
- 事件查看器 — 应用日志
- 事件查看器 — 系统日志
- 服务中任何仍然停止的跟踪
思科数据库(DB)
这是系统内的主要服务之一。
警告:如果此服务未启动,则服务器无法访问服务器网页上的某些功能,Jabber用户及其功能受损,数据库复制中断。
原因:
发现此问题的最常见原因包括:
- 更改主机名、IP地址或域,但不执行Cisco Guidelines流程。
- 系统不正常关闭后文件损坏。
解决方案:
遗憾的是,如果不启动此服务,则没有直接的解决方案步骤。建议如下:
步骤1.从在线状态冗余组禁用高可用性。
步骤2.重新启动Cisco DB Replicator。
步骤3.重新启动Cisco DB,如果它仍处于STARTING状态,请尝试将其停止,然后启动它。
这里的最佳方法是与Cisco TAC接洽,进行进一步调查,需要提供以下信息:
- CLI输出:
- show tech network host
- show tech database dump
- show tech dbintegrity
- 实用工具创建报告数据库
- 利用网络连接IM&P_node 1500
- Show network cluster
- utils core active list
- 日志或跟踪:
- Cisco 数据库层监控器
- 思科数据库库跟踪
- 思科数据库通知服务
- Cisco Database Replicator跟踪
- Cisco Informix数据库服务
- 思科系统日志代理
- 事件查看器 — 应用日志
- 事件查看器 — 系统日志
思科集群间同步代理(ICSA)
警告:如果此服务未启动,则无法跨IM&P节点和IM&P集群(集群间对等)同步IM&P数据库。
解决方案:
- 高可用性处于不良(或错误)状态,它不允许服务启动。
步骤1.您需要禁用HA,启动服务,然后重新启用HA。
如果服务未启动,则需要打开TAC案例以进行进一步的故障排除。请记住,需要后续输出和日志。
- CLI输出
- show network cluster
- utils dbreplication runtimestate
- utils ha状态
- utils core active list
- utils service list
- 日志/跟踪
- 思科系统日志代理
- 事件查看器 — 应用日志
- 事件查看器 — 系统日志
在线状态引擎
对于Cisco Presence Engine服务,必须考虑多个变体,以便了解该服务为何不启动以及如何启动。
- 打开CLI并运行命令:utils service list验证下一个服务是否处于running状态,如果不处于running状态,则需要首先启动这些服务:
- Cisco Presence Datastore
- 思科SIP代理
- 思科XCP路由器
- 思科同步代理
2.思科在线状态引擎(PE)服务未在IM&P用户中启动的最常见原因是IM&P用户尚未添加到在线状态冗余组(PRG)。
- 理由:PE服务与PRG关联,需要添加才能启动。
- 解决方案:将服务器添加到PRG并等待约5分钟,以查看它是否启动。
- 变体:应用上一个解决方案后,PE可能在IM&P节点上停止,该解决方案将执行以下步骤:
步骤1.将IM&P用户保留在PRG中。
步骤2.从PRG禁用高可用性。
步骤3.后续步骤需要先在发布服务器上执行,然后再在订阅服务器上执行
步骤4.首先重新启动Cisco SIP代理服务,等待其启动。
步骤5.重新启动Cisco PE服务,等待其启动。
3.如果IM&P订用程序已添加到PRG中,并且PE保持为“已停止”或“正在启动”状态,这可能与两个IM&P节点之间的数据库复制不匹配有关,请运行下一个run sql select * from enterprisde node命令。此查询的输出显示节点的id、节点的子集群id(即PRG id)、name或IP地址以及其他值。您想要关注的是两个IM&P节点共享相同的子集群id值。
- 理由:如果DB Replication未正确执行,IM&P Subscriber会将subclusterid显示为NULL。
- 解决方案:
步骤1.运行下一个命令:运行sql update enterprisenode set subclesterid=subclesterid_value_as_for_the_IM&P_Pub 其中id=IM&P_Sub_id
步骤2.从企业节点重新运行下一命令run sql select * ,并确保subclusterid对于两个IM&P节点都具有正确的值(相同)。服务必须在接下来的5分钟内自行启动,也可以尝试手动启动。
4.如果在执行了之前的故障排除并启动了除PE之外的所有服务:
步骤1.在两台IM&P节点上运行命令set replication-sync monitor disable。
步骤2.等待约5分钟,如果未启动,则尝试手动启动服务,运行下一个命令:utils service start Cisco Presence Engine。
步骤3.运行命令set replication-sync monitor enable。
5.如果PE服务尚无法启动,请验证服务器是否正在运行版本12.5,如果是,极有可能受到Cisco Bug ID CSCvg94247的影响。
思科同步代理
警告:如果此服务未启动,则未完成从CUCM到IM&P的数据库表的同步,这主要影响整个集群中的最终用户同步。
解决方案:检查下一个核对表。
- 验证CUCM和IM & Presence节点是否处于同一版本。如果服务器在11.X或更高版本中,则服务器需要在相同的SU版本上运行。
- 验证CUCM上的Cisco AXL Web服务是否处于运行状态。
- 验证IM&P节点是否列在CUCM上的服务器列表中。
- 如果不是,则需要重建IM&P服务器。如果服务器添加回服务器列表条目不起任何作用,因为每个添加的条目都会生成一个特定的ID,因此IM&P仍使用旧的ID。
- 在IM&P的CUCM Publisher页面上验证故障排除程序测试是否通过。
- 验证下一个统一资源定位器(URL)是否可通过URL访问:https://CUCM_OR_IM&P_FQDN_OR_IP
- 尝试重新启动CUCM发布服务器,然后重新启动IM&P发布服务器。
- 在IM&P发布服务器上运行下一个CLI查询:从epassyncagentcfg运行sql select * 。
- 确认显示的ccmpublisherip地址来自CUCM发布者。
- 在CUCM上运行下一个查询:
run sql select applicationuser.pkid, applicationuser.name , credential.credentials from applicationuser inner join credential on applicationuser.pkid=credential.fkapplicationuser where credential.tkcredential=3 and applicationuser.name='axluser_displayed_from_epassyncagentcfg'
- 验证下一个信息:
- username(在CUCM上)= axluser(在IM&P上)
- pkid(在CUCM上)= cucm_axluser_pkid(在IM&P上)
- 凭据(在CUCM上) = axlpassword(在IM&P上)
- 如果在CUCM用户列表中找不到epassyncagentcfg中的axluser,则在CUCM端使用以前的密码(如果已知)创建与旧axluser相同的新应用程序用户。
如果之前的操作不能帮助解决问题,您需要联系Cisco TAC进行进一步的故障排除。请记住,需要后续输出和日志。
CLI输出(来自CUCM Publisher和IM&P):
- Show network cluster
- 实用程序复制运行时间状态
- Utils ha状态
- Utils核心活动列表
- Utils service list
- 从epassyncagentcfg运行sql select *(仅在IM&P上)
- 从applicationuser.pkid、applicationuser.name、credential.credentials运行sql select applicationuser.pkid=credential.fkapplicationuser上的applicationuser内部加入凭据,其中credential.tkcredential=3和applicationuser.name='axluser_displayed_from_epassyncagentcfg'(仅在CUCM上)
日志/跟踪:
- 思科系统日志代理。
- 事件查看器 — 应用日志.
- 事件查看器 — 系统日志.
- 思科同步代理。
- Cisco AXL Web Service.
思科XCP配置管理器
Cisco XCP配置管理器是处理IM&P服务器中所有XCP组件的主要服务。即使大部分XCP服务(包括XCP路由器)处于运行状态,此服务也可以处于停止状态,使得XCP连接管理器、XCP Web服务管理器重新恢复停止或甚至无法与Expressway等其他服务器(对于MRA)同步。
首先,验证Informix数据库复制是否处于正确的状态:
实用程序复制状态
utils dbreplication runtimestate
如果一切正常,则禁用高可用性并尝试重新启动服务,如果服务失败,则禁用同步监控功能:
set replication-sync monitor disable
然后,再次尝试启动服务。通过实时监控工具(RTMT)或CLI获取Cisco XCP配置管理器日志:
file view activelog /epas/trace/xcpconfigmgr/log4j/xcpconfigmgr.log
And this is the most common scenario:
2024-12-11 14:20:52,650 FATAL [XCPConfigMgr] security.Log4jEncLogger - java.io.FileNotFoundException: /usr/local/platform/.security/CCMEncryption/keys/oldkeys.txt (No such file or directory)
2024-12-11 14:20:52,650 INFO [XCPConfigMgr] security.Log4jEncLogger - CCMENC::ERROR : decryptPassword - recovery mechanism failed
2024-12-11 14:20:52,650 FATAL [XCPConfigMgr] security.Log4jEncLogger - javax.crypto.BadPaddingException: Error finalising cipher data: pad block corrupted
2024-12-11 14:20:52,195 INFO [XCPConfigMgr] security.Log4jEncLogger - Entering decryptPassword
2024-12-11 14:20:52,196 INFO [XCPConfigMgr] security.Log4jEncLogger - Use Dkey to decrypt data
2024-12-11 14:20:52,213 INFO [Thread-12] dbl.Log4j - Name of appId:dbcli
2024-12-11 14:20:52,216 INFO [Thread-12] dbl.Log4j - Name of appId:dbxcpconfig
2024-12-11 14:20:52,219 INFO [Thread-12] dbl.Log4j - Name of appId:dbcli
2024-12-11 14:20:52,221 INFO [Thread-12] dbl.Log4j - Name of appId:dbxcpconfig
2024-12-11 14:20:52,649 INFO [XCPConfigMgr] security.Log4jEncLogger - CCMENC::ERROR : Dkey decryption failed. Use recovery mechanism to decrypt data.
2024-12-11 14:20:52,649 INFO [XCPConfigMgr] security.Log4jEncLogger - Using static key to decrypt data
2024-12-11 14:20:52,650 INFO [XCPConfigMgr] security.Log4jEncLogger - Exiting decryptPassword.fail
2024-12-11 14:20:52,650 FATAL [XCPConfigMgr] security.Log4jEncLogger - Decryption with static key failed as well. Fatal error javax.crypto.BadPaddingException: Error finalising cipher data: pad block corrupted
2024-12-11 14:20:52,650 INFO [XCPConfigMgr] security.Log4jEncLogger - CCMENC::ERROR : static key decryption failed. Use old keys to decrypt data
2024-12-11 14:20:52,650 INFO [XCPConfigMgr] security.Log4jEncLogger - Exiting DecryptPassword.fail. failed to read oldkey file
如果出现这种情况,您遇到了缺陷Cisco bug ID CSCur25679
XCP配置管理器和XCP服务未在IM&P上启动,您需要联系思科TAC以应用解决方法。
功能服务未启动
默认情况下,除非您使用每项服务的功能,否则以下服务将被禁用:
- Cisco XCP目录服务
- 思科XCP文件传输管理器
- Cisco XCP消息存档和Cisco XCP XMPP联合
即使您的IM&P激活了这些服务,除非为每个服务配置每个功能,否则服务不会启动。
Cisco XCP目录服务
Cisco XCP目录服务支持将可扩展消息传送和在线状态协议(XMPP)客户端与轻量级目录访问协议(LDAP)目录集成,允许用户从LDAP目录搜索和添加联系人。
要启动此服务,请执行以下操作:
1.导航到Cisco Unified CM IM and Presence Administration > Application > Third-Party Clients。
2.配置第三方XMPP客户端的设置。
您可以使用Cisco XCP目录服务允许第三方XMPP客户端的用户从LDAP目录搜索和添加联系人。
有关配置第三方XMPP目录的其他信息,请参阅打开Cisco XCP目录服务。
思科文件传输管理器
此服务允许您使用称为托管文件传输的服务器端文件传输解决方案。
托管文件传输(MFT)允许IM and Presence Service客户端(例如Cisco Jabber)将文件传输给其他用户、临时群组、聊天和持续聊天。
如果MFT的配置未到位,则服务不会启动。
有关配置第三方XMPP目录的其他信息,请参阅如何在CUCM IM/Presence 10.5中配置托管文件传输?
Cisco XCP消息存档程序
Cisco XCP Message Archiver服务支持IM Compliance功能。即时消息合规性功能会记录发送到即时消息和在线状态服务器或从即时消息和在线状态服务器发送的所有消息,包括点对点消息,以及来自聊天功能的特定(临时)和永久聊天室的消息。消息会记录到外部思科支持的数据库中。
如果未配置合规性配置,则服务不会启动。
有关如何配置消息存档的其他信息,请参阅即时消息和在线状态服务版本12.5(1)的即时消息合规性。
思科XCP XMPP联合连接管理器
Cisco XCP XMPP Federation Connection Manager支持通过XMPP协议与第三方企业(例如国际商用机器(IBM)Lotus Sametime、Cisco Webex Meeting Center、GoogleTalk和另一个IM and Presence企业)进行域间联合。
此服务在配置XMPP联合之前不会启动。
有关如何配置消息存档的其他信息,请参阅IM and Presence服务版本12.5(1)的域间联合指南。
相关信息