本文档介绍如何从用户数据库(DB)恢复Cisco Unified Communications Manager(CUCM)发布方节点,而无需事先备份或根访问。
在CUCM的早期版本中,发布方节点被视为结构化查询语言(SQL)数据库的唯一权威源。因此,如果发布方节点因硬件故障或文件系统损坏而丢失,恢复它的唯一方法是重新安装并从灾难恢复系统(DRS)备份恢复数据库。
有些客户没有保留正确的备份,或备份过期,因此唯一的选择是重建和重新配置发布服务器节点。
在CUCM版本8.6(1)中,引入了一项新功能,以从用户数据库恢复发布服务器数据库。本文档介绍如何利用此功能从订阅服务器成功恢复发布服务器数据库。
思科强烈建议您保留整个集群的完整灾难恢复框架(DRF)备份。由于此过程仅恢复CUCM数据库配置,因此其他数据(如证书、通话等待音乐(MoH)和TFTP文件)不会恢复。为避免这些问题,请保留完整的集群DRF备份。
在重新安装发布服务器之前,必须收集有关上一个发布服务器的相关详细信息。这些详细信息必须与原始发布者安装匹配:
要检索列表中的前三项,请在当前用户节点CLI中输入show network cluster命令:
admin:show network cluster
172.18.172.213 cucm911ccnasub1 Subscriber authenticated
172.18.172.212 cucm911ccnapub Publisher not authenticated - INITIATOR
since Tue Dec 3 12:43:24 2013
172.18.172.214 cucm911ccnasub2 Subscriber authenticated using TCP since
Sun Dec 1 17:14:58 2013
在本例中,IP地址为172.18.172.212,主机名为cucm911ccnapub,并且没有为发布者配置域名。
从站点文档检索安全密码(列表中的第四项)。如果您不确定安全密码,请尽力猜测,并根据CUCM版本尝试根据需要验证和更正。如果安全密码不正确,则需要发生集群中断以纠正此情况。
要检索确切的CUCM版本和已安装的COP文件(列表中的最后两个项),请从show version active命令收集系统输出:
admin:show version active
Active Master Version: 9.1.2.10000-28
Active Version Installed Software Options:
No Installed Software Options Found.
在本例中,安装9.1.2.10000-28版本时没有附加COP文件。
安装发布服务器后,复制不设置和删除当前订阅服务器数据库至关重要。为防止出现此情况,请在所有用户上输入utils dbreplication stop命令:
admin:utils dbreplication stop
********************************************************************************
This command will delete the marker file(s) so that automatic replication setup
is stopped
It will also stop any replication setup currently executing
********************************************************************************
Deleted the marker file, auto replication setup is stopped
Service Manager is running
Commanded Out of Service
A Cisco DB Replicator[NOTRUNNING]
Service Manager is running
A Cisco DB Replicator[STARTED]
Completed replication process cleanup
Please run the command 'utils dbreplication runtimestate' and make sure all nodes
are RPC reachable before a replication reset is executed
收集适当版本的可启动映像,并执行安装,并升级到适当版本。
安装发布者,并为前面提到的IP地址、主机名、域名和安全密码指定正确的值。
要检索节点列表,请在当前订阅者的CLI中输入run sql select name,description,nodeid from processnode命令。名称值可以是主机名、IP地址或完全限定域名(FQDN)。
如果运行CUCM版本10.5(2)或更高版本,则utils disaster_recovery prepare restore pub_from_sub 命令必须在发布方CLI上运行,然后才能继续将节点添加到System > Server:
收到节点列表后,导航至System > Server,并将除EnterpriseWideData以外的所有名称值添加到Publisher Server Unified CM管理页。名称值必须与“系统”>“服务器”菜单上的“主机名/IP地址”字段。
admin:run sql select name,description,nodeid from processnode
name description nodeid
================== =============== ======
EnterpriseWideData 1
172.18.172.212 CUCM901CCNAPub 2
172.18.172.213 CUCM901CCNASub1 3
172.18.172.214 CUCM901CCNASub2 4
要在进程节点更改完成后重新启动发布服务器,请输入utils system restart命令:
admin:utils system restart
Do you really want to restart ?
Enter (yes/no)? yes
Appliance is being Restarted ...
Warning: Restart could take up to 5 minutes.
Shutting down Service Manager. Please wait...
\Service Manager shutting down services... Please Wait
Broadcast message from root (Tue Dec 3 14:29:09 2013):
The system is going down for reboot NOW!
Waiting .
Operation succeeded
发布服务器重新启动后,如果您正确进行了更改且安全密码正确,则集群应处于已验证状态。要验证此情况,请输入show network cluster命令:
admin:show network cluster
172.18.172.212 cucm911ccnapub Publisher authenticated
172.18.172.213 cucm911ccnasub1 Subscriber authenticated using TCP since
Tue Dec 3 14:24:20 2013172.18.172.214 cucm911ccnasub2 Subscriber authenticated using TCP since
Tue Dec 3 14:25:09 2013
如果以前没有可用的备份,请在DRS页上执行群集备份。
如果没有可用备份,则执行新备份;如果备份已存在,则可跳过此部分。
使用导航菜单导航到灾难恢复系统并添加备份设备。
添加备份设备后,启动手动备份。
在“灾难恢复系统”页上,导航至“恢复”>“恢复向导”。如果当前备份可用,并且跳过了上一部分,请选中“选择功能”(Select Features)部分中的所有功能复选框:企业许可证管理器(ELM)(如果可用)、CDR_CAR和统一通信管理器(UCM)。 如果使用上一节中执行的备份,请仅选中UCM复选框:
单击 Next。选中发布方节点复选框(CUCM911CCNAPUB),然后选择从中进行恢复的用户数据库。然后,单击“恢复”。
当恢复到CCMDB组件时,“状态”文本应显示为“从订阅服务器备份恢复发布服务器:
在重新启动并设置复制之前,最好先验证恢复是否成功,以及发布服务器数据库是否包含所需信息。在继续之前,请确保这些查询在发布方和订用方节点上返回相同的值:
恢复完成后,在每个节点上输入utils system restart命令。从发布者开始,然后是每个订阅者。
admin:utils system restart
Do you really want to restart ?
Enter (yes/no)? yes
Appliance is being Restarted ...
Warning: Restart could take up to 5 minutes.
Shutting down Service Manager. Please wait...
\ Service Manager shutting down services... Please Wait
Broadcast message from root (Tue Dec 3 14:29:09 2013):
The system is going down for reboot NOW!
Waiting .
Operation succeeded
导航至Cisco Unified Reporting页面并生成Unified CM数据库状态报告。可能尚未设置复制,但必须确保Unified CM主机、Unified CM主机和Unified CM Sqlhosts文件与发布者匹配。如果不匹配,则需要重新启动不匹配的节点。如果这些文件不匹配,请不要继续下一步或重置复制。
根据版本,复制可能无法自动设置。要检查此项,请等待所有服务启动,然后输入utils dbreplication runtimestate命令。状态值0表示正在进行设置,而值2表示已成功为该节点设置复制。
此输出表示正在进行复制设置(其中两个节点的状态显示为0):
此输出表示复制设置成功:
如果任何节点显示的状态值为4,或者如果复制在几小时后未成功设置,请从发布方节点输入utils dbreplication reset all命令。如果复制继续失败,请参阅排除Linux设备型号Cisco中的CUCM数据库复制故障文章,了解有关如何排除问题的详细信息。
由于数据库恢复不会恢复之前的所有组件,因此必须手动安装或恢复许多服务器级项目。
DRF恢复不会激活任何服务。导航至工具>服务激活,并根据“统一可维护性”页面中的站点文档激活发布者应运行的任何必要服务:
如果没有完全备份,则必须重现某些手动配置。特别是涉及证书和TFTP功能的配置:
本节介绍可能导致此过程失败的各种场景。
如果集群不进行身份验证,最常见的两个原因是TCP端口8500上的安全密码不匹配和连接问题。
要验证集群安全密码是否匹配,请在两个节点的CLI中输入utils create report platform命令,并检查platformConfig.xml文件的哈希值。在发布方和订用方节点上,这些值应匹配。
<IPSecSecurityPwCrypt>
<ParamNameText>Security PW for this node</ParamNameText>
<ParamDefaultValue>password</ParamDefaultValue><ParamValue>0F989713763893AC831812812AB2825C8318
12812AB2825C831812812AB2825C </ParamValue>
</IPSecSecurityPwCrypt>
如果这些匹配,请检验端口8500上的TCP连接。如果不匹配,则尝试修复密码时可能会遇到困难,原因是CUCM代码中围绕该过程的几个缺陷:
如果CUCM版本包含针对所有这些问题的修复,最简单的解决方案是在所有节点上完成Cisco Unified Communications Operating System Administration Guide 10.0(1)版中详述的口令恢复过程。如果CUCM版本不包含这些问题的修复,则思科技术支持中心(TAC)可能能够根据情况执行解决方法。
如果恢复未列出DB组件,则备份本身可能不包含DB组件。确保发布服务器数据库运行并可以接受查询,并执行新备份。
要排除复制故障,请参阅Linux设备型号Cisco中的CUCM数据库复制故障排除文章。
由于数据库恢复不会恢复任何证书,因此如果发布者是主TFTP服务器,则签名者不同。如果电话信任用户信任验证服务(TVS)证书,并且电话和TVS服务器之间打开TCP端口2445,则应自动解决该问题。因此,思科建议您维护完整的集群DRF备份。
8.6版之前的CUCM版本可能也存在证书问题,即使以前备份成功,也是因为Cisco Bug ID CSCtn50405所致。