面向 IT 运营指挥中心的远程电话应急呼叫

"我们对 SRS Telephony 的使用超出了其设计初衷 - 即,不是用于网络边缘的可用性,而是用于在网络核心确保业务连续性。" ----Ian Reddy, 数据中心运营部 IT 项目经理

挑战

如果说有哪个部门对思科系统公司®的实际生存最为重要,那便是 IT 运营指挥中心 (OCC)。这个24小时全天候工作的机构虽然只有三五个人,却肩负着重任 - 促进解决可能影响业务连续性的重大问题。对于思科网络中监控的 24,000 个资源,OCC 负责持续监控其中 10,000 个被划分为第1和第2优先级的资源(P1和P2),包括主机、网络设备、应用和数据库等。一旦发生故障,OCC 将提供通知、上报、协作和记录等支持 - 为技术人员解决问题提供框架。

IT 运营指挥中心 IT 项目经理 Ian Reddy 说:"我们负责调配人员。电话和寻呼系统是我们最常用的通信工具。即便是日常电话系统出现问题,OCC 的电话也绝不能断线。"

2000年,思科圣何塞园区安装了一对基于 TDM 的专用分组交换(PBX)交换机。产品极为可靠 - 这令我们感到非常欣慰。要知道,安装第二个备用系统代价极高且困难重重,几乎是行不通的。那时,IT OCC 与思科在圣何塞园区的所有其他员工都使用相同的电话系统,不提供任何形式的备份。

当思科迁移到 IP 电话网络并以 Cisco CallManager 集群替代了基于 TDM 的 PBX 交换机时,OCC 是最后一个完成转换的机构。他们对技术转换存在顾虑 - IP 解决方案的可靠性能否等于甚至超过 TDM 解决方案呢?虽然经证实,IP 电话是极为可靠的语音传输架构,但仍不提供备份功能。作为Cisco IOS®特性之一的 远程电话应急呼叫 (SRST) 可提供此类备份功能。IT 项目经理Fran McBrearty 说:"我们的传统 PBX 采用冗余配置,使我们无需担心系统备份问题。SRST 能够提供更高级别的备份。OCC 开始迁移之前,我们便坚信 IP 电话系统能够提供持续的可用性。"

思科园区使用的基本 IT 电话解决方案本身非常可靠。总部部署的 Cisco CallManager "超集群"管理着 5万个电话号码并采用冗余设计,如 TFTP 发布服务器、主用用户服务器和备用用户服务器等。这个级别的冗余能够满足大型企业对电话系统的高可用性要求。圣何塞园区的 IP 电话系统在过去12个月内实现了高达 99.998% 的拨号音可用性。

但这仍然未能满足 OCC 的要求,因此OCC 找到一个机会进一步提高可用性。McBrearty 说:"电话系统对 OCC 以及思科业务连续性来说都太重要了,OCC 希望添加另一个级别的备份,以便在 CallManager 超集群和 PSTN 网关发生故障时能够自如应对。"

思科从2002年中期开始规划将 OCC 迁移到 IP 电话网络。McBrearty 说:"我们认真评估了所有的备选方案,包括其他供应商提供的解决方案,甚至包括在一个桌面上安装两部电话。"

解决方案

经过反复验证,McBrearty 和 Reddy 最终认为,确保 IP 电话系统持续可用的最佳解决方案是基于Cisco SRS Telephony 的冗余架构。作为 Cisco IOS 软件的特性之一,SRS Telephony 能自动检测出网络故障,然后使用思科简单网络自动设置(SNAP)功能来启动流程,以便智能地自动配置路由器,为IP 电话提供呼叫处理备份冗余。

SRS Telephony 通常在分支机构使用,以便在分支机构与放置在另一地点的集中 Cisco CallManager 集群之间发生广域网链路中断事故时,确保分支机构的员工能够继续拨打和接听电话。与分支机构不同,OCC 在安装 CallManager 集群的位置使用 SRS Telephony,以便为 IP 电话提供服务级别的冗余,在发生意外的技术或安全事故时确保电话能够继续使用。Reddy说:"我们对 SRS Telephony 的使用超出了其设计初衷 - 即,不是用于网络边缘的可用性,而是用于在网络核心确保业务连续性。SRS Telephony 通常用于帮助与总部脱节的远程站点长期满足电话需求。但对我们而言,不仅是远程站需要可用性,核心设施更需要可用性 - 即便在周围环境全面瘫痪时也不例外。"

SRS Telephony 的这个创新应用引起了广泛关注。大量的企业客户纷纷访问思科 OCC 机构,以了解解决方案如何为自己的数据运营中心或关键任务的呼叫中心提供持续可用性。

架构
OCC 部署的SRS Telephony 通过至少四个级别的备份来确保业务连续性(图1)。McBrearty 将这个部署比喻成"皮带与吊带" 的方法。他说:"CallManager 集群的冗余设计特性是支撑运营的皮带。当整个 CallManager 发生故障时,基于 SRS Telephony 的思科路由器将作为吊带接管工作。现在,大多数的数据中心对这个级别的可用性都感到满意,但思科 OCC 希望进一步改进,因此,我们在另一个大楼中安装了全冗余系统。"Reddy 说:" SRS Telephony 架构为我们的运营透明地提供物理冗余支持。"

注: 解决方案中的 Cisco CallManager 集群与思科为大型企业客户提供的集群完全相同。

图1 面向OCC IP 电话系统的四级备份

备份流程
PSTN 传输的呼叫通常都是通过主用 SRS Telephony 路由器进入思科网络的。作为主用路由器的 Cisco 3550 路由器将呼叫传递至 Cisco CallManager 超集群,再由Cisco CallManager 超集群将呼叫转发至目标电话。如果 CallManager 超集群或入站 PSTN 网关不可用,路由器将不把呼叫传递至 CallManager 集群,而是直接发送给目标电话。如果主用的 SRS Telephony 路由器碰巧也无法使用,呼叫将被传输至同一个大楼中的备用 SRS Telephony 路由器。

如果除Cisco CallManager 集群外,主用备用路由器均不可用,系统将激活另一个级别的冗余。例如,当大楼发生自然灾难时,呼叫将自动进入冗余 OCC 位置中的备用系统。如果需要手动故障切换 - 例如在存在爆炸危险的情况下 - 手动切换几分钟便可完成。

测试
部署解决方案之前,McBrearty 领导的部门在使用 10个电话号码的 OCC 环境中测试了 SRS Telephony。他说:"鉴于SRS Telephony 的这个应用比较特殊,因此,它的行为多少有别于使用集中呼叫处理机制的典型的 SRS Telephony 环境。我们的工程师 Jeff McDowell 对解决方案进行了严格测试并为我们指出了有待改进之处。经过长达数月的反复调试,我们终于开发出了合理的特性集。"某些特性现已成为标准,被 SRS Telephony 的所有思科客户所采纳。

实施
OCC 于2003年7月10日迁移到了 Cisco CallManager 和 SRS Telephony 架构。鉴于 OCC 的电话号码非常重要,因此,思科在转换期间邀请电信运营商 SBC/Pacific Bell 和 Sprint 提供帮助。来自两家运营商的工程师们将两个电话号码从原来的PSTN 中继线 (连接CallManager 超集群) 转换到不同的中继线上 (连接基于 SRS Telephony 的路由器),然后与 McDowell 工作组一起对呼叫流进行了全面测试(图2)。

图2 呼叫故障切换

切换当晚,联合工作组用了一小时完成了迁移准备工作,包括 CallManager 超集群中的最后路由变更以及拨号对等说明中的最后一分钟变更。思科随后请运营商的工程师将电话号码从常规的中继线组转移到新的中继线中并随即进行测试。切换工作在测试完成后正式启动。Reddy 说:"思科与运营商合作,合理调配岗位 - 将具备适当电话技能的人员安排在最需要的岗位上。虽然他们在切换期间没发挥什么作用,但却对解决方案进行了长达7小时的测试,确保了解决方案的顺利运行。"

成效

现在,OCC 坚信其IP 电话网络能实现持续运行,即使思科网络发生故障也不例外。Reddy 说:"即便整个环境全面瘫痪,我们的电话系统也必须照常工作。这是迁移后对 IP 电话系统的普遍要求,也是对 SRS Telephony 的特殊要求。"

许多大型企业都对 SRS Telephony 的这个特殊应用表现出了浓厚的兴趣,主要是针对运营指挥中心和重要的呼叫中心。Reddy 说:"对于我们这样的公司来说,电话在确保业务连续性方面发挥着重要作用。"

Reddy 继续说:"从根本上说,IP 电话非常稳定。我们部署 SRS Telephony 主要是为了在极端情况下确保 IP 电话的可用性。值得一提的是,我们不会为了实现卓越的可用性而放弃 IP 电话的任何特性或功能,而是将可用性视为附加优势。"

经验教训

对于考虑在数据中心或呼叫中心部署 SRS Telephony 解决方案的公司,McBrearty 特别强调 IT、客户和第三方服务供应商协作的重要性。他说:"我们在进行切换时,邀请SBC/Pacific Bell 和 Sprint 参加了所有的规划会议,以便电信运营商了解我们的工作及其对思科的重大意义。您应了解业务需求、网络和运营商,并与运营商建立良好的合作关系。"

McBrearty 认为测试也至关重要。他说:"请先在实验室中构建小型解决方案,不要急于在生产环境中测试解决方案。例如,思科在测试实施时只用了 10 个电话号码。

下一步

在通过 SRS Telephony 成功满足了对高冗余 IP 电话系统的运营需求后,OCC 将成为部署 SRS Telephony 的思科典范。Reddy 和 McBrearty 将长期调查如何将解决方案扩展用于支持无线电话和 Cisco IP SoftPhone 软件。Reddy 说:"我希望OCC具有更强的移动性以及灵活的灾难恢复能力。例如,我希望将运营扩展到全世界,让全球所有员工都能对应答 OCC 电话号码的电话进行监控。"

"通过将 IP 电话丰富的特性集与 SRS Telephony 实施的冗余特性相结合,我们将获得远远超过 PBX 交换机的功能。"

随着思科进一步增强 SRS Telephony 以便在故障弱化模式中支持更多的 IP 电话,思科将把超大规模的分支机构与 CCP 架构相连接,从而进一步降低管理成本,如拥有1000名员工的加利福尼亚州 Petaluma 机构。

Holloman 说:"集中呼叫处理使我们能够将 IP 电话经济高效地扩展到所有机构,与规模无关。SRS Telephony 帮助我们规避了风险。集中呼叫处理帮助思科降低了前期购置成本和后期运行负担,并为远程机构的员工提供了全部特性,确保每名员工都能访问相同的生产率增强型 IP 应用,思科藉此将获得长期收益。"

联系我们