思科CAPNet:迈向五个9的高可用性

在全球化公司的运营当中,维护网络畅通责任重大,而思科网络堪称世界上规模最大、最为复杂的网络之一,思科的IT部门为什么能高枕无忧?

思科IT部门为实现高可用性联网和降低运营成本的目标,正在不断进行创新努力。他们正通过一个全球骨干网络—思科全分组网络(CAPNet),为分布在全球的数万名思科员工和承包商提供服务。

“CAPNet是思科融合式全球通信基础设施的核心,在全球数百家思科和合作伙伴机构间,为思科员工传输语音、视频和数据信息。该网络的可用性对维持思科业务运营发挥着关键作用,”思科系统公司全球IT基础设施副总裁Lance Perry说。

高可用性的定义

  • 高可用性通常被定义为网络可用的时间比例,用9的个数表示:
  • 3个9(99.9%)——每周停机10分钟
  • 4个9(99.99%)——每周停机1分钟
  • 5个9(99.999%)——每周停机6秒钟

思科的业务应用需要至少4个9的可用性,而CAPNet团队成功地将其网络可用性提高到5个9,不仅实现了可用性目标,而且还将管理整个思科全球网络的CAPNet员工人数从6名工程师减少至只需一人。

这一令人难以置信的成就要归功于思科IT部门的精英在网络基础设施、网络设计、网络管理、网络运营、网络支持等五个方面的出色努力。

网络基础设施

为着手改善总体网络和运营基础设施,CAPNet和地区IT小组首先在整个网络中实施全新的IP编址计划,以实现路由整合。这一计划减小了路由表的规模,同时也保留了内存和CPU资源。而借助实施分级路由,可将路由的不稳定性限制到一个较小的区域。如果整合范围内的一个地址发生变化,或者一条链路状态改变,这种变化不会影响到整合区外。

一致的硬件和软件配置对于CAPNet保持全球范围的高可用性十分关键。每个个性化配置都有可能使支持变得复杂,延长停机时间,加大IT部门的总体拥有成本。CAPNet采用高性能思科路由和交换设备作为标准硬件平台,并主动在各地点和设备上部署了尽可能少的Cisco IOS软件版本,以将CAPNet设备和其他运营小组的设备间的互操作性问题降至了最低限度。

CAPNet团队还通过应用和实施标准配置,避免由于配置不一致或不正确造成的不兼容问题。AAA验证、SNMP访问列表、NTP和日志的所有有关事项的标准配置,都有助于减少支持和互操作问题,并最大限度地提高性能和可靠性。

通过路由改进以及软、硬件和配置的标准化,CAPNet重新构建起可靠的网络基础设施,仅仅这一项成功,就可将CAPNet可用性提高至4个9以上。

网络设计

对于像CAPNet这样的广域网来说,精心规划以提供冗余和容错性的架构设计是基础。在设计过程中,就对物理设施的选择、电信运营商电路规划、永续技术的采用、冗余主机和电路、IP事件抑制等各方面都进行了全面的考虑和衡量。

例如,每个CAPNet地点都是通过冗余硬件上最少2条不同路由电路而连接的,这种做法大幅度提高了容错能力,即使遭遇主机或电路故障也不会中断流量,因为流量将会被迅速重新路由至冗余主机和电路。

由于设计充分考虑了性能、可靠性和成本等关键因素,CAPNet能够从架构上得到可靠保证。

网络管理

简便性和一致性对网络高可用性管理是必不可少的。CAPNet必须能确保主机得到明确识别。通过EMAN管理系统主机配置,每台CAPNet设备都连入了EMAN主机管理系统,并都具有准确和一致的EMAN主机管理信息。这种管理工作确保每台主机被唯一地识别,并为监控和报警奠定了基础。

CAPNet在网络管理中必须确保每台主机永远可连接,为此采用了独立的带外管理路径连接每个地点。带外管理路径完全独立于主WAN电路,因而不太可能与主电路同时出现故障。它确保了即使在所有WAN电路出现故障的情况下,网络支持人员也可以利用该路径开启每台设备的控制台会话,远程分析问题,而无需将人员派遣至现场。这是一个关键的可用性因素,使网络支持人员可以毫不拖延地着手解决问题,恢复服务。

网络运营

CAPNet团队在Cisco IOS软件升级、变更管理、故障管理等方面采用成熟、规范的做法,大大提升了网络运营水平。

只有当用户需要新特性并得到公司的部署许可时,才能采用新的Cisco IOS软件版本。升级严格按照流程执行。虽然历经各部门测试和部署,但是CAPNet运营依然会在部署前,对每个新的Cisco IOS软件镜像进行了预筛选和验证。在所有路由器上则存储当前Cisco IOS软件镜像及其前一版本,确保了在需要的时候随时可以恢复可用的版本。同时,遵循详尽的升级程序,整个CAPNet都会定期升级Cisco IOS软件镜像。

变更管理也是网络运营的一个重要方面。变更在一个复杂系统中是司空见惯的,而网络故障往往由变更导致,因此认真管理变更对维护高可用性网络至关重要。通过变更管理系统,CAPNet以系统化的方式在思科网络中进行部署,并保证变更在预定时间内完成,将由于各种变更导致的系统不可用时间缩减到最短。这套成熟的变更管理做法也是整个思科IT部门的运作模式。

即使是高度可用的网络也不可避免地经历过故障和停机。硬件部件故障,软件故障,WAN电路损坏,网络人员失误等屡见不鲜。监控网络性能,并在故障发生时向支持人员报警不会减少故障次数,但却可以将不良影响减至最小。通过建立一个可以快速识别问题并通知运营负责人员的强大的监控和报警系统(EMAN),CAPNet大幅度减少了停机时间和所导致的不良影响。

网络支持

CAPNet分配有呼叫工程师进行网络支持工作,并由思科高级服务部门提供辅助。呼叫工程师7*24轮换,负责解决所有紧急事务。CAPNet将其呼叫值班安排和其他思科IT支持小组都公布在IT运营支持值班计划表上,并有明确的责任交接。CAPNet值班工程师会按照一个标准程序,发现问题,交流进程,并记录结果。

主动的故障管理也是支持团队的重要工作。对微小问题进行主动调查,使弱点能够及时被发现,使其不致发展成为影响服务的停机。

根据其成功经验,CAPNet团队总结道:“许多企业网络都可以实现5个9,但如果不仔细关注导致网络停机的各种因素,就无法达到这一标准。为实现5个9的高可用性,企业必须评估和改进网络设计、运营、管理和支持。”

的确,从思科经验来看,出色的运营实践经验和技巧为已经实现高可用性在各方面铺平了道路。采用最佳实践通常会在短期内提高运营开支,但如果实施恰当,将显著地减少长期开支。高可用性网络改善了公司形象,降低了运营成本,提高了员工和供应商效率,并可支持现代化IP通信应用,如视频会议和IP语音等。它所带来的优势和回报远远超过成本。

返回

[an error occurred while processing this directive]