可用性 : 高可用性

容量和性能管理:最佳实践白皮书

2016 年 10 月 27 日 - 机器翻译
其他版本: PDFpdf | 英语 (2015 年 8 月 22 日) | 反馈


目录


简介

高网络可用性是在大型企业和服务提供商网络内的一个目标关键需求。网络管理器面对增加对提供的挑战高性能,包括不定期的停工期、缺乏专业技术,不足的工具、复杂技术、商业合并和竞争的市场。容量和性能管理帮助网络管理器得到新的全球业务目标和一致网络可用性和性能。

本文检查以下主题:

  • 一般产能和性能问题,包括风险和潜在容量问题在网络内。

  • 容量和性能管理最佳实践,包括若分析,基线,趋向,异常管理和QoS管理。

  • 如何开发一个容量计划策略,包括普通的技术、工具、用于容量规划的MIB变量和阈值。

容量和性能管理概述

容量规划是确定要求的网络资源进程防止性能或可用性影响在商业关键应用。性能管理是管理网络服务响应时间实践、一致性和质量单个和整体服务的。

注意: 性能问题与产能通常涉及。应用程序更加慢,因为带宽和数据在队列必须等待在传送前通过网络。在语音应用,问题类似延迟和抖动直接地影响语音呼叫的质量。

多数组织一致已经收集若干涉及容量的信息和工作解决问题,计划更改,并且实现新增效益和性能功能。然而,组织若不定期地执行趋向和分析。假设分析是确定网络更改的影响进程。趋向是进程执行包括网络容量基准和性能问题和查看网络趋势的基准了解将来升级需求。容量和性能管理应该也包括问题在用户调用前识别并且被解决的异常管理和网络管理员计划,管理,并且识别独立服务性能问题的QoS管理。以下图说明容量和性能管理进程。

http://www.cisco.com/c/dam/en/us/support/docs/availability/high-availability/20769-process.gif

容量和性能管理也有其限制,典型地涉及与CPU和内存。下列是注意事项的潜在的区域:

  • CPU

  • 背板或I/O

  • 内存和缓冲区

  • 接口和管道大小

  • 排队,延迟和抖动

  • 速度和距离

  • 应用特性

对容量规划和性能管理的一些参考也提及呼叫“数据层面”和“控制层面的”某事。当控制层面含义需的资源维护数据层面的适当的功能时,数据层面是产能和性能问题涉及与穿程网络的数据。控制层面功能包括服务开销例如路由、生成树、接口keepalive和设备的SNMP管理。这些控制层面需求使用CPU、内存、缓冲、队列和带宽正如穿程网络的流量。许多控制层面需求对系统的整体功能也是重要的。如果他们没有资源他们需要,网络发生故障。

CPU

CPU乘控制层面和数据层面典型地使用在所有网络设备。在容量和性能管理,您必须保证设备和网络有一直作用满足的CPU。因为在一个设备的不适于的资源可能影响整个网络,不足的CPU能经常崩溃网络。不足的CPU能也增加延迟,因为数据必须等待处理没有主CPU时,当没有硬件交换。

背板或I/O

背板或I/O是指设备能处理的数据流总量,通常描述根据BUS大小或背板功能。不足的背板通常导致丢弃的数据包,可能导致重发和另外的流量。

内存

内存是有数据层面和控制层面需求的另一种资源。内存要求对于信息例如路由表、ARP表和其他数据结构。当设备用尽内存时,在设备的一些操作可以发生故障。操作能根据情况影响控制层面进程或数据层面进程。如果控制层面进程发生故障,整个网络能降低。例如,当额外内存为路由聚合时,要求这能发生。

接口和管道大小

建立接口并且管道传送大小参考在所有一连接可以同时发送的相当数量数据。这经常不正确地指连接的速度,但是数据确实不传播以从一个设备的不同的速度到另一个。硅加速,并且硬件功能帮助确定根据媒体的可用的带宽。另外,软件机制能“节流”数据依照服务的特定带宽分配。固有地有1.54kpbs速度功能对155mbs和更加高的您在服务提供商网络典型地看到此为帧中继或ATM。当有带宽限制时,数据在传输队列排队。传输队列可能有优先安排不同的软件机制在队列内的数据;然而,当有在队列时的数据,它必须等待现有数据,在能转递数据接口前。

排队,延迟和抖动

排队,延迟和抖动也影响性能。您能调整传输队列影响性能用不同的方式。例如,如果队列大,然后数据等待更加长。当队列小时,数据丢弃。因为数据将被重新传输,这呼叫尾部丢弃并且对于TCP应用程序是可接受。然而,语音和视频不很好实行与要求对带宽的队列丢弃甚至重大的队列延迟特别注意也不管道传送大小。如果设备没有充足的资源立即转发数据包,队列延迟能也发生在Input queue。这可以归结于CPU、内存或者缓冲区。

接收的延迟描述从时间的处理时间,直到数据包转发的时间。正常现代数据交换和路由器有极低的延迟(< 1ms)通常情况下,不用资源约束。有转换的数字信号处理器的现代设备和压缩模拟语音数据包可能采取更加长,至20ms。

抖动描述流应用程序的包间间隙,包括语音和视频。如果数据包到达在与不同的包间间隙定时的不同的时刻,则抖动高,并且语音质量降低。抖动是排队延迟主要要素。

速度和距离

速度和距离也是在网络性能的一个要素。数据网有根据光速的一一致数据转发速度。这是大约每毫秒100英里。如果组织国际上地运行客户端服务器应用程序,则他们能期待对应的数据包转发延迟。当申请没有优化对网络性能时,速度和距离可以是在应用程序性能的一个极大的要素。

应用特性

应用特性是影响产能和性能的最后区域。问题例如小窗口大小、应用程序Keepalive和在网络发送的相当数量数据与什么要求能影响一应用程序的性能在许多环境的,特别是WAN。

容量和性能管理最佳实践

此部分详细讨论五主要容量和性能管理最佳实践:

服务级别管理

服务级别管理定义了并且调控其他需要的容量和性能管理进程。网络管理器了解他们需要容量规划,但是他们面对预算和给防止一完整的解决方案的限制条件雇用职员。服务级别管理是与资源问题的帮助通过定义服务的一个宣传品和创建的双向责任制附加对该宣传品的一证明的方法。您能完成此用两种方式:

  • 创建在用户和网络组织之间的服务级别协议包括容量和性能管理的服务的。服务包括报告和建议维护服务质量。然而,用户必须准备资助服务和所有需要的升级。

  • 网络组织定义了他们的容量和性能管理服务然后尝试该服务的资助并且根据具体情况升级。

无论如何,网络组织应该通过定义包括的容量规划和性能管理服务开始服务的什么方面他们能当前提供,并且什么在将来计划。一完整服务包括网络更改的假设分析和应用程序更改,基线和趋向定义性能变量、异常管理定义产能的和性能变量和QoS管理的。

网络和应用程序假设分析

执行网络和应用程序假设分析确定计划内更改的结果。没有假设分析,组织感受重大的风险对于更改成功和整体网络可用性。在许多情况下,网络更改导致导致许多小时制作停工期的拥塞瘫痪。另外,惊人数量的应用程序引入失效并且导致影响其他用户和应用程序。这些失败在许多网络组织继续,他们是完全可预防的用一些个工具和一些另外的规划步骤。

您通常需要一些更新过程执行质量假设分析。第一步将识别所有更改的风险级别和要求更高的风险更改的更加详细的假设分析。风险级别可以是所有更改提交的一必填字段。更高的风险级别更改然后将要求更改的定义假设分析。网络假设分析确定网络更改影响在网络利用率和网络控制面板资源问题的。应用程序假设分析将确定项目应用成功、带宽需求和所有网络资源问题。下表是风险级别分配和对应测试需求示例:

风险级别 定义 计划建议的崔凡吉莱
1
  • 对用户(500+)或企业关键服务大量的巨大的潜在影响由于新产品、软件、拓扑或者功能介绍。
  • 崔凡吉莱介入预计网络停工期。
  • 验证新的解决方案实验室。实验室验证包括描述的显示影响的解决方案测试和验证和假设分析对现有基础设施。我们推荐解决方案试验。新的解决方案要求操作支持文件的完成。
  • 执行Cisco NSA设计审核。
  • 创建复原计划。
  • 创建实施计划。
  • 创建更改过程。
2
  • 对大量的巨大的潜在影响用户(500+)或企业关键服务由于流量一大增加或用户、骨干网变动或者路由更改。
  • 崔凡吉莱可能需要相当的停工期。
  • 执行假设分析确定影响到现有的环境(在实验室环境应该执行)。
  • 测试并且检查功能的路由更改。
  • 创建复原计划。
  • 执行专业路由或骨干网变动的设计审核。
  • 创建实施计划。
  • 创建更改过程。
3
  • 对用户或商业服务更加小的编号的中等潜在影响由于任何非标准更改。
  • 包括新产品、软件、拓扑、增加功能或者新用户、增加的数据流或者非标准拓扑。
  • 崔凡吉莱可能需要相当的停工期。
  • 执行新的解决方案工程分析(可以要求实验室验证)。
  • 创建实施计划。
  • 创建更改过程。
4
  • 降低潜在服务或用户影响。
  • 添加新建的标准模板网络模块,例如建立或服务器交换机/集线器的Includes在路由器。
  • 包括启动新建的广域网站点或另外的经验证的访问服务。
  • 所有风险级别3变化技术上证明在生产环境上。
  • 崔凡吉莱可能需要相当的停工期。
  • 创建实施计划。
  • 创建更改过程。
5
  • 没有用户或服务影响。
  • 添加个人用户的Includes到网络和标准配置配置更改例如密码、标语、SNMP,或者其他标准配置参数。
  • 没有停工期。
  • 可选的更改过程。

一旦定义了您需要假设分析的地方,您能定义服务。

您可执行网络假设分析用建模工具或与仿造生产环境的实验室。建模工具由应用程序多么恰当限制了解设备资源问题,并且,因为多数网络更改是新的设备,应用程序可能不了解更改的效果。佳方法是建立生产网络的某些表示在实验室和测试所需的软件、功能、硬件或者配置在负载下通过使用数据流生成器。泄漏路由(或其他控制信息)从生产网络到实验室里也提高实验室环境。测试用不同的流量类型的其他资源需求,包括SNMP、广播,组播,加密或者压缩的数据流。在潜在的重点情况期间例如路由集中、链路抖动和设备重新启动,使用所有这些不同的方法学,请分析设备资源需求。资源利用问题包括正常容量资源区域例如CPU、内存、背板利用率,缓冲区和排队。

新应用应该也执行假设分析确定应用成功和带宽需求。您在实验室环境通常执行此分析使用协议分析程序和广域网延迟模拟程序了解距离效果。您只需要PC、集线器,广域网延迟设备和实验路由器连接到生产网络。您在实验室里能由限制的流量模拟在测试路由器的带宽使用通用流量整形或速率限制。网络管理员能与应用组一道工作了解带宽需求、窗口机制问题和潜在的性能问题应用程序的在LAN和广域网环境。

在部署任何商业应用前执行一应用程序假设分析。如果不执行此,应用组由于低性能责备网络。如果能通过变更管理流程莫名其妙地需要对新的部署的申请假设分析,您可帮助防止不成功部署,并且更加好请了解在带宽消耗的突然的增加客户端服务器和批处理需求的。

基线和趋向

基线和趋向允许网络管理员在容量问题原因网络中断时间或性能问题前计划和完整网络升级。在数据库比较资源利用率在连续的时间或随着时间的推移蒸馏信息下来并且允许计划程序查看资源利用率参数小时、天、周、月和去年。无论如何,某人必须查看关于一个每周,双周或者每月基本类型的信息。关于基线和趋向的问题是在大型网络要求占优势的量信息查看。

您能解决此问题是几个方式:

  • 构建大量产能和交换到LAN环境,因此产能里是不是问题。

  • 划分趋势信息成组并且集中网络的高可用性或重要区域,例如重要广域网站点或数据中心LAN。

  • 报告机制能突出显示在特别注意的一特定的阈值上下跌的区域。如果实现关键可用性首先区域,您可以极大减少为复核要求的信息量。

使用所有上一个方法,您仍然需要查看信息定期。基线和趋向是前期努力,并且,如果组织只有响应式支持服务的资源,个人不会阅读报告。

许多网络管理解决方案在容量资源变量提供信息和图表。不幸地,多数人只使用响应式支持服务的这些工具对现有问题;这阻挠目的对于基线和趋向。是有效在提供产能趋势信息为Cisco网络的两个工具是和谐的网络状况产品和INS EnterprisePRO产品。在许多情况下,网络组织运行简单脚本语言收集容量信息。下面通过链路利用率、CPU利用率和ping性能的脚本收集的一些示例报告。可能是重要趋向的其他资源变量包括内存、队列深度、广播数量、缓冲区、帧中继拥塞通知和背板利用率。参考这些表关于链路利用率和CPU利用率的信息:

链路利用率

资源 地址 分段 平均利用率(%) 峰值使用率(%)
JTKR01S2 10.2.6.1 128 kbps 66.3 97.6
JYKR01S0 10.2.6.2 128 kbps 66.3 97.8
FMCR18S4/4 10.2.5.1 384 Kbps 51.3 109.7
PACR01S3/1 10.2.5.2 384 Kbps 51.1 98.4

CPU 利用率

资源 轮询地址 平均利用率(%) 峰值使用率(%)
FSTR01 10.28.142.1 60.4 80
NERT06 10.170.2.1 47 86
NORR01 10.73.200.1 47 99
RTCR01 10.49.136.1 42 98

链路利用率

资源 地址 AvResT (毫秒) 09-09-98 AvResT (毫秒) 09-09-98 AvResT (毫秒) 09-09-98 AvResT (毫秒) 10-01-98
AADR01 10.190.56.1 469.1 852.4 461.1 873.2
ABNR01 10.190.52.1 486.1 869.2 489.5 880.2
APRR01 10.190.54.1 490.7 883.4 485.2 892.5
ASAR01 10.196.170.1 619.6 912.3 613.5 902.2
ASRR01 10.196.178.1 667.7 976.4 655.5 948.6
ASYR01S         503.4
AZWRT01 10.177.32.1 460.1   444.7  
BEJR01 10.195.18.1 1023.7 1064.6 1184 1021.9

异常管理

异常管理是识别的和解决的产能和性能问题的一重要的方法。想法是接收产能和性能门限值侵害的通知为了立即调查和解决问题。例如,网络管理员也许接收高CPU的一报警在路由器。网络管理员能登录路由器确定CPU为什么很高。她可然后执行减少CPU的某补救配置或创建一访问列表防止引起问题的流量,特别是如果流量不看来商业危急。

您能相当只是设定更多关键问题的异常管理使用RMON配置on命令路由器或使用更加先进的工具例如Netsys服务供货水平管理器与SNMP、RMON或者NetFlow数据一道。多数网络管理工具有功能设置阈值和报警在侵害。异常管理进程的重要方面是提供接近实时问题的通知。否则,问题可能在任何人前消失注意通知接收。如果组织有一致监听,这可以在NOC内执行。否则,我们推荐传呼通知。

以下配置示例为路由器CPU提供上升和降低阈值通知给可能一致查看的日志文件。您能设置重要链接利用率门限值超越或其他SNMP阈值的相似的RMON命令。

rmon event 1 trap CPUtrap description
  "CPU Util >75%"rmon event 2 trap CPUtrap description
  "CPU Util <75%"rmon event 3 trap CPUtrap description
  "CPU Util >90%"rmon event 4 trap CPUtrap description
  "CPU Util <90%"rmon alarm 75 lsystem.56.0 10 absolute rising-threshold
  75 1 falling-threshold 75 2rmon alarm 90 lsystem.56.0 10 absolute rising-threshold
  90 3 falling-threshold 90 4

QoS管理

服务质量管理介入创建和监控在网络内的特定的流量类。流量为特定应用组提供更多恒定的性能(定义在数据流类别内)。流量整形参数为特定流量等级提供在优先级和流量整形的极大的灵活性。这些功能包括功能例如承诺接入速率(CAR)、加权随机早期检测(WRED)和类基于市场被衡量的队列。数据流类别根据更多企业重要应用的性能SLAS和特定应用程序需求通常创建例如语音。不重要或非事务流量也将被控制用方式不能影响更加高优先级的应用程序和服务。

创建数据流类别要求对网络利用率、特定应用程序需求和商业应用优先级的基准了解。应用程序需求包括数据包大小、超时问题、抖动需求、突发流量需求、批处理需求和整体性能问题知识。使用此知识,网络管理员能创建提供在各种各样的LAN/WAN拓扑间的更加一致的应用程序性能的流量整形规划和配置。

例如,一个组织有在两个主要站点之间的10兆比特ATM连接。链路有时变得拥塞从大文件传输,导致联机事物处理和恶劣或不可用的语音质量的性能下降。

组织设置四不同的数据流类别。语音给最高优先级和允许维护该优先级,即使在预计的流量速率破裂了。重要应用类给其次高优先级,但是未允许在总链路的大小破裂预计的语音带宽需求。当它破裂,将丢弃。文件传输流量给较低优先级,并且其他流量在中部适合某处。

组织必须当前执行在此链路的QoS管理确定多少流量每类采取和测量在每类内的性能。如果组织不能执行此,缺乏可能为一些类发生或性能SLAS不可以在特定类内满足。

管理QOS配置仍然是困难任务由于缺乏工具。一个方法将使用思科的互联网性能管理器(IPM)发送在落入其中每一数据流类别的链路间的另外流量。您可能然后监控每类的性能和IPM提供趋向,实时分析和逐跳分析精确定位问题区域。其他可能仍然依靠更多手工方法类似调查队列和丢弃的数据包在根据接口统计信息的每数据流类别内。在一些组织,此数据可能通过SNMP收集或被解析到基准和趋向的一个数据库。发送在间网络的特定的流量类型确定特定服务或应用程序的性能的一些工具在市场上也存在。

收集和报告容量信息

应该与三个推荐的领域的容量管理连接收集和报告容量信息:

  • 假设分析,在网络更改附近集中,并且更改如何影响环境

  • 基线和趋向

  • 异常管理

在这些区域中的每一个内,请开发信息收集规划。一旦网络或应用程序分析,您若需要工具仿造网络环境和了解更改相对潜在的资源问题的影响在设备控制飞机或数据层面内的。一旦基线和趋向,需要设备的快照和链路显示当前资源利用率的您。您随着时间的推移然后查看数据了解潜在的升级需求。在产能或性能问题出现前,这允许网络管理员适当地计划升级。当问题出现时,您需要异常管理警告网络管理员,因此他们能调整网络或解决问题。

此进程可以被划分成以下步骤:

  1. 确定您的需要。

  2. 定义进程。

  3. 定义容量区域。

  4. 定义容量变量。

  5. 编译数据。

确定您的需要

开发容量和性能管理规划要求了解您需要和该信息目的信息。拆分规划到三个要求的区域:一每假设分析,基线/趋向和异常管理的。在这些区域中的每一个内,请发现什么资源和工具是可用的,并且什么是需要的。与工具部署的许多组织失效,因为他们考察工具的技术和功能,但是不考虑必要的人民和专业技术管理工具。包括需要的人民和专业技术在您的规划,以及进程改进。这些人可能包括系统管理员管理网络管理站、数据库管理员帮助与数据库管理,被培训的管理员使用和监控工具的和高水平网络管理员确定策略、阈值和信息收集需求。

定义进程

您也需要进程保证顺利和经常地使用工具。您可以要求进程改进定义跟随的什么网络管理员应该执行,当门限值超越发生时或什么进程为基线,趋向和升级网络。一旦确定需求和资源成功的容量规划的,您能考虑方法。因为他们认为服务核心能力,许多组织选择外包此种功能到一个网络服务组织例如INS或修建专业技术内部的。

定义容量区域

容量规划的规划应该也包括容量区域的定义。这些是能共享一个普通的容量计划策略网络的区域:例如,公司LAN、广域网现场办事处、重要广域网站点和拨号接入。定义不同的区域由于几个原因是有用:

  • 不同的区域可能有不同的阈值。例如, LAN带宽比WAN带宽便宜,因此利用率阈值应该更低。

  • 不同的区域可能要求监控不同的MIB变量。例如,在帧中继的FECN和BECN计数器是关键在了解帧中继容量问题。

  • 它可能更加困难或费时升级网络的一些区域。例如,国际电路能有更久的订货到交货时间和需要对应高水平规划。

定义容量变量

下个重要区域定义要求操作的变量监控和阈值。定义容量变量极大取决于在网络内和媒体使用的设备。在一般参数例如CPU,内存和链路利用率有价值。然而,其他区域可能是重要对特定技术或需求。这些可能包括队列深度、性能、帧中继拥塞通知、背板利用率、缓冲区利用率、Netflow统计信息、广播数量和RMON数据。记住您的长期计划,但是从仅一些个关键领域开始帮助保证成功。

编译数据

了解收集的数据也是关键对提供一优质服务。例如,许多组织不充分地了解高峰和平均利用率级别。以下图表显示根据5分钟SNMP收集间隔的产能参数高峰, (显示为绿色)。

http://www.cisco.com/c/dam/en/us/support/docs/availability/high-availability/20769-interpretdata.gif

即使报告的值是较少比在阈值的阈值(显示为红色)峰顶能在收集间隔内仍然发生(用蓝色显示)上。这是重大的在收集间隔期间,因为,组织可能体验影响网络的性能或产能的峰值。小心选择是有用的,并且不导致额外的开销的有意义的收集间隔。

另一示例是平均利用率。如果员工仅是在从八的办公室到五,但是平均利用率是7X24,信息可能是令人误解的。


相关信息


Document ID: 20769