可用性 : 高可用性

性能管理:最佳实践白皮书

2015 年 8 月 28 日 - 机器翻译
其他版本: PDFpdf | 英语 (2015 年 4 月 22 日) | 反馈


目录


简介

性能管理介入各自和整体网络服务的一致性和质量的网络服务响应时间和管理的优化。主服务是需要测量用户/应用响应时间。对于多数用户,响应时间是关键性能成功因素。此变量由您的用户和Application Administrator整形网络成功的征收。

背景信息

容量规划是您确定将来网络资源的需求为了防止性能或可用性影响在商业关键应用的进程。在容量规划中范围,网络基线(CPU、内存、缓冲区、in/out八位位组等等)能影响响应时间。所以,请记住性能问题经常关联与产能。在网络中,这典型地是在队列必须等待的带宽和数据,在可以通过网络前传送。在语音应用,因为要素例如延迟和抖动影响语音呼叫的质量,此等待时间几乎一定影响用户。

复杂化性能管理的另一个主要问题是,虽然高网络可用性为两个大型企业和服务提供商网络是目标关键,倾向是寻找短期经济收益冒(经常未预见到)从长远看高费用危险。在每个预算周期期间,网络管理员和项目实施人员努力查找在性能和快速实施之间的一个平衡。进一步,网络管理员面对包括迅速产品开发为了满足不活跃的市场windows、复杂技术、商业合并、竞争的市场、不定期的停机时间、缺乏专业技术和经常不足的工具的挑战。

根据这些挑战,性能在网络管理架构内如何合适?理想网络管理系统的主要功能将优化网络的操作功能。一旦认可它作为网络管理的最终目标,然后网络管理焦点是保持网络操作在峰值性能。

理想网络管理系统包括这些原理操作:

  • 通知操作员紧急性能恶化。

  • 提供容易代替路由和应急方案,当性能恶化或失败发生。

  • 提供工具找到性能恶化或失败的原因。

  • 起主站点作用对于网络弹性和生存能力。

  • 在实时传达性能。

基于理想的系统的此定义,性能管理变得重要对网络管理。这些性能管理问题是关键:

  • 用户性能

  • 应用程序性能

  • 容量规划

  • 主动式故障管理

请注意与新应用类似语音和视频,性能是关键变量对成功,并且,如果不能完成恒定的性能,服务考虑低值并且发生故障。在某些情况下,用户遭受与降低生产率和用户满意度的断断续续应用程序超时的可变性能。

本文选派最关键的性能管理问题,包括重要成功因素、关键性能指示器和一张高级进程地图性能管理的。它也讨论可用性、响应时间、准确性、利用率和容量规划的概念并且包括在主动式故障分析角色的一次简短讨论在性能管理和理想网络管理系统内的。

重要成功因素

重要成功因素识别实施最佳实践的需求。为了合格作为重要成功因素,进程或步骤必须改进可用性或缺乏步骤必须减小可用性。另外,重要成功因素应该是可测量的,以便组织能确定他们的成功的范围。

注意: 请参阅性能管理指示器关于详细信息。

这些是性能管理的重要成功因素:

  • 采集网络和应用程序数据的一个基准。

  • 执行在您的网络和应用程序的假设分析。

  • 进行报告为容量问题的例外。

  • 确定所有报价的或潜在网络管理服务的网络管理开销。

  • 分析容量信息。

  • 周期地请查看网络的容量信息和应用程序,以及基准和例外。

  • 有升级或调整步骤设置处理根据一个反应和长期基本类型的容量问题。

性能管理的指示器

指示器提供组织能测量重要成功因素的机制。性能计划的指示器包括:

  • 描述网络管理商业目的。这能是一个操作的正式概念对于网络管理或一个较少必要功能正式说明和目标。

  • create选派了和可测量服务供货水平目标。

  • 提供服务水平协议的文档显示成功或失败的图或图表这些协定如何随着时间的推移满足。

  • 收集变量的列表基准的,例如轮询间隔,导致的网络管理开销,可能的触发阈值,变量是否使用,触发陷阱和趋向分析使用每变量。

  • 开查看基准和趋势的分析的定期会议。

  • 把假设分析方法描述。这应该包括模拟和验证在可适用地方。

  • 当阈值是时请超出,开发在用于的方法的文档增加网络资源。描述的一个项目是要求的时间线放置在另外的WAN带宽和成本表里。

性能管理流程

这些步骤为性能管理提供一个高级流程:

  1. 开发网络管理概念操作

    1. 定义必需的功能:服务、可扩展性和可用性目标

    2. 定义可用性和网络管理目标

    3. 定义性能SLAS和量度

    4. 定义SLA

  2. 测量性能

    1. 收集网络基带数据

    2. 评估可用性

    3. 测量响应时间

    4. 测量准确性

    5. 测量利用率

    6. 容量规划

  3. 执行一个主动式故障分析

    1. 请使用阈值主动式故障管理

    2. 网络管理实施

    3. 网络操作度量

开发网络管理概念操作

在您定义了详细的性能和容量变量网络的前,您必须查看操作的整体概念为网络管理在您的组织内。当您定义了此整体概念时,提供您在您能建立选择的功能准确的定义网络的企业基础。如果不能开发网络管理的一个运行概念,可能导致经常转移由于客户需求的缺乏目标或目标。

您通常导致网络管理概念操作作为在网络管理程序的系统定义阶段的第一步。目的将从可操作角度考虑描述整体希望的系统特征。使用本文是协调网络操作、工程、设计、其他业务部门和最终用户整体企业(非计量性)目标。本文焦点是形成网络管理和操作的远距离可操作的计划活动。它为所有随后的定义文档的开发也提供指导,例如服务水平协议。此最初的套定义不能太狭窄地明显地着重在特定网络问题的管理,然而强调重要性对整体组织和在对开销的关系必须管理的那些项目。某些目标是:

  • 识别那些特性重要对网络基础设施的有效利用。

  • 识别该的服务/的应用程序网络支持。

  • 启动端到端服务管理。

  • 启动基于性能的度量改进整体服务。

  • 收集了并且分配性能管理管理信息。

  • 支持网络的有战略意义的评估与反馈的从用户。

换句话说,网络管理概念操作应该着重达到那些目标的整体组织目标和您的原则。主要的成份包括任务、任务目标、系统目标、组织介入和整体可操作的原则的高水平定义。

作为网络管理器,您在位置统一经常您的用户不一致性能期望。例如,如果网络的主要需求是大文件转移从一个位置到另一个,您要着重高吞吐量和较少在响应时间交互式用户。除非考虑各种各样的问题,小心不限制性能您的意图。例如,当您测试网络时,请查看使用的负载级别。负载根据非常小数据包和吞吐量经常在非常大数据包。这些性能测试之一也许导致非常正面的描述,但是基于您的网络流量负载,测验也许不提交性能真实情况。学习网络性能在许多个可能的工作量情况作为可能和描述的性能下。

并且,而许多网络管理组织有通知有效报警的技术关于设备故障的技术人员,定义和实现端到端应用程序性能的一评估进程是更难的。所以,而网络运营中心(NOC)能迅速响应到一向下的路由器或交换机,也许破坏网络性能和影响用户征收的网络状况也许容易地未被注意,直到该征收变得负。困难,此第二进程能提供巨大好处给企业和网络管理。

最后,请保证您不创建您的网络性能不切实际的期望。当您误会网络协议或应用程序时,详细信息不切实际的期望通常创建。通常计时低性能不是网络的故障,而且相当恶劣的应用程序设计结果。唯一方法描述的和测量应用程序性能是有网络性能的基准在应用软件安装之前。

定义必需的功能:服务、可扩展性和可用性目标

第一步性能管理、连续容量规划和网络设计将定义必需的功能和服务。此步骤要求您了解应用程序、基本流量运输流量、用户和站点计数和所需的网络网络服务。此信息第一次使用是确定应用程序的重要性对组织目标。您能也运用此信息创建知识库用于逻辑设计为了了解带宽、接口、连接、配置和View (物理设备需求。此初始步骤使您的网络设计师创建型号您的网络。

创建解决方案可扩展性目标为了帮助网络工程师设计符合未来发展要求的网络并且保证提议的设计不体验资源约束由于网络的增长或分机。资源约束能包括:

  • 整体流量

  • 音量

  • 路由编号

  • 虚拟电路编号

  • 邻居计数

  • 广播域

  • 设备吞吐量

  • 媒介容量

网络规划者应该确定设计的必需的寿命、期望的扩充或者站点要求通过设计的寿命,音量新用户和预期的流量或者更改。此规划帮助保证建议方案在设计的设想的寿命期间达到发展需求。

当您不调查解决方案可扩展性时,您也许被迫使实现主要反应设计变动。此设计变动能包括另外的层级、媒体升级或者硬件升级。在依靠主要硬件采购的相当精确的预算周期的组织,这些更改可以是一种主要抗化剂到整体成功。根据可用性,网络能体验导致期限未利用率和反复测量的意外的资源限制。

互通性和互用性测试可以对新的解决方案部署至关重要成功。互通性能参考不同的硬件厂商或者在网络实施的之前或之后,必须网状连接的不同的拓扑或者解决方案。互操作性问题能通过协议栈包括硬件信令到路由或传输问题。在网络解决方案的迁移的之前,之中或之后,互操作性问题能出现。互用性计划应该包括在迁移期间,也许发生的不同的设备和拓扑问题之间的连接。

解决方案比较是您关于其他解决方案需求实践比较不同的潜在设计的实践。此实践帮助保证解决方案特定环境的是特别合身,并且个人偏心不驱动设计过程。比较能包括不同的要素例如费用、弹性、可用性、风险、互通性、可管理性、可扩展性和性能。一旦设计实现,所有这些能有对整体网络可用性的一个重大影响。您能也比较媒体、层级、冗余、路由协议和相似的功能。创建与要素在X轴和潜在解决方案的一图表在Y轴帮助为了汇总解决方案比较。在实验室环境的详细的解决方案比较也帮助关于不同的比较系数客观调查新建的解决方案和功能。

作为网络管理概念操作一部分,定义网络的目标和支持的服务用所有用户能了解的方法是重要的。跟随运行概念的开发的活动被该文档的质量大大影响。

这些是标准性能目标:

  • 响应时间

  • 利用率

  • 吞吐量

  • 产能(最大吞吐量速率)

当这些评定也许是琐细为简单LAN时,他们可以是非常困难在交换式园区网络或一个多厂商企业网络。当您使用运行计划时的一个想好的概念,其中每一个性能目标可测量的方式定义。例如,在高峰营业时间,应用程序的“x”最低的响应时间是500ms或较少。这定义了信息识别变量、方式测量它和网络管理应用程序应该着重的时间。

定义可用性和网络管理目标

可用性目标定义了级别服务或服务级别需求网络服务的。这帮助保证解决方案符合结尾可用性要求。定义特定组织的不同的业务类别并且选派是适当的对可用性要求每类的网络要求。网络的不同的区域也许也要求不同的级别可用性。一个更加高性能的目标也许需要增加冗余和支持步骤。当您定义了特定网络服务的一个可用性目标并且测量可用性时,您的网络组织能了解要求的组件和服务级别达到项目SLA。

定义可管理性目标为了保证整体网络管理不缺乏管理功能。为了调整可管理性目标,您必须了解支持流程和相关的网络管理工具您的组织的。可管理性目标如何应该包括知识新的解决方案符合到当前支持和工具模块对所有潜在差别或新的需求的参考。因为能力支持新建的解决方案是至高无上的对部署成功和满足可用性目标,这对网络可用性至关重要。

可管理性目标应该找到要求的首要的MIB或网络工具信息支持潜在网络,新的服务的培训要求的支持新的网络服务,人才配备模型和所有其他支持需求。通常计时此信息没有在部署之前找到,并且整体可用性遭受由于分配的缺乏资源支持新的网络设计。

定义性能SLAS和量度

性能SLAS和量度帮助定义,并且测量新的网络解决方案性能保证他们符合性能要求。建议方案的性能也许测量用性能监控工具或与在提议的网络结构间的一简单的ping。性能SLAS应该包括允许的平均期望数据流量、峰值流量、平均响应时间和最大响应时间。此信息可以然后是使用的以后在解决方案验证部分,并且帮助根本地确定网络的需要的性能和可用性。

定义SLA

网络设计的一个重要方面是,当您定义了用户或客户的时服务。当服务提供商参考它作为服务级别管理时,企业呼叫这些服务水平协议。服务级别管理在逐步升级前典型地包括问题类型和严重性和支持中心责任的定义,例如升级路径和时间在每个分级技术支持支持级别,计时开始在问题的工作,并且计时到根据优先级的接近目标。其他重要因素是什么服务在容量规划、主动式故障管理、变更管理通知、阈值、升级标准和硬件替换区域提供。

当组织不定义了服务级别在最前面时,改进或获取以后识别的资源需求变得难。了解也变得难什么资源添加为了帮助支持网络。在许多情况下,在问题是已发现之后,这些资源应用。

测量性能

性能管理是合并明显的性能区域的配置和测量的通用术语。此部分描述性能管理的这六个概念:

聚集网络基带数据

多数企业内部网有充足的带宽。然而,没有足够的数据,您也许不能排除网络拥塞作为对恶劣的应用程序性能的一个投稿人。如果低性能断断续续或由时间决定,其中一个拥塞或错误的线索是。此情况示例是,当性能傍晚时是足够的,但是非常慢早上和在高峰营业时间。

一旦定义网络管理概念操作并且定义需要的实施数据,随着时间的推移收集此数据是必要的。此种集是网络基线的基础。

执行当前网络的基准在一新的解决方案(应用程序或IOS更改)部署之前和在部署以后为了测量为新的解决方案设置的期望。此基准帮助确定解决方案是否达到性能和可用性目标和基准产能。一个典型的路由器/交换机基线报告包括与CPU、内存、缓冲管理、链路/媒体利用率和吞吐量涉及的容量问题。有您也许也包括基线数据的其他类型,根据在操作的概念的定义目标。例如,可用性基线展示网络环境的增加的稳定性/可用性。进行在旧有和新的环境之间的基准比较为了验证解决方案要求。

另一个专门化基准是应用程序基准,有价值,当您趋向应用程序网络需求时。此信息可以用于发单并且/或者预算目的在升级周期。应用程序基准可以也是重要在应用程序可用性区域关于首选的服务或服务质量每应用程序。应用程序基准信息主要包括应用程序使用的带宽每个时间。一些网络管理应用程序也能基准应用程序性能。流量类型的细分(Telnet或FTP)对计划也是重要。在一些组织,网络的更加关键的资源约束的区域为高级健谈的人监控。网络管理员能使用此信息为了预算,计划或者调整网络。当您调整网络时,您也许修改服务质量或排队网络服务或应用程序的参数。

评估可用性

网络管理器使用的其中一主要的量度是可用性。可用性是网络系统或应用程序供给用户时间的测量。从网络角度,可用性代表独立组件的可靠性在网络的。

例如,为了测量可用性,您也许协调有从受管理设备收集的统计信息的支持中心电话。然而,可用性工具不能确定所有失败的原因。

当您测量可用性时,网络冗余是要考虑的另一个要素。冗余失效指示服务下降而不是一体化网络解决方案网络故障。结果也许是更加缓慢的响应时间和数据丢失由于丢弃的数据包。是可能的结果在性能测定其他范围也出现例如利用率和响应时间。

最后,如果传送SLA,您应该考虑到进程停止。这些中断可能是您也许不想要报告移动,添加和更改、设备关闭,或者其他事件的结果。这是不仅困难任务,但是也许也是一手工的任务。

测量响应时间

网络响应时间是流量的所需的时间能移动在两点之间。响应时间慢比正常,进行下去基准比较或那超出阈值,也许指示拥塞或网络故障。

响应时间是客户网络使用最好的测量,并且可帮助您测量您的网络的效果。不管慢作用的来源是,由于延迟的流量,用户变得沮丧。在分布式网络中,许多要素影响响应时间,例如:

  • 网络拥塞

  • 较少比对目的地(或没有路由的期望的路由)

  • 动力不足的网络设备

  • 网络故障例如广播风暴

  • 噪声或CRC错误

在使用QoS相关的排队的网络中,响应时间测定是重要为了确定正确流量类型是否通过网络移动正如所料。例如,当您实现在IP网络时的语音流量,必须准时和恒定速率传送语音数据包为了维护良好语音质量。当看起来给用户,您能生成作为语音流量分类的流量为了测量流量的响应时间。

您能测量响应时间为了帮助解决在应用服务器和网络管理器之间的争斗。当应用程序或服务器看来慢时,网络管理员经常是被假定的有罪的。网络管理员必须证明,网络不是问题。响应时间数据数据收集提供无可争辩的平均值证明或反驳网络是应用程序麻烦来源。

若情况许可,当看起来给用户,您应该测量响应时间。当他们按回车或点击直到屏幕显示时的一个按钮用户察觉答复作为时间从。此消逝的时间包括每个网络设备、用户工作站和目标服务器的所需的时间能处理流量。

不幸地,测量在这个阶层接近不可能归结于用户数量和缺乏工具。进一步,当您合并用户和服务器响应时间时,它提供一点值,当您确定将来网络增长或故障排除网络问题时。

您能使用网络设备和服务器测量响应时间。您能也使用工具类似ICMP测量处理,虽然不考虑到任何延迟介绍到系统,当上层处理它。此方法解决网络性能知识问题。

在过分简单化的级别,您能计时对ping的答复从网络管理站到在网络的关键点,例如大型机服务提供商连接的接口、端点或者关键用户IP地址,为了测量响应时间。与此方法的问题是它不准确地反射响应时间的用户征收他们的计算机和目的地机器之间的。它收集信息并且报告响应时间从网络管理站方面。此方法也屏蔽在逐跳基础的响应时间问题在网络中。

对服务器中心轮询的一替代方案是分配离您希望为测量模拟的源和目的较近的努力。请使用分布式网络管理轮询者并且实现Cisco IOS服务保证Agent(SAA)功能。您能使在路由器的SAA为了测量路由器和一目的地设备例如服务器或另一个路由器之间的响应时间。您能也指定TCP或UDP端口,强制流量转发和被处理与流量同样它模拟。

使用语音、视频和数据的集成在多业务网络,客户实现QoS优先级在他们的网络。因为不同的应用程序接收不同的优先级,简单ICMP或UDP测量不准确地反射响应时间。并且,与标记交换,流量路由也许变化基于在一特定数据包包含的应用类型。因此ICMP Ping也许接收在每个路由器如何的不同的优先级处理它并且也许接收不同,较不高效路由。

在这种情况下,测量响应时间的唯一方法是生成类似于特定应用程序或技术利益的流量。当他们为实时流量,会这强制网络设备处理流量。您也许能达到此级别与SAA或通过使用第三方应用感知探测。

测量准确性

准确性是不导致错误接口流量的测量,并且可以表示根据与信息包总数速率经过一段时间比较成功率的百分比。您必须首先测量错误率。例如,如果两出于每100数据包导致错误,错误率是2%,并且准确率是98%。

使用更早的网络技术,特别是在广域,某一级别错误是可接受。然而,与高速网络和当代广域网服务,发射是显著地更加准确的,并且错误率是接近零,除非有一实际问题。接口错误的一些常见原因包括:

  • out-of-specification配线

  • 电子干扰

  • 有故障的硬件或软件

请使用减小的准确率触发更加周密的调查。您也许发现特定接口显示问题并且决定错误是可接受。在这种情况下,您应该调节此接口的精确度极限为了反射错误率是不可接受的地方。不可接受的错误率在一个更加早期的基准也许已经报告。

在此表里描述的变量用于准确性和错误率公式:

符号 说明
ΔifInErrors Delta (或差异)收集snmp ifInErrors对象,表示计数入站数据包有错误的两个轮询循环之间。
ΔifInUcastPkts 在收集snmp ifInUcastPkts对象,表示计数入站单播信息包的两个轮询循环之间的Delta。
ΔifInNUcastPkts 在收集snmp ifInNUcastPkts对象,表示计数入站单播信息包的两个轮询循环之间的Delta (组播和广播)。

错误率的公式通常被表示为百分比:

错误率= (ΔifInErrors) *100

-------------------------------------

(ΔifInUcastPkts + (ΔifInNUcastPkts)

注意出站错误在错误率和准确性公式没有考虑。那是因为设备在网络应该从未熟悉放置有错误的数据包,并且出站接口错误率不应该增加。因此,入站数据流和错误是唯一的测量接口错误和准确性的利益。

准确性的公式采取错误率并且从100减去它(再,以百分比的形式) :

准确性= 100 - (ΔifInErrors) *100

-----------------------------------------

(ΔifInUcastPkts + (ΔifInNUcastPkts)

这些公式反射错误和准确性根据MIB II接口(RFC 2233)通用的计数器。结果表示根据比较错误到被看到和被发送的信息包总数的百分比。发生的错误率从100被减去,导致准确率。准确率100%完善。

因为MIB II变量存储作为计数器,您必须采取两个轮询循环和计算两个之间的差异(因此用于等式的达美航空)。

测量利用率

利用率随着时间的推移测量使用特定的资源。测量通常表示以资源使用情况与其最大可操作的产能比较的百分比的形式。通过利用率测量,您能识别拥塞(或潜在拥塞)在网络中。您能也识别利用不足的资源。

利用率是原理测量确定多么全双工网络管道(链路)。测量CPU、接口、队列和其他相关系统产能评定为了确定网络系统资源浪费的范围。

高利用率不一定是坏的。低利用率也许指示通信流在意外的地方。被变得的线路过度利用,作用能变得重大。过度使用发生,当比它能处理有排队的更多流量在接口通过。在资源利用率的突然跃迁能指示故障状况。

当接口变得拥塞,网络设备必须存储在队列的数据包或丢弃它。如果路由器尝试储存在满队列的一数据包,数据包丢弃。当流量从一个快速接口转发到一个更加缓慢的接口时,丢弃的数据包发生。这在公式问= u指示/(1-u) u是利用率的地方,并且是平均队列深度(假设的随机的流量)。在链路的高利用率级别所以导致高平均队列深度,是可预测的延迟,如果认识数据包大小。某些网络报告供应商表明您能预定较少带宽和支付较少您的广域网。然而,当您运行广域网链路在95%利用率,延迟暗示出现。此外,因为网络被迁移到VoIP,网络管理员也许需要更改他们的策略和运行广域网链路在大约50%利用率。

当数据包丢弃时,更高层协议也许强制数据包的重新传输。如果几数据包丢弃,过多重试流量能发生。此种回应能导致在设备的备份进一步在线路下。为了解决此问题,您也许设置不同的度阈值。

用于网络利用率的主要测量是接口利用率。请使用描述的公式在基于的此表里您测量的连接是否半双工或全双工:

符号 说明
ΔifInOctets Delta (或差异)收集snmp ifInOctets对象,代表计数入站八位组流量的两个轮询循环之间。
ΔifOutOctets 在收集snmp ifOutOctets对象代表计数出站八位组流量的两个轮询循环之间的Delta。
ifSpeed 接口的速度如在snmp ifSpeed对象的报告。注意ifSpeed也许不准确地反射广域网接口的速度。

共享的LAN连接倾向于半双工主要,因为冲突检测要求设备监听,在传送前。因为连接点对点,广域网连接典型地全双工;两个设备能传输,并且接收同时,因为他们知道那里只是共享连接的一个其它设备。

因为MIB II变量存储作为计数器,您必须采取两个轮询循环和计算两个之间的差异(因此用于等式的达美航空)。

对于半双工媒介,请使用此公式接口利用率:

(ΔifInOctets + ΔifOutOctets) * 8 * 100

----------------------------------------------------

(秒钟编号在Δ的) * ifSpeed

对于全双工媒介,利用率计算更加复杂。例如,与全双工T-1串行连接,线路速度是1.544 Mbps。这意味着T-1接口能接收和传送一个复合可能的带宽的1.544 Mbps 3.088 Mbps。

当您计算全双工连接的时接口带宽,您能使用您里里外外采取大值并且生成利用率百分比的此公式:

最大(ΔifInOctets, (ΔifOutOctets) * 8 * 100

-----------------------------------------

(秒钟编号在Δ的) * ifSpeed

然而,这种方法隐藏了指令的使用率,它的价值和准确度较低。更多准确方法将分开测量输入利用和输出使用率,例如:

输入利用= ΔifInOctets *8 * 100

-------------------------------------

(秒钟编号在Δ的) * ifSpeed

并且

输出使用率= ΔifOutOctets *8 * 100

------------------------------------

(秒钟编号在Δ的) * ifSpeed

当这些公式某种程度简化时,他们不考虑到开销关联与特定协议。更加准确的公式存在处理每份协议独特方面。例如, RFC 1757包含以太网考虑到数据包开销的利用率公式。然而,高性能的团队发现被提交的一般公式此处可以在LAN和广域网接口在大多数情况下间可靠使用。

容量规划

如陈述前,容量规划是您确定可能的将来网络资源需求防止性能或可用性影响在商业关键应用的进程。参考容量和性能管理:关于此主题的更详细信息最佳实践白皮书

执行主动式故障分析

主动式故障分析对性能管理是重要的。为性能管理收集的同一种数据可以用于主动式故障分析。然而,定时和使用此数据是不同的在主动式故障管理和性能管理之间。

主动式故障管理是理想网络管理系统能达到目标您确定的方法。对性能管理的关系是通过您使用的基准和数据变量。主动式故障管理集成定制的事件,事件关联引擎,卖票的麻烦,并且基线数据的统计分析为了配合非难,性能和变更管理在一个理想,有效网络管理系统。

那里性能数据?通常完成每10, 15,甚至30分钟,故障状况的识别必须在一个更短的时间间隔。主动式故障管理一个方法是通过使用RMON报警和事件组。您能设置在没有由外部设备轮询,因此阈值是更短的您的设备的阈值。另一个方法,在本文没有报道,是通过启用?在与数据聚合的地方水平在管理器的管理器的使用一个分布式管理系统。

请使用阈值主动式故障管理

门限是您在特定数据流上定义了问题的兴趣并且生成事件的进程,当阈值被触发时。请使用您的网络性能工作特性设置那些阈值。

有几不同种类的阈值,一些是可适用对数据的特定类型。阈值只是可适用的对数字数据,因此请转换所有原文数据到分离数值。即使您不认识所有对象的可能的文本字符串,您能仍然列举“有趣的”字符串和分配其他字符串到设置值。

有阈值两类数字数据两类的:连续分离。连续极值适用于连续或时序数据例如在SNMP计数器或测量仪存储的数据。分离阈值适用于被列举的对象或所有分离数字数据。布尔型对象是与两个值的被列举的值:真或错误。因为事件指示从一个值的转换到下,分散的数据可能也呼叫事件数据。

当时间序列反对交叉阈值的指定值时,连续极值能触发事件。对象值在阈值上上升或在它之下下跌。设置独立的上升和降低阈值可以也是有用的。此技术,是公认的滞后机制,帮助减少从数据此类生成的事件数量。滞后机制工作减少在迅速地变化的时间数列数据的阈值生成的事件量。此机制可以与在时间数列数据的所有阈值技术一起使用。

生成跟踪对象的值的报警减少事件量。上升和降低阈值分配到此报警。当上升阀被超过时,报警只被触发。一旦此阈值被超过,上升警报再没有生成,直到降低阈值被超过。并且同一机制防止降低阈值的生成,直到上升阀再被超过。此机制可以激烈地减少事件量,并且不排除需的信息为了确定故障是否存在。

时序数据可以是代表的任一作为计数器,其中每一新建的数据点被添加到上一个数据点的总和,或者作为量规,数据代表作为在时间间隔的一速率。有连续极值两不同的表可适用对每种数据类型:绝对连续极值相关的连续门限值。以测量仪使用绝对连续极值和相关的连续门限值与计数器。

为了确定您的网络的阈值,请完成这些步骤:

  1. 选择对象。

  2. 选择设备和接口。

  3. 确定每个对象的阈值或反对/接口类型。

  4. 确定每阈值生成的事件的严重性。

适当数量的工作要求为了确定使用的什么阈值在哪些对象(和哪些设备和接口)。幸运地,如果收集了性能数据基准,您已经完成了巨大数量的该工作。并且, NSA和高性能的服务(HAS)程序能做帮助您集对象并且创建范围的建议。然而,您必须剪裁您的特定网络的这些建议。

因为您收集了网络的性能数据, HAS程序建议您按类别分组您的接口。因为您在该设备,也许需要确定每个类别介质类型的阈值而不是每个设备的和反对这简化设置阈值。例如,您会要设置以太网和FDDI网络的不同的阈值。通常认为您比您能共享以太网分段能运行FDDI网络在离100%利用率较近。然而,因为他们不是受冲突支配,全双工以太网可以运行离100%利用率较近。因为您不应该看到冲突,您也许要设置您的冲突的阈值非常低为全双工链路。

您能也考虑组合接口重要和阈值类型的类别/严重性。请使用这些要素由网络操作员工设置事件的优先级,并且,因此,事件和其注意的重要性。

分组和分类网络设备和接口不可能被过分强调。越多是能分组,并且分类,越容易您能集成门限值事件到您的网络管理平台。请使用基准作为原理资源对于此信息。参考容量和性能管理:最佳实践白皮书欲知更多信息。

网络管理实施

组织应该有能检测定义的极限阈值和报告关于值在指定的时间段的一个被实施的网络管理系统。请使用能归档在日志文件的阈值消息每天复核或更多的完整数据库解决方案允许阈值例外的搜索一个给的参数的一个RMON网络管理系统。信息应该在一个连续基础上取得到对网络操作员工和管理器。网络管理实施应该包括能力检测软件/硬件失败或者traceback、接口可靠性、CPU、链路利用率、队列或缓冲区错过、广播数量、载波转换和接口重置。

网络操作量度

交迭以性能管理主动式故障管理的最终区域是网络操作量度。这些量度为错误管理进程改进流程提供重要的数据。最少,这些量度应该包括在给的期限,发生所有问题的细分。细分应该包括信息例如:

  • 由呼叫优先级发生问题的编号

  • 最低、最大数量和平均时间关闭在每优先级

  • 问题细分由问题类型(硬件、软件崩溃、配置、电源,用户错误)的

  • 时刻细分为每种问题类型关闭

  • 由可用性组或SLA的可用性

  • 您多频繁符合了或未命中SLA要求

支持中心经常有一报告系统以能力生成量度或报告。另一个平均值收集此数据是使用可用性监视工具。应该每月使整体量度可用。应该实现根据讨论的进程改进为了改进未接服务级别协议需求或为了改进某些问题类型如何被处理。

性能管理指示器

指示器提供组织测量重要成功因素的机制。

描述网络管理商业目的

本文能是一个操作的正式概念对于网络管理或一个较少必要功能正式说明和目标。然而,当他们测量成功,本文应该协助解决网络管理器。

本文是组织网络管理策略,并且应该协调网络操作、工程、设计、其他业务部门和最终用户整体企业(非计量性)目标。此重点使组织形成网络管理和操作的远距离计划活动,包括预算的进程。它为要求的工具和综合化路径的获得也提供指导实现网络管理目标,例如SLA。

此有战略意义的文档不能太狭窄地着重在特定网络问题的管理,然而那些项目重要对整体组织,包括预算问题。例如:

  • 识别与可达成的目标的一个全面计划。

  • 识别要求网络支持的每商业服务/应用程序。

  • 识别必要的那些基于性能的度量测量服务。

  • 计划性能度量数据的集和分配。

  • 确定为网络评估和用户反馈需要的支持。

  • 描述,被选派的和可测量服务供货水平目标。

描述服务水平协议

为了适当地描述SLA,您必须充分地定义服务级别客观度量。此文档应该供给用户为评估。它提供反馈环路保证网络管理组织继续测量必要的变量维护服务协议级别。

因为商业环境和网络天生,动态SLA是“居住的”文档。什么工作今天测量SLA也许明天变得过时。只有当他们设立时从用户和操作的一个反馈环路在该信息能网络操作维护组织要求的高性能的编号。

建立变量列表基准的

此列表包括项目例如轮询间隔,导致的网络管理开销,可能的触发阈值,变量是否使用,当触发陷阱和趋向分析使用每变量。

这些变量对为服务级别目标需要的量度没有被限制以上提到。最少,他们应该包括这些变量:路由器健康状态、交换机健康、路由信息、精确科技的数据、利用率和延迟。这些变量在数据库周期地被选出并且存储。报告可能然后生成此数据。这些报告能协助解决网络管理操作和规划员工用这些方式:

  • 反应问题可以经常是解决的快速与历史数据库。

  • 性能报告和容量规划要求此种数据。

  • 服务级别目标可以比较它。

查看基准并且趋向分析

网络管理人员应该举行会议周期地通过特定报告。此提供另外的反馈,以及一个预防性的方法对潜在问题在网络。

这些会议应该包括可操作和规划人员。这为计划程序提供机会接收基准和趋向的数据的运营分析。它也放置工作人员“环路的”某些的计划分析。

包括的另外一种项目在这些会议是服务级别目标。当客观阈值被接近,网络管理人员能采取行动为了防止未命中目标,并且,在某些情况下,此数据可以使用作为一个部分预算调整。数据能显示去破坏的地方服务级别目标,如果适当的措施没有采取。并且,因为这些目标由商业服务和应用程序识别,他们是更加容易辩解财政上。

进行这些复核每两周并且召开一次更加一丝不苟的分析会议每六到十二周。这些会议允许您解决两个短期与长期的问题。

描述假设分析方法

假设分析介入解决方案的模拟和验证。在您添加一新的解决方案到网络(新应用或一个变化在Cisco IOS版本上)前,请描述某些选择。

此分析的文档包含主要问题、方法、数据集和配置文件。要点是假设分析是别人应该能再创与在本文提供的信息的实验。

描述增加网络性能使用的方法

此文档包括另外的WAN带宽和帮助增加链路特定类型的带宽的成本表。此信息帮助组织认识到多少时刻和金钱它开销增加带宽。正式文档如何并且何时允许性能和产能专家发现增加性能,以及时间线和开销这样努力的。

周期地请参阅此文档,或许作为每季的性能检查的部分,为了保证依然是最新。

摘要

达到理想网络管理系统的目标的唯一方法是积极地集成性能管理组件到系统。当阈值是被超出的阈值时,此目标应该包括使用可用性和响应时间度量附加到通知系统。它将必须包括使用将有链路到设置和例外报告的一个探试模型的容量规划的一个基准。它可能有启用在实时将更新的型号的内置的建模或模拟引擎并且通过软件仿真提供级别规划和故障排除。

当此系统也许似乎不可能实现的不可能的理想时,其中每一个组件是现在可以得到的今天。进一步,集成这些组件的工具在程序也存在类似Micromuse。因为,是更加可实现的今天我们应该继续工作往此理想。

相关的思科支持社区讨论

思科支持社区是您提问、解答问题、分享建议以及与工作伙伴协作的论坛。


相关信息


Document ID: 15115