简介
高网络可用性是大型企业和服务提供商网络中的关键任务要求。网络经理在提供更高可用性方面面临越来越大的挑战,包括计划外停机时间、缺乏专业知识、工具不足、复杂技术、业务整合和竞争市场。容量和性能管理可帮助网络经理实现新的全球业务目标以及一致的网络可用性和性能。
本文档将检查以下主题:
-
一般容量和性能问题,包括网络中的风险和潜在容量问题。
-
容量和性能管理最佳实践,包括假设分析、基线建立、趋势分析、异常管理和QoS管理。
-
如何制定容量规划策略,包括在容量规划中使用的常用技术、工具、MIB变量和阈值。
容量和性能管理概述
容量规划是确定所需网络资源的过程,以防止性能或可用性对业务关键型应用的影响。性能管理是管理网络服务响应时间、一致性和单个服务和整体服务质量的实践。
注意:性能问题通常与容量有关。由于带宽和数据在通过网络传输之前必须在队列中等待,因此应用速度较慢。在语音应用中,延迟和抖动等问题直接影响语音呼叫的质量。
大多数组织已经收集了一些与容量相关的信息,并始终如一地解决问题、规划更改和实施新的容量和性能功能。但是,组织不会定期执行趋势分析和假设分析。假设分析是确定网络更改影响的过程。趋势分析是指执行网络容量和性能问题的基准,并审查网络趋势的基准以了解未来升级需求的过程。容量和性能管理还应包括异常管理(在用户呼入之前发现并解决问题)和QoS管理(在此网络管理员规划、管理和确定单个服务性能问题)。下图说明容量和性能管理流程。
容量和性能管理也有其局限性,通常与CPU和内存有关。以下是潜在的关注领域:
-
CPU
-
背板或I/O
-
内存和缓冲区
-
接口和管道尺寸
-
队列、延迟和抖动
-
速度和距离
-
应用特征
一些对容量规划和性能管理的引用还提到了“数据平面”和“控制平面”。 数据平面只是与流经网络的数据相关的容量和性能问题,而控制平面是指维护数据平面的适当功能所需的资源。控制平面功能包括服务开销,如路由、生成树、接口保持连接和设备的SNMP管理。这些控制平面要求使用CPU、内存、缓冲、队列和带宽,就像流经网络的流量一样。许多控制平面要求对系统的整体功能也至关重要。如果他们没有所需的资源,则网络会发生故障。
CPU
CPU通常由任何网络设备上的控制平面和数据平面使用。在容量和性能管理方面,必须确保设备和网络具有足够的CPU,以便随时运行。CPU不足通常会导致网络崩溃,因为一台设备上的资源不足可能会影响整个网络。CPU不足也会增加延迟,因为当没有主CPU的硬件交换时,数据必须等待处理。
背板或I/O
背板或I/O是指设备可以处理的总流量,通常以总线大小或背板功能来描述。背板不足通常会导致丢包,这可能导致重新传输和额外流量。
内存
内存是另一个具有数据平面和控制平面要求的资源。路由表、ARP表和其他数据结构等信息需要内存。当设备内存不足时,设备上的某些操作可能会失败。操作可能会根据情况影响控制平面进程或数据平面进程。如果控制平面进程失败,整个网络可能会降级。例如,当路由收敛需要额外内存时,可能会发生这种情况。
接口和管道尺寸
接口和管道大小是指可在任何一个连接上同时发送的数据量。这通常被错误地称为连接速度,但数据实际上不会以不同的速度从一个设备传输到另一个设备。芯片速度和硬件功能有助于根据介质确定可用带宽。此外,软件机制可以“限制”数据,以符合服务的特定带宽分配。在帧中继或ATM的服务提供商网络中,您通常会看到这一点,这些网络本身具有1.54kpbs到155mbs及更高的速度能力。当存在带宽限制时,数据会在传输队列中排队。传输队列可能具有不同的软件机制来优先处理队列中的数据;但是,当队列中有数据时,它必须等待现有数据,才能将数据从接口转发出去。
队列、延迟和抖动
队列、延迟和抖动也会影响性能。您可以调整传输队列以不同方式影响性能。例如,如果队列很大,则数据等待的时间会更长。当队列较小时,数据会被丢弃。这称为尾部丢弃,对于TCP应用程序是可接受的,因为数据将被重新传输。但是,语音和视频在队列丢弃甚至队列延迟显着时表现不佳,需要特别注意带宽或管道大小。如果设备没有足够的资源来立即转发数据包,则输入队列也可能出现队列延迟。这可能是由CPU、内存或缓冲区造成的。
延迟表示从收到数据包到转发数据包的正常处理时间。普通现代数据交换机和路由器在没有资源限制的正常条件下具有极低的延迟(< 1ms)。配备数字信号处理器以转换和压缩模拟语音数据包的现代设备可能需要更长时间,甚至长达20毫秒。
抖动描述流应用(包括语音和视频)的数据包间差距。如果数据包在不同时间到达,且数据包间间隙定时不同,则抖动高,语音质量下降。抖动主要是队列延迟的因素。
速度和距离
速度和距离也是影响网络性能的因素。数据网络根据光速具有一致的数据转发速度。这大约是每毫秒100英里。如果组织在国际上运行客户端 — 服务器应用,则他们可能会预期相应的数据包转发延迟。当应用未针对网络性能进行优化时,速度和距离可能是影响应用性能的巨大因素。
应用特征
应用特征是影响容量和性能的最后一个方面。小窗口大小、应用keepalive、通过网络发送的数据量以及所需数据量等问题可能会影响应用在许多环境中的性能。
容量和性能管理最佳实践
本节详细讨论五种主要容量和性能管理最佳实践:
服务级别管理
服务级别管理定义并监管其他所需的容量和性能管理流程。网络经理明白他们需要容量规划,但他们面临预算和人员编制限制,这妨碍了完整解决方案的实施。服务级别管理是一种行之有效的方法体系,它通过定义交付项和为与该交付项相关的服务创建双向责任机制来帮助解决资源问题。您可以通过以下两种方式实现此目标:
无论如何,网络组织应从定义容量规划和性能管理服务开始,该服务包括他们当前可以提供的服务的哪些方面以及将来的计划。完整的服务包括:对网络更改和应用程序更改的假设分析、对已定义性能变量建立基准和趋势分析、对已定义容量和性能变量进行异常管理,以及QoS管理。
网络和应用假设分析
执行网络和应用假设分析以确定计划变更的结果。如果没有假设分析,组织将承担重大风险来改变成功和整体网络可用性。在许多情况下,网络更改导致充血性崩溃,导致大量生产停工时间。此外,大量引入的应用程序会失败,并对其他用户和应用程序造成影响。这些故障在许多网络组织中仍然存在,但通过一些工具和一些额外的规划步骤,这些故障完全可以避免。
通常需要一些新流程来执行质量假设分析。第一步是确定所有更改的风险级别,并要求对更高风险更改进行更深入的假设分析。风险级别可以是所有更改提交的必填字段。更高的风险级别变化将要求对变化进行定义假设分析。网络假设分析确定网络更改对网络利用率和网络控制平面资源问题的影响。应用假设分析将确定项目应用成功、带宽要求和任何网络资源问题。下表是风险级别分配和相应测试要求的示例:
风险级别 |
定义 |
变更规划建议 |
1 |
- 由于新产品、软件、拓扑或功能的引入,对大量用户(500+)或业务关键型服务产生巨大的潜在影响。
- 更改涉及预期的网络停机时间。
|
- 验证新解决方案的实验室。实验室验证包括有文档记录的解决方案测试和验证,以及显示对现有基础设施影响的假设分析。我们建议进行解决方案试用。新解决方案需要完成运营支持文档。
- 执行Cisco NSA设计审核。
- 创建退出计划。
- 制定实施计划。
- 创建更改流程。
|
2 |
- 由于流量或用户、主干网更改或路由更改的大幅增加,对大量用户(500+)或业务关键型服务的潜在影响很大。
- 更改可能需要一些停机时间。
|
- 执行假设分析以确定对现有环境的影响(应在实验室环境中完成)。
- 测试并检查路由更改的功能。
- 创建退出计划。
- 对主要路由或主干更改执行设计审核。
- 制定实施计划。
- 创建更改流程。
|
3 |
- 由于任何非标准更改,对用户或业务服务数量较少的潜在影响中等。
- 包括新产品、软件、拓扑、添加功能或新用户、增加流量或非标准拓扑。
- 更改可能需要一些停机时间。
|
- 对新解决方案执行工程分析(可能需要实验室验证)。
- 制定实施计划。
- 创建更改流程。
|
4 |
- 降低潜在服务或用户影响。
- 包括添加新的标准模板网络模块,例如在路由器上构建或服务器交换机/集线器。
- 包括新的广域网站点或其他经过验证的接入服务。
- 所有风险级别3的变化已在生产环境中经过技术验证。
- 更改可能需要一些停机时间。
|
|
5 |
- 不影响用户或服务。
- 包括向网络添加单个用户和标准配置更改,如密码、标语、SNMP或其他标准配置参数。
- 没有停机时间。
|
|
定义需要假设分析的位置后,即可定义服务。
您可以使用建模工具或模拟生产环境的实验室执行网络假设分析。建模工具受到应用程序对设备资源问题的了解程度的限制,而且由于大多数网络更改都是新设备,因此应用程序可能不了解更改的影响。最佳方法是在实验室中构建生产网络的一些表示形式,并使用流量生成器在负载下测试所需的软件、功能、硬件或配置。将路由(或其他控制信息)从生产网络泄露到实验室也增强了实验环境。测试不同流量类型(包括SNMP、广播、组播、加密或压缩流量)的其他资源要求。利用所有这些不同的方法,分析在路由收敛、链路抖动和设备重新启动等潜在压力情况下对设备资源的需求。资源利用率问题包括正常容量资源区域,如CPU、内存、背板利用率、缓冲区和队列。
新应用还应执行假设分析以确定应用成功和带宽要求。您通常在实验环境中使用协议分析器和WAN延迟模拟器来执行此分析,以了解距离的影响。您只需要一台连接到生产网络的PC、集线器、WAN延迟设备和实验室路由器。您可以在实验中使用测试路由器上的通用流量整形或速率限制来限制流量,以模拟带宽。网络管理员可以与应用组一起了解LAN和WAN环境中应用的带宽要求、窗口问题和潜在性能问题。
在部署任何业务应用之前执行应用假设分析。如果不执行此操作,应用组会将网络性能不佳归咎于网络。如果您可以通过变更管理流程以某种方式要求对新部署进行应用假设分析,则可帮助防止部署失败,并更好地了解客户端 — 服务器和批处理要求的带宽消耗突然增加。
基线建立和趋势分析
建立基准和趋势分析使网络管理员能够在容量问题导致网络中断时间或性能问题之前规划和完成网络升级。比较连续时间段内的资源利用率或逐段提取数据库中的信息,并允许计划员查看过去一小时、一天、周、月和年的资源利用率参数。无论是哪种情况,必须每周、每两周或每月查看信息。基线建立和趋势分析的问题在于,在大型网络中需要大量信息来审查。
您可以通过以下几种方式解决此问题:
-
在LAN环境中构建大量容量并进行交换,因此容量不是问题。
-
将趋势信息分成若干组,并集中于网络的高可用性或关键区域,例如关键WAN站点或数据中心LAN。
-
报告机制可以突出显示超出特定阈值以引起特别注意的领域。如果您首先实施关键可用性领域,您可以显着减少审核所需的信息量。
使用以前的所有方法,您仍需定期查看信息。建立基准和趋势分析是一项主动的工作,如果组织只有用于被动支持的资源,个人将不会阅读报告。
许多网络管理解决方案提供容量资源变量的信息和图形。不幸的是,大多数人只使用这些工具对现有问题进行被动支持;这使建立基准和趋势的目的落空。在为思科网络提供容量趋势信息方面有效的两种工具是Concord Network Health产品和INS EnterprisePRO产品。在许多情况下,网络组织运行简单的脚本语言来收集容量信息。以下是通过脚本收集的一些示例报告,用于链路利用率、CPU利用率和ping性能。可能对趋势很重要的其他资源变量包括内存、队列深度、广播卷、缓冲区、帧中继拥塞通知和背板利用率。有关链路利用率和CPU利用率的信息,请参阅下表:
链路利用率
资源 |
地址 |
网段 |
平均利用率(%) |
峰值利用率(%) |
JTKR01S2 |
10.2.6.1 |
128 Kbps |
66.3 |
97.6 |
JYKR01S0 |
10.2.6.2 |
128 Kbps |
66.3 |
97.8 |
FMCR18S4/4 |
10.2.5.1 |
384 Kbps |
51.3 |
109.7 |
PACR01S3/1 |
10.2.5.2 |
384 Kbps |
51.1 |
98.4 |
CPU 利用率
资源 |
轮询地址 |
平均利用率(%) |
峰值利用率(%) |
FSTR01 |
10.28.142.1 |
60.4 |
80 |
NERT06 |
10.170.2.1 |
47 |
86 |
NORR01 |
10.73.200.1 |
47 |
99 |
RTCR01 |
10.49.136.1 |
42 |
98 |
链路利用率
资源 |
地址 |
AvResT(mS)09-09-98 |
AvResT(mS)09-09-98 |
AvResT(mS)09-09-98 |
AvResT(mS)10-01-98 |
AADR01 |
10.190.56.1 |
469.1 |
852.4 |
461.1 |
873.2 |
ABNR01 |
10.190.52.1 |
486.1 |
869.2 |
489.5 |
880.2 |
APRR01 |
10.190.54.1 |
490.7 |
883.4 |
485.2 |
892.5 |
ASAR01 |
10.196.170.1 |
619.6 |
912.3 |
613.5 |
902.2 |
ASRR01 |
10.196.178.1 |
667.7 |
976.4 |
655.5 |
948.6 |
ASYR01S |
|
|
|
|
503.4 |
AZWRT01 |
10.177.32.1 |
460.1 |
|
444.7 |
|
BEJR01 |
10.195.18.1 |
1023.7 |
1064.6 |
1184 |
1021.9 |
例外管理
异常管理是确定和解决容量和性能问题的一种有价值的方法。其思想是接收有关容量和性能阈值违规的通知,以便立即调查并解决问题。例如,网络管理员可能会收到路由器上CPU使用率较高的警报。网络管理员可以登录路由器,确定CPU使用率如此高的原因。然后,她可以执行一些可减少CPU的补救配置,或创建访问列表来防止导致问题的流量,尤其是当流量看起来不是业务关键型流量时。
您可以简单地在路由器上使用RMON配置命令或使用更高级的工具(如Netsys服务级别管理器)与SNMP、RMON或Netflow数据结合使用,来配置更关键问题的异常管理。大多数网络管理工具都能够设置违规阈值和警报。异常管理流程的一个重要方面是提供接近实时的问题通知。否则,问题可能会在收到通知之前消失。如果组织具有一致的监控,可以在NOC内完成此操作。否则,我们建议传呼通知。
以下配置示例为路由器CPU向日志文件提供上升和下降阈值通知,该日志文件可以一致地查看。您可以为严重链路利用率阈值违规或其他SNMP阈值设置类似的RMON命令。
rmon event 1 trap CPUtrap description
"CPU Util >75%"rmon event 2 trap CPUtrap description
"CPU Util <75%"rmon event 3 trap CPUtrap description
"CPU Util >90%"rmon event 4 trap CPUtrap description
"CPU Util <90%"rmon alarm 75 lsystem.56.0 10 absolute rising-threshold
75 1 falling-threshold 75 2rmon alarm 90 lsystem.56.0 10 absolute rising-threshold
90 3 falling-threshold 90 4
QoS管理
服务质量管理包括在网络中创建和监控特定流量类。流量为特定应用组(在流量类中定义)提供更一致的性能。 流量整形参数为特定流量类别提供了显着的优先级和流量整形灵活性。这些功能包括承诺接入速率(CAR)、加权随机早期检测(WRED)和基于类的公平加权排队等功能。流量类通常根据性能SLA为更多业务关键型应用和特定应用要求(如语音)创建。非关键或非业务流量的控制方式也不会影响更高优先级的应用和服务。
创建流量类需要对网络利用率、特定应用要求和业务应用优先级有基本的了解。应用要求包括数据包大小、超时问题、抖动要求、突发要求、批处理要求和整体性能问题方面的知识。借助这些知识,网络管理员可以创建流量整形计划和配置,以在各种LAN/WAN拓扑中提供更一致的应用性能。
例如,一个组织在两个主要站点之间有一个10兆ATM连接。链路有时会因大型文件传输而拥塞,这会导致在线事务处理的性能下降,并导致语音质量较差或不可用。
该组织设置了四种不同的流量类。语音被赋予最高优先级,并允许保持该优先级,即使它突发超过估计的流量速率。关键应用类被赋予了次高优先级,但不允许在总链路大小低于估计语音带宽要求的情况下突发。当它突发时,它将被丢弃。文件传输流量只是被赋予较低的优先级,而所有其他流量都适合中间的某个位置。
组织现在必须对此链路执行QoS管理,以确定每个类别占用的流量数量并衡量每个类别的性能。如果组织未能执行此操作,某些类可能会出现耗竭,或者某个特定类内可能不满足性能SLA。
由于缺少工具,管理QOS配置仍然是一项困难的任务。一种方法是使用思科的互联网性能管理器(IPM)通过属于每个流量类的链路发送不同的流量。然后,您可以监控每个类的性能,IPM提供趋势分析、实时分析和逐跳分析,以查明问题区域。其他流量可能仍依赖于更手动的方法,例如根据接口统计信息调查每个流量类内的排队和丢弃的数据包。在某些组织中,此数据可能通过SNMP收集或解析到数据库中以获取基线和趋势。市场上还存在一些工具,它们通过网络发送特定流量类型来确定特定服务或应用的性能。
收集和报告容量信息
收集和报告容量信息应与容量管理的三个建议领域相关联:
-
假设分析,以网络更改为中心,以及更改对环境的影响
-
基线建立和趋势分析
-
异常管理
在这些区域中,制定信息收集计划。在进行网络或应用假设分析时,您需要工具来模拟网络环境并了解与设备控制平面或数据平面内的潜在资源问题相关的更改的影响。在建立基线和进行趋势分析时,需要为显示当前资源利用率的设备和链接提供快照。然后,您会逐渐查看数据,了解潜在的升级要求。这样,网络管理员可以在出现容量或性能问题之前正确规划升级。当出现问题时,您需要进行异常管理以向网络管理员发出警报,以便他们能够调整网络或解决问题。
此过程可分为以下步骤:
-
确定您的需求。
-
定义流程。
-
定义容量区域。
-
定义能力变量。
-
解释数据。
确定您的需求
制定容量和绩效管理计划需要了解您需要的信息以及这些信息的目的。将计划划分为三个所需区域:每个模块分别用于假设分析、基线建立/趋势分析和异常管理。在每个区域中,了解可用的资源和工具以及需要的资源。许多组织在部署工具时都会失败,因为他们考虑的是工具的技术和功能,而不考虑管理工具所需的人员和专业知识。在您的计划中包括所需人员和专业知识,以及流程改进。这些人员可能包括系统管理员管理网络管理站,数据库管理员帮助进行数据库管理,训练有素的管理员使用和监控工具,以及更高级别的网络管理员来确定策略、阈值和信息收集要求。
定义流程
您还需要一个流程来确保工具的使用成功且一致。您可能需要改进流程,以定义发生阈值违规时网络管理员应该执行什么操作,或要遵循什么流程来建立基线、进行趋势分析和升级网络。确定成功容量规划的需求和资源后,您可以考虑该方法。许多组织选择将此类功能外包给INS等网络服务组织或在内部构建专业知识,因为他们认为服务是核心能力。
定义容量区域
能力规划计划还应包括能力领域的定义。以下是网络中可以共享通用容量规划策略的区域:例如,公司LAN、WAN现场办公室、关键WAN站点和拨入访问。定义不同区域有多种原因:
-
不同区域可能具有不同的阈值。例如,LAN带宽比WAN带宽便宜得多,因此使用阈值应该更低。
-
不同区域可能需要监控不同的MIB变量。例如,帧中继中的FECN和BECN计数器对于了解帧中继容量问题至关重要。
-
升级网络的某些区域可能比较困难或费时。例如,国际电路可能具有更长的交付期,并需要相应的更高级别的规划。
定义能力变量
下一个重要区域是定义要监控的变量和需要操作的阈值。容量变量的定义主要取决于网络中使用的设备和介质。一般参数(如CPU、内存和链路利用率)都很有价值。但是,其他方面可能对特定技术或要求很重要。这些可能包括队列深度、性能、帧中继拥塞通知、背板利用率、缓冲区利用率、网络流统计信息、广播卷和RMON数据。请记住您的长期计划,但只从几个关键领域开始帮助确保成功。
解释数据
了解收集的数据也是提供高质量服务的关键。例如,许多组织不完全了解峰值和平均利用率级别。下图显示基于5分钟SNMP收集间隔的容量参数峰值(以绿色显示)。
即使报告值小于阈值(以红色显示),在高于阈值(以蓝色显示)的收集间隔内仍可能出现峰值。 这非常重要,因为在收集间隔内,组织可能遇到影响网络性能或容量的峰值。请小心选择有意义的收集间隔,该间隔很有用,且不会造成过多开销。
另一个示例是平均利用率。如果员工仅在8至5人的办公室工作,但平均利用率为7X24,则该信息可能具有误导性。
相关信息