可用性 : 高可用性

基本程序最佳实践白皮书

2015 年 8 月 28 日 - 机器翻译
其他版本: PDFpdf | 英语 (2015 年 4 月 22 日) | 反馈


目录


简介

本文描述基线概念和步骤完全可用的网络的。它包括网络标准和故障排除的重要成功因素能帮助评估成功。遵从思科的高可用性服务(HAS)团队识别的最佳实践指南的它为基准和阈值进程也提供大量详细信息和实施。

本文采取您逐步通过基线进程。一些当前网络管理系统(NMS)产品可帮助自动化此进程,然而,基线进程依然是同样您是否使用自动化的或手工的工具。如果使用这些NMS产品,您必须调节您的唯一的网络环境的默认门限值设置。有智能选择的进程那些阈值是重要的,以便他们有意义的和正确。

基准

什么是基线?

基线是一个过程,用于定期研究网络以确保网络的工作情况符合设计意图。它远非记录特定时间点的网络健康状态的一个报告那么简单。通过按照基本程序,您能得到以下信息:

  • 得关于硬件与软件的健康的重要信息

  • 确定当前网络资源的利用率

  • 做出关于网络警报阈值的准确决策

  • 识别当前网络问题

  • 预测将来问题

查看基准另一个方式在以下图表中说明。

/image/gif/paws/15112/65400.gif

红线,网络中断断点,是网络将中断,通过知识的点硬件与软件如何确定执行。绿色线路,网络负载,是负载自然级数行进在网络,因为新应用被添加和其他这样要素的。

基准的目的将确定:

  • 那里您的网络在绿色线路

  • 网络负载多快增加

  • 有希望地请预测两个什么时刻将相交

由执行经常基准,您能发现当前状态外推,当失败事先将发生并且为他们做准备。这什么时候,什么地方并且怎样在网络升级上也帮助您做出更加消息灵通的决策花预算金额。

为什么要使用基线?

基本程序帮助您对重要资源在网络的限制问题识别和适当地计划。这些问题可以描述作为控制平面资源或数据平面资源。控制平面资源对特定平台和模块是唯一在设备内,并且可以由一定数量的问题影响包括:

  • 数据利用率

  • 启用的功能

  • 网络设计

控制平面资源包括参数例如:

  • CPU利用率

  • 存储器利用率

  • 缓冲区利用率

数据平面资源由类型和数据流仅影响并且包括链路利用率和背板利用率。由重要区域的基线资源利用率,您能避免严重性能问题或者更坏,网络溶解。

使用对时延敏感的应用的介绍例如语音和视频,基线当前重要。传统传输控制协议/互联网协议(TCP/IP)应用程序原谅并且允许一定数量的延迟。语音和视频是基于的用户数据报协议(UDP)和不允许重新传输或网络拥塞。

由于应用程序的新的混合,基线帮助您了解控制飞机和数据平面资源利用率问题和主动地对保证的更改和的升级计划继续成功。

数据网大约有许多年。近来,保持网络运行是一相当原谅的进程,与若干允许错误。使用对时延敏感的应用增加的接受例如VoIP,运行网络工作变为更加困难并且需要更多精确度。为了是更加准确的和给网络管理员管理网络,有某个想法的坚固的基础是重要的网络如何运行。要执行此,您必须通过呼叫基准的进程。

基准目标

基准的目标对:

  1. 确定网络设备当前状态

  2. 比较该状态对标准性能指南

  3. 当状态超出那些指南时,请设置阈值警告您

由于很多数据和采取分析数据的时间,您必须首先限制基准的范围使更加容易了解进程。最逻辑和时常最有利,放置开始是网络的核心。网络的这部分通常最小并且需要多数稳定性。

简单说来,本文解释如何对非常重要的基准一简单网络管理协议管理信息库(SNMP MIB) :cpmCPUTotal5min。cpmCPUTotal5min是Cisco路由器的中央处理器(CPU)的五分钟腐朽的平均值,并且是控制飞机指示器。基准在Cisco 7000系列路由器将被执行。

一旦了解进程,您能应用它到在是可用的在多数Cisco设备的浩大的SNMP数据库的所有数据联机,例如:

  • 综合业务数字网络(ISDN)使用情况

  • 异步传输模式(ATM)信元丢失

  • 空闲系统内存

核心基线流程图

以下流程图显示核心基线进程的基本步骤。当产品和工具是可用执行其中一些您的时步骤,他们倾向于有在灵活性或易用的差距。即使您计划使用网络管理系统(NMS)工具执行基线,这仍然是在学习进程和知道您的网络如何的一好练习确实运作。此进程可能也采取某些奥秘在一些NMS工具如何外面工作,因为多数工具根本做同样事。

/image/gif/paws/15112/65402.gif

基准程序

步骤 1:编译硬件、软件和配置清单

是非常重要的您由于几个原因编译硬件、软件和配置库存。首先, Cisco SNMP MIB是,在某些情况下,特定对Cisco IOS版本您运作。一些MIB对象用新的替换或完全,时常,被排除。硬件库存是最重要,在数据收集后,自从您需要设置的阈值,在初始基线根据CPU种类经常,内存数量,等等后,在Cisco设备。配置清单也是重要确保,您认识当前配置:您可以要更改设备配置,在您的基准调整缓冲区,等等后。

多数有效的方法完成基准的这部分Cisco网络的是CiscoWorks2000 Resource Manager Essentials (精华)。如果此软件在网络正确地安装,精华应该有所有设备当前库存在其数据库的。您需要查看库存发现是否有任何问题。

下表是在Microsoft Excel导出从精华,然后编辑的Cisco路由器中集集团软件库存管理系统报告的示例。从此库存,请注意您必须使用SNMP MIB数据,并且对象标识符(OIDs)在12.0x和12.1x Cisco IOS版本查找。

设备名 路由器类型 version 软件版本
field-2500a.embu-mlab.cisco.com Cisco 2511 M 12.1(1)
qdm-7200.embu-mlab.cisco.com Cisco 7204 B 12.1(1)E
voip-3640.embu-mlab.cisco.com Cisco 3640 0x00 12.0(3c)
wan-1700a.embu-mlab.cisco.com Cisco 1720 0x101 12.1(4)
wan-2500a.embu-mlab.cisco.com Cisco 2514 L 12.0(1)
wan-3600a.embu-mlab.cisco.com Cisco 3640 0x00 12.1(3)
wan-7200a.embu-mlab.cisco.com Cisco 7204 B 12.1(1)E
172.16.71.80 Cisco 7204 B 12.0(5T)

如果精华在网络没有安装,您能使用从UNIX工作站的UNIX line命令工具snmpwalk查找IOS版本。这在以下示例显示。如果不是肯定的此命令如何运作,请键入man snmpwalk在UNIX提示欲知更多信息。IOS版本将是重要在,当您开始对基准的MIB OIDs的选择,因为MIB对象是从属的IOS。并且请注意通过认识路由器类型,您能以后做确定至于什么阈值应该是为CPU,缓冲区,等等。

nsahpov6% snmpwalk -v1 -c private 172.16.71.80 system
system.sysDescr.0 : DISPLAY STRING- (ascii): Cisco Internetwork Operating System Software
IOS (tm) 7200 Software (C7200-JS-M), Version 12.0(5)T, RELEASE SOFTWARE (fc1)
Copyright (c) 1986-2001 by cisco Systems, Inc.
Compiled Fri 23-Jul-2001 23:02 by kpma
system.sysObjectID.0 : OBJECT IDENTIFIER:
.iso.org.dod.internet.private.enterprises.cisco.ciscoProducts.cisco7204

步骤 2:验证路由器支持SNMP MIB

即然您有您要为您的基准轮询设备的库存,您能开始选择您要轮询的特定OIDs。它保存很多失败,如果验证,提早,您希望的数据实际上是那里。cpmCPUTotal5min MIB对象在CISCO-PROCESS-MIB。

要查找您要轮询的OID,您需要在思科的CCO网站可以找到的转换表。访问从Web浏览器的此网站,去Cisco MIB页和点击OIDs链路。

访问从FTP服务器的此网站,类型ftp://ftp.cisco.com/pub/mibs/oid/。从此站点,由OID编号解码并且排序的您能下载特定MIB。

以下示例从思科进程MIB.oid表解压缩。此示例显示cpmCPUTotal5minMIB的OID是.1.3.6.1.4.1.9.9.109.1.1.1.1.5。

注意: 请勿忘记的添加“”。对OID的开始处或您,当您设法轮询它,将收到错误。您也需要添加".1"对OID的结尾例示它。这告诉设备您寻找OID的实例。有时,当路由器有多个CPU时, OIDs有超过数据特定类型的一个实例,例如。

ftp://ftp.cisco.com/pub/mibs/oid/CISCO-PROCESS-MIB.oid
### THIS FILE WAS GENERATED BY MIB2SCHEMA
"org" "1.3"
"dod" "1.3.6"
"internet" "1.3.6.1"
"directory" "1.3.6.1.1"
"mgmt" "1.3.6.1.2"
"experimental" "1.3.6.1.3"
"private" "1.3.6.1.4"
"enterprises" "1.3.6.1.4.1"
"cisco" "1.3.6.1.4.1.9"
"ciscoMgmt" "1.3.6.1.4.1.9.9"
"ciscoProcessMIB" "1.3.6.1.4.1.9.9.109"
"ciscoProcessMIBObjects" "1.3.6.1.4.1.9.9.109.1"
"ciscoProcessMIBNotifications" "1.3.6.1.4.1.9.9.109.2"
"ciscoProcessMIBConformance" "1.3.6.1.4.1.9.9.109.3"
"cpmCPU" "1.3.6.1.4.1.9.9.109.1.1"
"cpmProcess" "1.3.6.1.4.1.9.9.109.1.2"
"cpmCPUTotalTable" "1.3.6.1.4.1.9.9.109.1.1.1"
"cpmCPUTotalEntry" "1.3.6.1.4.1.9.9.109.1.1.1.1"
"cpmCPUTotalIndex" "1.3.6.1.4.1.9.9.109.1.1.1.1.1"
"cpmCPUTotalPhysicalIndex" "1.3.6.1.4.1.9.9.109.1.1.1.1.2"
"cpmCPUTotal5sec" "1.3.6.1.4.1.9.9.109.1.1.1.1.3"
"cpmCPUTotal1min" "1.3.6.1.4.1.9.9.109.1.1.1.1.4"
"cpmCPUTotal5min" "1.3.6.1.4.1.9.9.109.1.1.1.1.5"

有两种普通的方式轮询MIB OID确保它是可用和作用。它是一个好想法执行此,在您开始批量数据数据收集前,以便您不浪费时间?不在那里的事并且最终获得空数据库。一种方式执行此将使用从您的NMS平台的一个MIB步行者例如HP OpenView网络节点管理器(NNM),或者CiscoWorks Windows,并且输入您要检查的OID。

下列是从HP OpenView SNMP MIB步行者的一示例。

/image/gif/paws/15112/Baseline_Fig3.gif

轮询MIB OID的另一简单的方法是使用unix命令snmpwalk如以下示例所显示。

nsahpov6% cd /opt/OV/bin
nsahpov6% snmpwalk -v1 -c private 172.16.71.80 .1.3.6.1.4.1.9.9.109.1.1.1.1.5.1

cisco.ciscoMgmt.ciscoProcessMIB.ciscoProcessMIBObjects.cpmCPU.cpmCPUTotalTable.cpmCPUTotalEntry.cpmCPUTotal5min.1 : Gauge32: 0

在两示例中, MIB返回值为0,含义对于该轮询循环CPU平均为0百分比利用率。如果有获得设备的困难回应正确数据,请通过Telnet尝试ping设备和访问设备。如果仍然有一问题,请检查SNMP配置和SNMP团体字符串。您可能需要查找替代方案MIB或另一个IOS版本做此工作。

步骤 3:从路由器的投票和记录特定SNMP MIB对象

有几个方式轮询MIB对象和记录输出。现货产品、共享件产品、脚本和供应商工具是可用的。所有前端的工具使用SNMP获得进程得到信息。主要区别在方面数据在数据库被记录配置和方式的灵活性在。再次,看看看到这些多种方法如何的处理器MIB工作。

即然您知道路由器支持OID,您多频繁需要决定轮询它和如何记录它。思科建议CPU MIB轮询在五分钟间隔。一个更低间隔将增加在网络或设备的负载,并且,因为MIB值无论如何是五分钟平均数经常轮询它比平均的值是没有用的。通常也推荐基线轮询有至少一个两星期时间,以便您能分析在网络的至少两每周商业周期。

以下屏幕显示您如何执行请添加与HP OpenView网络节点管理器版本6.1的MIB对象。从主屏幕,请选择选项>数据收集&阈值

/image/gif/paws/15112/Baseline_Fig5.gif

然后请选择Edit > Add > MIB Objects

Baseline_Fig6.gif

从菜单,请添加OID字符串并且单击应用。您当前输入MIB对象到HP OpenView平台,以便可以轮询。

/image/gif/paws/15112/Baseline_Fig7.gif

您必须其次告诉HP OpenView轮询的什么路由器为此OID。

从Data Collection菜单,请选择Edit > Add > MIB Collections

Baseline_Fig8.gif

在Source字段,请输入将轮询的路由器的域名命名系统(DNS)名称或IP地址。

选择存储,从Set Collection模式列表的没有阈值

设置轮询间隔到5m,五个分钟间隔的。

单击 Apply

Baseline_Fig9.gif

您必须选择更改的File > Save能采取影响。

要验证集适当地设置,请突出显示路由器的集概略的线路并且选择操作> Test SNMP。这检查发现社区字符串是否正确和为OID的所有实例投票。

Baseline_Fig10.gif

点击Close,并且让集运行一周。在每周期限结束时,请析取数据为分析。

数据,如果转存它到ASCII文件并且导入它到一个电子表工具例如Microsoft Excel,更加容易地分析。要执行此与HP OpenView NNM,您能使用line命令工具, snmpColDump。配置的每收藏写到在/var/opt/OV/share/databases/snmpCollect/目录的一个文件。

析取数据到呼叫测试文件的ASCII文件用以下命令:

snmpColDump /var/opt/OV/share/databases/snmpCollect/cpmCPUTotal5min.1 > testfile

注意: 当OID轮询开始, cpmCPUTotal5min.1是数据库文件创建的该HP OpenView NNM。

生成的测试文件看起来与以下示例相似。

03/01/2001 14:09:10 nsa-gw.cisco.com 1
03/01/2001 14:14:10 nsa-gw.cisco.com 1
03/01/2001 14:19:10 nsa-gw.cisco.com 1
03/01/2001 14:24:10 nsa-gw.cisco.com 1
03/01/2001 14:29:10 nsa-gw.cisco.com 1
03/01/2001 14:34:10 nsa-gw.cisco.com 1
03/01/2001 14:39:10 nsa-gw.cisco.com 1
03/01/2001 14:44:10 nsa-gw.cisco.com 1
03/01/2001 14:49:10 nsa-gw.cisco.com 1
03/01/2001 14:54:10 nsa-gw.cisco.com 1
03/01/2001 14:59:10 nsa-gw.cisco.com 1
03/………

一旦测试文件输出在您的UNIX工作站,使用文件传输协议(FTP),您能转接它到您的PC。

使用您自己的脚本,您能也收集数据。要执行此,请执行CPU OID的一snmpget每五分钟并且转存结果到.csv文件。

步骤 4:分析数据确定阈值

即然您有一些数据,您能开始分析它。基准的此相位确定是性能准确测量或故障和没引起许多报警的门限值设置您能使用,当您打开阈值监视时。其中一个最简单的方法执行此是导入数据到一个电子表例如Microsoft Excel和密谋消散图表。此方法使非常容易发现多少次特定设备将创建例外警报,如果为一特定的阈值监控它。打开阈值是不可行的,无需执行基准,因为这可能创建从超出了阈值您选择的设备的提醒的风暴。

导入测试文件到Excel电子表,开放Excel和选择File > Open和选择您的Data文件。

/image/gif/paws/15112/Baseline_Fig11.gif

Excel应用程序通过导入文件然后提示您。

当完成,导入的文件应该看起来类似于以下屏幕。

/image/gif/paws/15112/Baseline_Fig13.gif

消散图表允许您对更加容易地形象化多种门限值设置如何在网络将工作。

创建消散图表,优点列C在导入的文件然后单击Chart Wizard图标。然后请通过构件的消散图表图表向导遵从步骤。

在图表向导步骤1,如下所示,请选择Standard Types选项,并且选择X - Y的(消散)图表类型。然后,单击下一步

Baseline_Fig14.gif

在图表向导步骤2,如下所示,请选择Data Range选项并且选择数据范围和Columns选项。单击 Next

Baseline_Fig15.gif

在图表向导步骤3,如下所示,请输入图表标题和X和Y轴值,其次然后单击。

/image/gif/paws/15112/Baseline_Fig16.gif

在图表向导步骤4,请选择您是否想要消散图表在新页面或作为在现有页的一个对象。

点击芬通社安置图表在您的所需位置。

“若?”分析

您能当前使用消散图表分析。然而,在继续前,您需要询问以下问题:

  • 供应商(在本例中供应商是否是思科)推荐什么作为此MIB变量的一阈值?

    一般来说,思科建议核心路由器不超出60百分比平均的CPU利用率。六十百分比选择,因为路由器需要若干开销,万一体验麻烦或网络有一些失败。思科估计核心路由器需要大约40 CPU利用率百分比在头顶上,万一路由协议必须重新计算或再聚合。这些百分比变化基于您使用和您的网络的拓扑和稳定性的协议。

  • 若使用60百分比作为门限值设置呢?

    如果水平地画在消散图表间的一条线路在60,您看到数据点都不超出60个CPU利用率百分比。在轮询周期,不会因此60在您的网络管理系统(NMS)站点的集阈值引起了门限值预警。百分比60为此路由器是可接受。然而,在消散图表的公告某些数据点是接近60。知道好的,当路由器临近60阈值时,因此您能知道提早CPU接近60百分比和有该做什么的一规划能,当到达该点时。

  • 若设置阈值为50百分比呢?

    预计此路由器到达了50百分比利用率四次在此轮询循环期间,并且每次生成门限值预警。此进程变得更加重要,当您查看路由器的组发现时什么不同的门限值设置将执行。例如, “我若设置阈值在整个核心网络的50百分比?”您看到,它是非常难选择一个编号。

CPU阈值“若”分析

Baseline_Fig17.gif

您能使用做此更加容易的一个策略准备好,集,去阈值方法。此方法一个接一个地使用三阈值数字。

  • 准备—阈值您集作为什么设备的预报器在将来可能将需要注意

  • 使用作为一台早期的指示器,警告您开始修复的规划,重新配置的集—阈值或者升级

  • 去—您并且/或者供应商相信是故障状况的阈值和要求若干操作修复它;在本例中它是60百分比

下表显示策略就绪,集,去策略。

阈值 操作 结果
45百分比 进一步调查 选项列表行动方案的
50百分比 制定行动方案 步骤列表在行动方案的
60百分比 实现行动方案 路由器不再超出阈值。回到就绪模式

就绪,集,去方法更改原始基线图表讨论前。以下图表显示已更改基线图。如果能识别图表的其他交点,您比您以前执行当前有更多时间计划和起反应。

65401.gif

注意在此进程,注意集中于在网络的例外和没有于其它设备有关。假设,只要设备在阈值之下,他们优良是。

如果安排这些步骤从开始仔细考虑,您为保持网络将是准备充分的健康。执行此种规划也是非常有用的对预算值计划。如果知道什么您名列前茅五路由器,您的中间集合路由器,并且您的底下就绪路由器是,您在多少预算能容易地计划您为根据什么样的路由器的升级将需要他们是,并且什么您的行动方案选项是。同一个策略可以用于广域网(WAN)链路或所有其他MIB OID。

步骤 5:修正已确定直接问题

这是其中一个基本程序的更加容易的部分。一旦识别哪些设备超出阈值,您应该做行动方案获得那些设备返回在阈值下。

您能开有思科的技术支持中心(TAC)的一个Case或与您的系统工程师联系可用的选项的。您不应该假设那获得事上一步在阈值下将开销您金钱。一些CPU问题可以通过更改配置保证解决所有进程以更高效的方式运行。例如,某访问控制列表(ACL)能做路由器CPU运行非常高由于数据包通过路由器采取的路径。有时,您能实现Netflow交换更换信息包交换的路径和减少ACL的影响在CPU。什么问题是,获得所有路由器上一步在此步骤的阈值下是必要的,因此您能实现阈值后,不用充斥NMS工作站风险用许多门限值预警。

步骤 6:测试门限值监控

此步骤在实验室里包括测试阈值使用您在生产网络将使用的工具。有两个普通的途径对监控阈值。您必须决定哪个方法为您的网络是最佳。

  • 使用SNMP平台或其他SNMP监控工具,轮询并且比较方法

    此方法使用更多网络带宽轮询数据流并且占去在您的SNMP平台的处理周期。

  • 只有当阈值被超出时, Use Remote Monitoring (RMON)报警和事件配置在路由器,因此他们发送警报

    此方法减少网络带宽使用情况,而且增加内存和CPU利用率在路由器。

实现阈值使用SNMP

使用HP OpenView NNM,要设置SNMP方法,请选择选项>数据收集&阈值,您,当您设置最初的轮询。这时,然而,选择存储,检查阈值而不是存储,在集菜单的没有阈值。在您设置阈值后,您能通过发送它培养在路由器的CPU利用率多ping和多个SNMP walk。如果不能强制足够CPU高往返阈值,您可以必须降低阈值。无论如何,您应该保证threshold mechanism工作。

其中一个使用此方法的限制是您不能同时实现多个门限值。您会需要三SNMP平台设置三不同同时阈值。工具例如和谐的网络状况leavingcisco.comTrinagy TRENDleavingcisco.com 允许多个门限值同一个OID实例。

如果您的系统能每次只处理一阈值,您在序列方式可以认为就绪,集,去策略。即,当就绪阈值连续时达到,请开始您的调查并且提高阈值到该设备的set level。当set level连续时被到达,请开始制定您的行动方案和提高阈值到级为该设备。然后,当去阈值连续时达到,请实现您的行动方案。这应该运作作为三同时阈值方法。需要有点更改SNMP平台门限值设置的更多时间。

实现阈值使用RMON报警和事件

使用RMON报警和事件配置,您能有多个门限值的路由器监视器。当路由器检测超过门限的情况时,发送SNMP陷阱到SNMP平台。您在您的路由器配置方面必须有一个SNMP陷阱接收器设置能将转发的陷阱的。有报警和事件之间的相关性。报警检查OID给的阈值。如果阈值达到,报警进程射击能任一发送SNMP陷阱消息的事件进程,创建RMON日志条目或者两个。关于在此命令的更多详细信息,请参阅RMON报警和事件配置命令

下列路由器配置命令有路由器监视器cpmCPUTotal5min每300秒。它将射击event1,如果CPU超出60百分比,并且射击event2,当CPU下跌回到40百分比。在两种情况下, SNMP陷阱消息将传送到有社区私有字符串的NMS工作站。

要使用就绪,集,去方法,使用所有以下配置声明。

rmon event 1 trap private description "cpu hit60%" owner jharp
rmon event 2 trap private description "cpu recovered" owner jharp
rmon alarm 10 cpmCPUTotalTable.1.5.1 300 absolute rising 60 1 falling 40 2 owner jharp


rmon event 3 trap private description "cpu hit50%" owner jharp
rmon event 4 trap private description "cpu recovered" owner jharp
rmon alarm 20 cpmCPUTotalTable.1.5.1 300 absolute rising 50 3 falling 40 4 owner jharp

rmon event 5 trap private description "cpu hit 45%" owner jharp
rmon event 6 trap private description "cpu recovered" owner jharp
rmon alarm 30 cpmCPUTotalTable.1.5.1 300 absolute rising 45 5 falling 40 6 owner jharp

以下示例显示输出show rmon alarm命令由上述语句配置。

zack#sh rmon alarm
Alarm 10 is active, owned by jharp
 Monitors cpmCPUTotalTable.1.5.1 every 300 second(s)
 Taking absolute samples, last value was 0
 Rising threshold is 60, assigned to event 
1
 Falling threshold is 40, assigned to event 
2
 On startup enable rising or falling alarm
Alarm 20 is active, owned by jharp
 Monitors cpmCPUTotalTable.1.5.1 every 300 second(s)
 Taking absolute samples, last value was 0
 Rising threshold is 50, assigned to event 
3
 Falling threshold is 40, assigned to event 
4
 On startup enable rising or falling alarm
Alarm 30 is active, owned by jharp
 Monitors cpmCPUTotalTable.1.5.1 every 300 second(s)
 Taking absolute samples, last value was 0
 Rising threshold is 45, assigned to event 
5
 Falling threshold is 40, assigned to event 
6
 On startup enable rising or falling alarm

以下示例显示输出show rmon event命令

zack#sh rmon event
Event 1 is active, owned by jharp
 Description is cpu hit60%
 Event firing causes trap to community 
private, last fired 00:00:00
Event 2 is active, owned by jharp
 Description is cpu recovered
 Event firing causes trap to community 
private, last fired 02:40:29
Event 3 is active, owned by jharp
 Description is cpu hit50%
 Event firing causes trap to community 
private, last fired 00:00:00
Event 4 is active, owned by jharp
 Description is cpu recovered
 Event firing causes trap to community 
private, last fired 00:00:00
Event 5 is active, owned by jharp
 Description is cpu hit 45%
 Event firing causes trap to community 
private, last fired 00:00:00
Event 6 is active, owned by jharp
 Description is cpu recovered
 Event firing causes trap to community 
private, last fired 02:45:47

您可以要设法这两个方法发现哪个方法最适合于您的环境。您可以方法的组合工作良好的均等查找。无论如何,在实验室环境应该进行测试保证一切正确地运作。在测试在实验室里以后,在路由器的一小组的一个有限部署将允许您测试发送警报进程对您的操作中心。

在这种情况下,您将必须降低阈值测试进程:没有推荐人工地培养在生产路由器的CPU的尝试。您应该也保证,当警报进入NMS工作站在操作中心时,有确保的升级策略,您是消息灵通的,当设备超出阈值时。这些配置在与Cisco IOS版本12.1(7)的一个实验室测试了。如果遇到任何问题,您应该与的Cisco工程师或看到的系统工程师协商是否有一bug在您的IOS版本。

步骤 7:实现使用SNMP或RMON的阈值监视

一旦彻底测试阈值监视在实验室里和有限部署的,您准备实现在间核心网络的阈值。您可以系统地当前通过其他重要MIB变量的此基本程序在您的网络,例如缓冲区,空闲存储器,循环冗余冗余校验(CRC)错误,净额合计信元丢失,等等。

如果使用RMON报警和事件配置,您能从您的NMS工作站当前停止轮询。这将减少在您的NMS服务器的负载,并且请减少相当数量在网络的轮询数据。通过系统通过重要网络健康指示器的此进程,您可能容易地来到点使用RMON报警和事件,网络设备监控。

其它 MIB

在您了解此进程后,您可以要调查其他MIB到基准和监视器。以下小节提交一些OIDs和说明简要列表您可以查找有用的。

路由器 MIB

内存特性是非常有用在确定路由器的健康。绿色路由器应该几乎总是有工作的可用的缓冲空间。如果路由器开始用尽缓冲空间, CPU将必须努力工作创建新建的缓冲区和设法查找流入和输出数据包的缓冲区。缓冲区详细讨论是超出本文的范围之外。然而,通常,绿色路由器应该有很少缓冲区错过,并且不应该有任何缓冲故障或者零空闲内存情况。

对象 说明 OID
ciscoMemoryPoolFree 从当前是未使用在受管理设备的内存池的字节数 1.3.6.1.4.1.9.9.48.1.1.1.6
ciscoMemoryPoolLargestFree 当前未使用连续字节的最大数量从内存池的 1.3.6.1.4.1.9.9.48.1.1.1.7
bufferElMiss 缓冲元件数错过 1.3.6.1.4.1.9.2.1.12
bufferFail 缓冲数分配失败 1.3.6.1.4.1.9.2.1.46
bufferNoMem 缓冲数创建失败由于无可用内存 1.3.6.1.4.1.9.2.1.47

Catalyst 交换机 MIB

对象 说明 OID
cpmCPUTotal5min 在最后五分钟时间的整体CPU利用率。此对象贬抑从OLD-CISCO-SYSTEM-MIB的avgBusy5对象 1.3.6.1.4.1.9.9.109.1.1.1.5
cpmCPUTotal5sec 在最后五秒时间的整体CPU利用率。此对象obsolesces从OLD-CISCO-SYSTEM-MIB的busyPer对象 1.3.6.1.4.1.9.9.109.1.1.1.3
sysTraffic 带宽利用率的百分比上一个轮询间隔的 1.3.6.1.4.1.9.5.1.1.8
sysTrafficPeak 峰值流量测量值,自从清除端口计数器的上次或系统开始 1.3.6.1.4.1.9.5.1.1.19
sysTrafficPeaktime 时间(在一秒钟的百),因为峰值流量测量值出现 1.3.6.1.4.1.9.5.1.1.20
portTopNUtilization 端口的利用率系统的 1.3.6.1.4.1.9.5.1.20.2.1.4
portTopNBufferOverFlow 端口的缓冲数溢出系统的 1.3.6.1.4.1.9.5.1.20.2.1.10

串行链路 MIB

对象 说明 OID
locIfInputQueueDrops 被丢弃的数据包编号,因为Input queue满 1.3.6.1.4.1.9.2.2.1.1.26
locIfOutputQueueDrops 被丢弃的数据包编号,因为输出队列满 1.3.6.1.4.1.9.2.2.1.1.27
locIfInCRC 有循环冗余校验和错误输入信息包的数量 1.3.6.1.4.1.9.2.2.1.1.12

RMON 报警和事件配置命令

报警

RMON报警可以配置与以下语法:

rmon alarm number variable interval {delta | absolute} rising-threshold value
           [event-number] falling-threshold value [event-number]
           [owner string]
元素 说明
号码 告警号码,与在alarmtable的alarmIndex是相同的在RMON MIB。
变量 监控的MIB对象,翻译成alarmVariable在RMON MIB的alarmtable使用了。
间隔 时间,以秒钟,报警监控MIB变量,与用于RMON MIB的alarmtable的alarmInterval是相同的。
Delta 测试在MIB变量之间的更改,影响在RMON MIB的alarmtable的alarmSampleType。
绝对 直接地测试每MIB变量,影响在RMON MIB的alarmtable的alarmSampleType。
上升的极限值 报警被触发的值。
事件编号 (可选)触发的事件编号,当上升或降低阈值超过其限制。此值与alarmRisingEventIndex或alarmFallingEventIndex是相同的在RMON MIB的alarmtable。
下降阈值 报警重置的值。
所有者字符串 (可选)指定报警的一个所有者,与在RMON MIB的alarmtable的alarmOwner是相同的。

事件

RMON事件可以配置与以下语法:

rmon event number [log] [trap community] [description string] 
           [owner string]
元素 说明
号码 已分配事件编号,与在eventTable的eventIndex是相同的在RMON MIB。
日志 (可选)生成RMON日志条目,当事件被触发时并且设置在RMON MIB的eventType记录或log-and-trap。
陷阱属性 (用于此陷阱的可选) SNMP团体字符串。配置eventType的设置在RMON MIB的log-and-trap此行的作为snmp-trap或。此值与在eventTable的eventCommunityValue是相同的在RMON MIB。
description string (可选)指定事件的说明,与在RMON MIB的eventTable的事件描述是相同的。
所有者字符串 (此事件的可选)所有者,与在RMON MIB的eventTable的eventOwner是相同的。

RMON 警报和事件实现

关于RMON警报和事件实现的详细信息,请读网络管理系统最佳实践白皮书的RMON警报和事件实现部分

相关的思科支持社区讨论

思科支持社区是您提问、解答问题、分享建议以及与工作伙伴协作的论坛。


相关信息


Document ID: 15112