思科领先实践是一套规范化文档,可为思科产品和解决方案提供有关网络运营的相关可靠指导。领先实践由屡获殊荣的思科TAC和高级服务工程师开发并提供支持,这些工程师可帮助您创建自己的一组领先实践,以进行模仿。思科客户在其网络环境中应用了这些领先实践,以获得网络性能和可用性。
强烈建议使用思科及其合作伙伴提供的服务来补充这些领先实践。有关如何优化网络性能和可用性的详细信息,请联系您的服务销售代表,了解思科高级服务网站,并了解有关网络优化支持 — 重点工程支持、网络可用性改进支持(NAIS)、软件管理流程评估(SMPA)和NAIS-SMPA实施的更多信息。
有关软件管理的操作流程有助于降低网络复杂性、减少被动支持问题并缩短问题解决时间。本文档提供了Cisco IOS®软件(Cisco IOS)整体管理的策略、工具建议和最佳实践。
本文档的“创建Cisco IOS管理操作策略”和“遵循最佳实践Cisco IOS管理操作流程”部分讨论了建议的入门方法,并列出了用于操作阶段的最佳工具。运营阶段包括以下方面的最佳实践流程:
Process | 描述 |
---|---|
软件版本控制 | 跟踪、验证和改进已确定软件“跟踪”内的软件一致性。 |
故障管理 | 主动监控和处理由Cisco IOS生成的高优先级SNMP和系统日志消息。 |
问题管理 | 快速高效地收集与软件相关的问题的关键问题信息,以帮助防止将来发生。 |
配置标准化 | “标准化”配置,以降低在生产中执行未经测试的代码的可能性,并对网络协议和功能行为进行标准化。 |
可用性管理 | 根据指标、改进目标和改进项目提高可用性 |
本文档假设您已实施了以下规划、设计和实施Cisco IOS的最佳实践流程:
根据平台、模块、功能、协议和拓扑要求确定环境中的可管理软件区域(软件跟踪)。
根据软件路径选择、认证和传达Cisco IOS版本。
在每个软件路径中一致地实施标准Cisco IOS版本。
本节帮助您管理和维护已定义路径中的标准化Cisco IOS版本。您将学习如何:
开发软件版本控制流程,以确保确定的软件路径中的软件版本一致。
根据设备故障管理消息和警报(SNMP/Syslog)监控、通知和解析进程,以帮助主动解决潜在的软件和故障问题。
有效收集软件的关键问题信息,帮助缩短解决软件相关问题的时间。
标准化设备配置,帮助确保环境的协议、功能、访问和安全一致性。
本文档适用于具有技术指导的负责网络日常运营的个人和经理。本文档介绍如何建立操作流程,以通过构建网络一致性和改进主动故障管理功能来帮助您降低网络复杂性、减少被动支持问题并缩短问题解决时间。
参与Cisco IOS管理操作的人员应具备网络基础设施设计和管理的扎实知识,并且必须能够访问目标网络拓扑、设备配置、活动配置文件、应用使用和资源利用策略的详细信息。还需要访问Cisco Connection Online(CCO)上提供的信息工具并获得相关经验。如果您尚未向CCO注册,我们建议您这样做以访问本文档中描述的工具。
有许多质量策略和工具可帮助管理Cisco IOS环境。本章重点介绍在高可用性环境中管理Cisco IOS操作的三个关键策略,并包含一系列特别有助于管理Cisco IOS和Cisco IOS问题的关键操作工具。
第一个关键策略是尽可能简化环境,尽可能避免配置和Cisco IOS版本的变化。Cisco IOS认证已经讨论过,但配置一致性是另一个关键领域。架构/工程组应负责创建配置标准。然后,实施和运营组负责通过Cisco IOS版本控制和Cisco IOS配置标准/控制来配置标准并维护标准。
第二个关键策略是能够识别并快速解决网络故障。运营组通常应在用户报告网络问题之前确定网络问题,并且应尽快解决问题,而不会进一步影响或改变环境。此领域的两个主要最佳实践是问题管理和故障管理(本文档稍后将讨论这两个)。
注意:Cisco IOS堆栈解码器工具可用于帮助快速诊断Cisco IOS软件崩溃。
第三个关键战略是“不断改进”。主要流程是改进基于质量的可用性改进计划。通过对所有问题(包括与Cisco IOS相关的问题)执行根本原因分析,组织可以改善测试覆盖、缩短问题解决时间,并改进消除或减少中断影响的流程。组织还可以查看常见问题并构建流程以更快地解决这些问题。
Cisco IOS软件管理操作流程的交付内容包括:
软件版本控制流程和工具
故障管理监控和流程
问题管理流程
设备配置标准和审核流程
网络可用性方法、报告和审核流程
指标应定义为运营计划的一部分,用于确定工具和流程是否产生预期结果。以下是一些有用的Cisco IOS软件管理指标的示例:
网络可用性(由于软件问题)
Cisco IOS版本符合标准(按路径)
设备配置一致性百分比(基于标准)
问题管理指标(MTTR、故障单数量、关闭代码)
确定、确认和组建跨职能部门的经理和/或网络架构、网络工程和实施/运营小组的主管,以帮助确保IOS升级项目的规划、设计、实施和运营阶段取得成功。
组建跨职能的经理和/或来自网络管理、网络工程、实施和运营组的主管,以帮助您完成Cisco IOS管理项目的运营阶段。
网络管理器:
经理姓名、部门、联系信息
主要备份名称、部门、联系信息
辅助备份名称、部门、联系信息(如果需要)
网络架构师:
架构师姓名、部门、联系信息
主要备份名称、部门、联系信息
辅助备份名称、部门、联系信息(如果需要)
网络工程师:
工程师姓名、部门、联系信息
主要备份名称、部门、联系信息
辅助备份名称、部门、联系信息(如果需要)
网络运营(NOC)工程师:
工程师姓名、部门、联系信息
主要备份名称、部门、联系信息
辅助备份名称、部门、联系信息(如果需要)
网络管理员负责:
维护项目计划
分配/重新分配资源
管理变更控制
管理进度
管理预算报告
网络架构师负责:
分析网络标准和发布警告
维护软件升级表
维护候选管理矩阵
维护内存需求矩阵
网络(NOC)工程师负责:
实施并确保符合网络标准
确定软件问题和根本原因
建议纠正措施
监控网络
在运营阶段应确定资源需求,以支持组织的软件管理策略。这将包括支持软件策略所需的人力时间和资本支出。
在许多情况下,可以根据停机成本和可用性要求生成软件管理实践的投资回报(ROI)或预算计划。如果组织可以确定由于软件问题导致的停机时间,则大部分成本可以通过确定的软件管理最佳实践来抵消。如果成本无法完全抵消,则组织应考虑更基本的软件管理策略,该策略将通过防止因软件问题导致的额外返工来帮助提高工作效率。
遵循Cisco IOS管理操作流程的最佳实践包括:
最佳实践 | 详细信息 |
---|---|
软件版本控制 | 仅实施标准化软件版本并监控网络,以验证或可能更改由于非版本合规性而导致的软件。 |
故障管理 | SNMP和系统日志消息收集、监控和分析是故障管理流程,建议用于解决更多Cisco IOS特定网络问题,这些问题很难或无法以其他方式识别。 |
问题管理 | 详细的问题管理流程,定义问题识别、信息收集和经过充分分析的解决方案路径。此数据用于确定根本原因。 |
配置标准化 | 配置标准代表创建和维护标准“全局”配置参数的实践,这些参数跨类似设备和服务,从而实现企业范围的全局配置一致性。 |
可用性管理 | 使用网络可用性作为质量改进指标的质量改进。 |
软件版本控制是仅实施标准化软件版本并监控网络以验证或可能更改软件的过程,因为软件版本不合规。一般来说,软件版本控制是使用认证过程和标准控制完成的。许多组织在中央Web服务器上发布版本标准。此外,还培训实施人员检查运行的版本,并在版本不符合标准时更新版本。有些组织有质量门流程,通过审核完成二级验证,以确保在实施过程中遵循标准。
在网络运行期间,在网络中看到非标准软件版本的情况也并不罕见,尤其是当网络庞大且运营人员众多时。这可能是由于以下原因之一:
未经培训的新员工
引导命令配置错误
未检查的实施
建议使用CiscoWorks2000资源管理器基本版(RME)等工具定期验证软件版本标准,这些工具可以按Cisco IOS版本对所有设备进行排序。当确定非标准版本时,应立即标记该版本,并启动故障单或更改单,以将该版本转换为已确定的标准。
可用工具
CiscoWorks2000 RME资产管理器通过基于Web的报告工具,根据软件版本、设备平台和设备名称报告和排序设备,大大简化了思科路由器和交换机的Cisco IOS版本管理。
故障管理是收集、监控和分析SNMP和Syslog消息的过程,以解决更多Cisco IOS特定网络问题,这些问题很难或无法以其他方式识别。
SNMP陷阱收集
SNMP陷阱收集和通知是故障管理中的基本过程,用于识别软件或硬件事件和/或崩溃,而无SNMP轮询开销或轮询间隔产生的延迟。陷阱消息直接从网络设备生成到提供通知服务的网络管理系统。这些陷阱的收集和通知对于快速解决许多网络事件至关重要,包括不影响用户的事件,如冗余环境中主设备或链路的丢失。
要收集和监控这些陷阱,必须在设备和网络管理系统上正确配置陷阱。当收到陷阱时,网络管理系统应该向网络操作组发出警报。然后,通知可以以寻呼、电子邮件或事件屏幕的形式在NOC环境中发生。
无论数据如何呈现,网络运营和/或网络支持人员都必须定期(最好每天)分析和审查这些故障实例或异常。应调查发现的所有异常的原因。某些记录的异常可能不足以立即在网络运营中心发出警报。主动审查、调查和解决轻微异常可以帮助网络支持团队减少或防止网络中断。
系统日志消息收集
系统日志消息由设备发送到收集服务器。这些消息可能是硬件或软件错误,也可能是信息性消息(例如,当有人在设备上配置终端时)。
系统日志监控需要网络管理系统(NMS)工具支持或脚本来帮助分析和报告系统日志数据。这包括按日期或时间段、设备、系统日志消息类型或消息频率对系统日志消息进行排序的功能。在大型网络中,可以实施工具或脚本来解析系统日志数据并向事件管理系统或操作和工程人员发送警报或通知。如果不使用各种系统日志数据的警报,组织应至少每天查看优先级更高的系统日志数据,并为潜在问题创建故障单。为了主动检测可能无法通过正常监控发现的网络问题,应定期检查和分析历史系统日志数据,以检测可能不表示立即问题,但可能在问题变为服务影响之前提供问题指示的情况。
可用工具
一些较为常用的SNMP陷阱接收器工具包括:
HP OpenView Network Node Manager(来自Hewlett Packard的HP OpenView网络节点管理器),网址为openview.hp.com
来自Aprisma的频谱完整性,网址为www.aprisma.com
IBM Tivoli的NetView,网址为www.tivoli.com
Cisco IOS管理中最常用的系统日志工具是CiscoWorks2000 RME系统日志管理器。其他可用工具包括SL4NT、www.netal.com上的共享软件程序 ,以及www.opensystems.com上OpenSystems的Private I。
问题管理是故障管理的一个方面,它是通过识别、故障排除、解决和关闭从问题发生时起管理问题的纪律。
许多客户因缺乏问题管理流程而经历额外的停机时间。如果网络管理员尝试使用影响服务的命令或配置更改的组合来快速解决问题,而不是花时间识别问题、收集信息和分析得当的解决方案路径,则可能会出现额外的停机时间。在此区域观察到的行为包括重新加载设备或清除IP路由表,然后再调查问题及其根本原因。在某些情况下,这是由于第一级支持问题解决目标所致。所有软件相关问题的目标应是在恢复连接或服务之前快速收集根本原因分析所需的必要信息。
建议使用问题管理流程,并应包括一定程度的默认问题描述和适当的“show”命令集合,然后将问题升级到第二级支持。第一级支持绝不应包括清除路由或重新加载设备。理想情况下,第一级支持组织应快速收集信息,然后将问题上报到第二级支持。通过在第1级支持中多花一点时间来确定和描述问题,更有可能发现根本原因,从而提供变通方法、实验室识别和漏洞报告。第二级支持应深入了解思科诊断问题或提交错误报告所需的信息类型,包括:
内存转储
路由信息输出
设备show命令输出
全局设备配置标准代表在类似设备和服务中维护标准“全局”配置参数的实践,从而实现企业范围的全局配置一致性。全局配置命令是适用于整个设备而非单个端口、协议或接口的命令,通常会影响设备访问、一般设备行为和设备安全。在Cisco IOS中,这包括以下命令:
服务
IP
VTY
控制台端口
日志记录
AAA/TACACS+
SNMP
横幅
在全局设备配置标准中,同样重要的是适当的设备命名约定,允许管理员根据设备的DNS名称识别设备、设备类型和设备位置。全局配置一致性对于网络环境的整体支持性和可靠性非常重要,因为它有助于降低网络复杂性并增强网络支持性。由于设备行为不正确或不一致、SNMP访问和一般设备安全,在未进行配置标准化时,通常会遇到支持困难。
维护全局设备配置标准通常由为类似网络设备创建和维护全局配置参数的内部工程或运营组完成。在TFTP目录中提供全局配置文件的副本也是一种良好的做法,这样可以将全局配置文件初始下载到所有新调配的设备。此外,还有一个可通过Web访问的文件,该文件为标准配置文件提供了每个配置参数的说明。某些组织定期配置所有类似设备,以帮助确保全局配置一致性,或定期检查设备是否符合正确的全局配置标准。
接口或协议配置标准代表维护接口和协议配置标准的实践,通过降低网络复杂性、提供预期设备和协议行为以及提高网络支持性来提高网络可用性。接口或协议配置不一致可能导致意外的设备行为、流量路由问题、连接问题增加和反应性支持时间延长。
接口配置标准可能包括:
CDP(思科发现协议)
接口描述符
缓存配置
其他协议特定标准
协议特定配置标准可能包括:
IP路由配置
DLSW配置
访问列表配置
ATM配置
帧中继配置
生成树配置
VLAN分配和配置
VTP(虚拟中继协议)
HSRP(热备份路由协议)
其他取决于网络中配置的内容
IP标准的示例可能包括子网大小、使用的IP地址空间、使用的路由协议和路由协议配置。
维护协议和接口配置标准通常是网络工程和实施组的责任。工程组应负责标准的识别、测试、验证和记录。然后,实施组负责使用工程文档或配置模板来调配新服务。工程组应创建有关所需标准所有方面的文档,以确保一致性。还应创建配置模板,以帮助实施配置标准。运营团队还应接受标准培训,并能够识别非标准配置问题。配置一致性在测试、验证和认证阶段非常有帮助。如果没有标准化的配置模板,则几乎无法对中大型网络的Cisco IOS版本进行充分测试、验证或认证。
可用性管理是使用网络可用性作为质量改进指标进行质量改进的过程。许多组织现在都在衡量可用性和中断类型。中断类型可能包括:
Hardware
软件
链路/运营商
电源/环境
设计
用户错误/进程
通过确定故障并在恢复后立即执行根本原因分析,组织可以确定提高可用性的方法。几乎所有实现高可用性的网络都具有某种质量改进流程。
步骤 2: 评估Cisco IOS软件管理实践的当前状态(仅限注册客户)
步骤 4:制定软件管理项目计划(仅限注册客户)
已创建一个附录,以帮助客户获取其他有价值的Cisco IOS相关信息,例如:思科IOS基础知识、思科内部Cisco IOS软件流程、软件可靠性分析、思科内部质量计划、思科内部测试方法,以及现场分析,显示当前行业实践和使用思科IOS软件的整体客户体验
Cisco IOS管理:有关Cisco IOS管理和最佳实践的其他信息,请参阅以下站点的“Cisco IOS高可用性网络管理”白皮书:http://www.cisco.com/en/US/tech/tk869/tk769/technologies_white_paper09186a00800a998b.shtml
有关如何运行网络探测、要使用哪些CLI命令、如何分析和解释网络流量数据以及如何建立应用使用策略的具体信息,请访问http://www.cisco.com。此站点提供全面的支持、培训、技术参考和咨询解决方案。
Cisco IOS具有特定命名约定,定义如下:http://www.cisco.com/en/US/products/sw/iosswrel/ps1818/products_tech_note09186a0080101cda.shtml
有关Cisco IOS版本可用性的信息,请参阅:http://www.cisco.com/en/US/products/sw/iosswrel/products_ios_cisco_ios_software_releases.html
Cisco IOS版本最终会从CCO中删除,不能再订购。请务必相应地设置客户期望。
Cisco IOS产品公告用于向客户宣布Cisco IOS版本。它们包含有关版本内容的简要信息。请点击此处查看新Cisco IOS版本的可用性http://www.cisco.com/en/US/products/sw/iosswrel/products_ios_cisco_ios_software_releases.html
产品安全事件响应团队负责处理思科产品的安全。任何与Cisco IOS安全相关的问题都应提交给此团队。思科公开发布其安全漏洞。http://tools.cisco.com/security/center/publicationListing
Cisco IOS缺陷:建议延期使用严重的Cisco IOS缺陷。任何思科员工都可以提出建议。
有关Cisco IOS的现场问题通过Cisco IOS建议传达给客户。http://www.cisco.com/en/US/products/products_security_advisory09186a0080b20ee1.shtml
Cisco IOS功能:功能导航器工具使客户能够找到支持特定功能的版本,反之亦然。http://tools.cisco.com/ITDIT/CFN/jsp/index.jsp
思科软件顾问使客户能够找到软件支持,以获得功能或硬件软件支持。http://tools.cisco.com/Support/Fusion/FusionHome.do(仅限注册客户)