更换实际上运行良好的硬件浪费了宝贵的时间和资源。本文可帮助您排除Cisco 7200系列路由器的潜在硬件问题,并能帮助您根据路由器遇到的错误的类型,确定哪个组件导致了硬件故障。
注:本文档不涉及任何与软件相关的故障,但通常被误认为硬件故障的故障除外。
Cisco 7200系列路由器包含单个网络处理器引擎(NPE)或网络服务引擎(NSE)、输入/输出(I/O)控制器卡,最多可为7206/7206VXR机箱提供六个端口适配器(PA)。
有关Cisco 7200系列路由器架构的更详细了解,请参阅Cisco 7200系列路由器架构。
Cisco 建议您了解以下主题:
本文件中的信息并不限定于任何Cisco IOS® 软件版本,它适用于在7200系列路由器上运行的所有Cisco IOS软件版本。
本文档介绍7200系列路由器的故障排除,适用于标准和VXR机箱,包括7202、7204/7204VXR和7206/7206VXR。
有关uBR7200系列平台硬件故障排除帮助,请参阅Cisco uBR72xx / uBR7246 VXR通用宽带路由器的硬件故障排除。
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您使用的是真实网络,请确保您已经了解所有命令的潜在影响。
您在任何时候安装一张新卡、模块或者Cisco IOS软件镜像,重要的是要检验路由器是否有足够的内存,以及硬件与软件是否兼容您希望使用的功能。
请执行这些推荐的步骤,以检查硬件软件兼容性和内存要求:
技巧:
使用下载软件区(仅注册客户)检查Cisco IOS软件所需的最小内存量(RAM和闪存),和/或下载Cisco IOS软件映像。要确定路由器上安装的内存(RAM和闪存)大小,请参阅内存要求。
技巧:
如果希望保持与路由器上当前运行的版本相同的功能,但不知道您正在使用哪个功能集,请在路由器上输入show version命令,并将其粘贴到Output Interpreter(仅限注册的客户)工具中以查找。检查功能支持是重要的,特别是如果您计划使用最新的软件功能。
如果需要将Cisco IOS软件镜像升级到新版本或功能集,请参见"如何选择Cisco IOS软件版本",以获得更多信息。
如果确定需要Cisco IOS软件升级,请完成Cisco 7200系列路由器的软件安装和升级程序。
有关在Cisco 7200系列路由器的较旧和较新型号上升级引导映像的详细信息,请参阅超大Cisco 7200/uBR 7200引导映像。
错误信息解码器 (仅限于 注册用户) 工具允许您检查报错消息的含义。错误消息出现在思科产品控制台,通常以下列格式:
%XXX-n-YYYY : [text]
这里是报错消息的实例:
Router# %SYS-2-MALLOCFAIL: Memory allocation of [dec] bytes failed from [hex], pool [chars], alignment [dec]
一些错误消息只是信息性的,而其他错误消息则会指示硬件或软件故障并要求执行操作。Error Message Decoder(仅限于注册用户)工具可提供消息解释、推荐措施(如果需要)。适当时,它还提供一个文档的链接,该文档提供了关于该错误信息的故障排除的丰富信息。
有关文档规则的详细信息,请参阅 Cisco 技术提示规则。
为了确定原因,第一步是尽可能多的获取该问题的大量信息。此信息是确定问题的重要原因:
Crashinfo文件:当路由器崩溃时,文件会保存到I/O控制器的bootflash中。该文件包含有关崩溃原因的详细信息。有关详细信息,请参阅从Crashinfo文件中检索信息。
控制台日志和/或系统日志信息:如果出现多种症状,这些因素对于确定始发问题至关重要。有关如何设置PC以查看控制台日志的详细信息,请参阅为控制台连接应用正确的终端仿真器设置。如果路由器设置为将日志发送到系统日志服务器,您可能会发现一些有关所发生情况的信息。有关详细信息,请参阅如何配置Cisco Devices for Syslog。通常,最好直接连接到控制台端口上的路由器,并启用日志记录。
显示技术支持:show technical-support命令是许多不同命令的集合,包括show version、show running-config和show stacks。当Cisco 7200出现问题时,思科技术支持中心(TAC)通常会要求提供此信息。在重新加载或重新通电之前收集show technical-support非常重要,因为其中任一信息都可能导致有关问题的所有信息丢失。
完整的启动顺序,如果路由器出现引导 程序 错误。
如果从Cisco设备获得show命令的输出,则可以使用 来显示潜在的故障和修复方法。若要使用这种功能,您必须是 注册 用户,能够登录入系统并且启用JavaScript功能。 来显示潜在的问题和修复方法,但使用 ,但你必须是注册用户,而且已经登录,并启用了JavaScript。
一些非硬件故障的问题也可能被误认为硬件问题。例如,新硬件安装之后的故障通常不是硬件问题。另外一个例子是路由器停止响应或“死机”。
下表提供了这些常见误解问题的症状、解释和故障排除步骤:
症状 | 解释 |
---|---|
路由器不响应 | 路由器可能会遇到路由器挂起。挂起是指路由器启动到某个点后不再接受任何命令或键击。也就是说,控制台屏幕到 某种 程度 以后挂起。挂起不一定是硬件问题,在大多数情况下它们都是软件问题。如果您的路由器遇到路由器挂起问题,排除路由器挂起故障有助于解决此问题。 |
端口适配器(PA)无法识别,并显示控制台消息,例如: %PA-2-UNDEFPA: Undefined Port Adapter type 106 in bay 2 |
引导映像不支持加密引擎,如SA-ISA或SA-VAM。如果其中一个插入机箱,则启动时会出现“未定义的端口适配器”消息,并且只有在加载主加密Cisco IOS软件映像时才会检测到卡。此外,启动过程将减慢1-2分钟。此预期行为不会影响路由器的运行。 |
错误的CPU ID错误消息 | CPU ID错误消息始终是由于Cisco IOS软件(通常是引导映像)无法识别NPE-300/NPE-400或VXR机箱。有关此问题,请参阅导致“BAD CPU ID”消息的原因。将Cisco IOS软件或引导映像升级到支持无法识别的硬件的版本可解决此问题。 |
CPU(中央处理器)的利用率相当高 | 可能由硬件故障导致,但更可能是由于路由器配置错误或网络上的故障导致。Troubleshooting High CPU Utilization on a Cisco Router(排除Cisco路由器上CPU使用率过高的故障)页应有助于排除此问题。 |
内存分配错误SYS-2-MALLOCFAIL | 硬件问题几乎不可能导致内存分配错误。内存分配错误的故障排除提示位于“内存问题故障排除”页面。 |
路由器崩溃 | 并非所有崩溃都是由不良硬件引起的。排除路由器崩溃故障可以帮助您确定崩溃是否由软件引起。 |
%PLATFORM-3-PACONFIG和%C7200-3-PACONFIG错误消息 | 这些错误消息通常是由端口适配器配置不正确引起的。请参阅什么原因导致%PLATFORM-3-PACONFIG和%C7200-3-PACONFIG错误消息?。 |
什么导致 %SYS-3-CPUHOG 消息? | 本文解释了%SYS-3-CPUHOG错误消息的原因,以及如何对它们进行故障排除。 |
缓冲区泄漏 | 缓冲区泄漏是Cisco IOS软件错误。缓冲区泄漏有两种不同类型:楔形接口和系统缓冲区泄漏。show interfaces和show buffers命令有助于确定您遇到的缓冲区泄漏类型。有关详细信息,请参阅排除缓冲区泄漏故障。 |
总线错误崩溃和总线错误异常 System restarted by bus error at PC 0x30EE546, address 0xBB4C4或 ** System received a Bus Error exception** |
当处理器尝试访问不存在(软件错误)、或者没有正确回应(硬件问题)的存储位置时,系统遇到总线错误。 请参见 “排除总线错误崩溃故障” 以了解有关这方面的更多信息。 |
SegV 异常 System restarted by error - a SegV exception或 ** System received a SegV exception ** |
有关此问题的详细信息,请参阅SegV异常。 |
系统因错误重新启动 Software-forced crash或 ** System received a Software forced crash ** |
当路由器检测到严重的不可恢复错误并重新加载自身以防止发送损坏的数据时,会发生软件强制崩溃。有关此问题的详细信息,请参阅了解软件强制崩溃。 |
%ERR-1GT64120(PCI0):严重错误,内存奇偶校验错误 | C7200/NPE路由器上的多个奇偶校验设备可以报告奇偶校验错误的数据,以执行任何读或写操作。有关详细信息,请参阅Cisco 7200奇偶校验错误故障树。 |
%RSP-3-RESTART:interface [xxx],输出停滞/冻结/未传输消息 | 请参阅导致%RSP-3-RESTART的原因:interface [xxx], output stuck/frozen/not transmitting 消息?排除此类错误消息的故障。 |
在线热插拔 (OIR) | 有关详细信息,请参阅Cisco路由器中的在线插拔(OIR)支持。 |
这是最常见的错误类型之一,经常被误解,如果不执行适当的故障排除,可能导致不必要的停机时间。
本部分的目的是描述Cisco IOS软件可以检测到哪些形式的奇偶校验错误,以及如何破译或诊断“硬奇偶校验错误”(由于硬件故障或损坏而重新出现的错误)和“软奇偶校验错误”(DRAM单元中由于硬件故障或损坏而发生的电荷瞬态变化)。 有证据表明,“软奇偶校验错误”的字段返回率很高,因此更换硬件没有任何好处。
第一次出现奇偶校验错误时,无法区分“软奇偶校验错误”和“硬奇偶校验错误”。 根据经验,大多数奇偶校验错误是暂时性奇偶校验错误,通常可不必考虑。如果您最近更换了某些硬件或移动了机箱,请尝试重新拔插受影响的部件(DRAM、SRAM、NPE、PA)。 若经常出现多个奇偶校验错误,则说明存在硬件故障。应使用下述故障排除说明更换受影响的部件(DRAM、PA、VIP或主板)。
有关此平台的概述,请参阅Cisco 7200系列路由器架构。
Cisco 7200系列在NPE上使用DRAM、SDRAM和SRAM内存,具体取决于NPE型号:
PCI总线— Cisco 7200有三条PCI数据总线:PCI 0、PCI 1和PCI 2。PCI 1和PCI 2从NPE延伸到中板,并将介质接口(端口适配器)与NPE上的CPU和内存互连。PCI 0是独立的,用于将介质接口和I/O控制器上的PCMCIA连接到CPU和NPE上的内存。以25 MHz运行,PCI 0、PCI 1和PCI 2提供高达800 Mbps的带宽。
I/O控制器 — 提供控制台连接、辅助连接、NVRAM、引导ROM、引导闪存和内置接口控制器(以太网或快速以太网接口)。 I/O控制器还通过PCI总线0提供对PCMCIA卡插槽中闪存卡的访问。
I/O总线 — 将I/O控制器(控制台端口、AUX端口、NVRAM、引导ROM和引导闪存)上的非PCI组件与CPU和NPE互连。
DRAM奇偶校验错误(瞬时(α粒子)或硬故障)
SRAM奇偶校验错误(瞬态或硬故障)
处理器内部缓存奇偶校验异常(指令或数据缓存)
将错误奇偶校验写入MEMD(SRAM)的接口处理器
总线奇偶校验错误(总线事务的CMD、地址或数据部分出错)
制造缺陷(不良焊料、断线、冷焊接头等)
请参阅Cisco 7200奇偶校验错误故障树,查看在识别各种奇偶校验错误消息时对Cisco 7200的哪个部分或组件发生故障进行故障排除和隔离的步骤。
有关奇偶校验错误报告的详细信息,请参阅处理器内存奇偶校验错误(PMPE)。
要确定错误发生的位置,一种方法是查看控制台日志中的“重新启动原因”,并在show version命令的输出中查看:
DRAM中的奇偶校验错误
如果崩溃后未手动重新加载路由器,则show version输出应如下所示:
System restarted by processor memory parity error at PC 0x601799C4, address 0x0 System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash
如果从Cisco设备获得show命令的输出,则可以使用 来显示潜在的故障和修复方法。若要使用这种功能,您必须是 注册 用户,能够登录入系统并且启用JavaScript功能。 来显示潜在的问题和修复方法,但使用 ,但你必须是注册用户,而且已经登录,并启用了JavaScript。
如果crashinfo文件可用,或者如果已捕获控制台日志,您可能还会看到类似的内容:
*** Cache Error Exception *** Cache Err Reg = 0xa0255c61 data reference, primary cache, data field error , error on SysAD Bus PC = 0xbfc0edc0, Cause = 0xb800, Status Reg = 0x34408007
DRAM中重复出现奇偶校验错误说明DRAM或机箱发生故障。如果最近移动了机箱,或者执行了硬件配置更改,则重新安装DRAM芯片可以解决问题。否则,首先更换DRAM。这样可防止奇偶校验错误。如果路由器仍然崩溃,请在先耗尽本节中的所有信息并咨询Cisco TAC后更换机箱。
SRAM中的奇偶校验错误
如果崩溃后您尚未手动重新加载路由器,则在show version输出中将看到类似的内容:
System restarted by shared memory parity error at PC 0x60130F40 System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash
如果crashinfo文件可用,或者如果已捕获控制台日志,您可能还会看到类似的内容:
*** Shared Memory Parity Error *** shared memory control register= 0xffe3 error(s) reported for: CPU on byte(s): 0/1
或
%PAR-1-FATAL: Shared memory parity error shared memory status register= 0xFFEF error(s) reported for: CPU on byte(s): 0/1 2/3
或
*** Shared Memory Parity Error *** shared memory control register= 0xffdf error(s) reported for: NIM1 on byte(s): 0/1 2/3
注意:如果报告CPU出现错误,请更换SRAM。若生成NIM(x)错误报告,则更换插槽(x)中的网络模块。 分配给插槽(x)的SRAM也可能受到影响,因此您可能必须更换SRAM。若SRAM中重复出现奇偶校验错误,则很可能说明SRAM芯片出现故障,或将错误奇偶校验写入SRAM中的网络模块出现错误。如果最近移动了机箱,或者执行了硬件配置更改,则重新安装网络模块和SRAM芯片可以解决问题。否则,检查控制面板日志中报错的位置(参见上面的输出示例)。
有关详细信息,请参阅以下链接:
%IP-3-LOOPPAK:由于检测到循环数据包,因此收到循环数据包检测和丢弃错误消息。常见原因是IP帮助地址配置错误。帮助地址应与目标服务的服务器地址相同。将路由器的地址放入帮助地址中会导致路由环路。
建议的操作是分析环路数据包的源地址和目的地址,并验证路由器中IP帮助地址的配置是否正确指向了正确的设备,而不是指向本地路由器本身。
当处理器尝试访问不存在(软件错误)、或者没有正确回应(硬件问题)的存储位置时,系统遇到总线错误。通过查看路由器提供的show version命令的输出(如果尚未重新通电或手动重新加载),可以识别总线错误。
此问题可能与硬件或软件相关。以下是此类错误消息的示例:
*** System received a Bus Error exception *** signal= 0xa, code= 0x18, context= 0x6206b820 PC = 0x606e356c, Cause = 0x6020, Status Reg = 0x3400800
然后路由器重启。但是,在某些情况下,路由器会进入崩溃和重新加载的循环,需要手动干预才能打破此循环。有关详细信息,请参阅排除总线错误崩溃故障的总线错误异常引导环路故障排除技术部分。
对于潜在的硬件相关问题,请完成以下步骤:
关闭路由器电源,并从设备中卸下端口适配器(PA)。再次接通系统电源,查看问题是否仍然存在。
如果系统重新正确加载,请将每个PA一次放回路由器中,观察是否正确安装(没有总线错误例外)。
如果系统没有正确重启,它会继续重启,或者显示总线错误异常消息,我们必须进一步进行调查,以确定故障的根本原因。问题可能出在I/O控制器或NPE内,或者可能是软件错误。有关此问题的详细信息,请参阅排除总线错误崩溃故障。
如果Cisco 7200系列路由器在路由器重新通电后继续重新启动,则硬件可能出现问题。完成以下故障排除步骤:
卸下除NPE和I/O控制器卡外的所有卡;然后重新打开路由器电源。
如果仍然失败,请检查其上是否有有效映像。为此,您必须直接连接到路由器的控制台端口。在启动后 60秒内按下Break键,以进入ROMmon模式。从那里,您可以按照ROMmon恢复过程中的步骤尝试恢复。
如果路由器仍然无法启动,并且您确定其上存在有效映像,则NPE和/或I/O控制器卡很可能出现故障。但是,故障可能仅限于NPE或NSE的内存。在这种情况下,请更换内存。
如果路由器仍然发生故障,请更换I/O控制器。
如果路由器仍然发生故障,请更换NPE或NSE。
NPE/差异NPE/差异 | NPE-G2 | NPE-G1 | 对系统性能的影响 |
突发大小 | 突发大小不可编程,且始终基于系统缓存行大小 | 突发大小可通过MAC寄存器进行编程 | 可以看到跨缓存线边界的数据包的吞吐量差异(例如,32B缓存线大小为128/129B) |
中断合并 | 完全取决于计时器到期 | 同时使用计时器和接收/传输的数据包数 | 对于某些低速率(pps)场景,可能会看到一些额外延迟(使用顺序) |
出口端口饱和 | 再养育和排队 | 再养育和排队 | IOS行为,一旦端口饱和,就会影响CPU |
缓存行大小 | 当RX DMA收到缓存行大小值的数据时,它将开始将数据移动到系统iomem | 由突发大小控制 | 数据包大小越过缓存线边界的吞吐量越低(n*缓存线大小+1) |
中断级别处理 | 由于外部I/O,CPU核心速度(例如以系统总线速度)的约1/10 | 以CPU核心速度(非常快) | 频繁更改中断级别(如IPS/FW等)的功能将看不到x2性能 |
7200 系列路由器可能会遇到路由器挂起问题。挂起是指路由器启动到某个点后不再接受任何命令或键击。也就是说,控制台屏幕到 某种 程度 以后挂起。
挂起不一定是硬件问题,而且大多数情况下是软件问题。若出现路由器死机请参见 “解决路由器死机问题”。
有关详细信息,请参阅带宽和带宽点要求。
您可以使用Cisco 7200系列路由器,其端口适配器配置超出本部分所列的准则;但是,为防止路由器在使用过程中出现异常,思科强烈建议根据本节中链接中列出的准则并根据您安装的硬件限制安装在路由器中的端口适配器类型。
注意:在思科技术支持中心对Cisco 7200系列路由器中出现的异常进行故障排除之前,您的端口适配器配置必须符合上述准则。
从技术上讲,您不应因总线容量而超出7200的带宽点,而是因为瞬时总线带宽和内存延迟。换句话说,这不是CPU负载问题,而是总线带宽问题。在某个时刻(无论数据包吞吐量如何),您将同时收到来自所有这些设备的内存请求,因为所有设备都包含数据。在这种情况下,PCI总线争用无法保证在发生超限或PCI总线超时之前,所有PA都会得到服务。
另一个问题是这会影响SRAM分配。SRAM块有限,这最多分为前三个快速接口,因此您的其中一个快速接口必须使用DRAM内存池。这会增加此接口的内存延迟,并且很可能会发生超限。(请注意,这仅与NPE-150和NPE-200相关)。
端口适配器使用来自机箱和NPE或NSE的各种类型的资源。带宽是描述端口适配器资源要求的术语。带宽包括速度、内存、CPU要求和PCI总线带宽等变量。由于网络处理引擎的体系结构在过去几年中不断变化,人们开发了两种描述端口适配器带宽需求的方法。这些方法反映在表1-6的“带宽资源要求”列和“带宽点”列中。但是,这些列中的信息必须与以下各节中的信息一起考虑:
以下是故障排除资源列表:
下面是串行接口故障检修的参考列表:
如果您确定了一个需要更换的组件,请联系您的Cisco合作伙伴或代理商,请求更换导致问题的硬件组件。如果您直接与Cisco签订了支持合同,请使用TAC案例创建工具(只供注册用户使用),创建TAC案例,请求更换硬件。请一定要附上以下信息: |
---|
|
版本 | 发布日期 | 备注 |
---|---|---|
1.0 |
09-Mar-2009 |
初始版本 |