路由器 : 思科 2800 系列集成服务路由器

Cisco 2800系列路由器硬件故障排除

2016 年 10 月 27 日 - 机器翻译
其他版本: PDFpdf | 英语 (2016 年 4 月 21 日) | 反馈


交互:本文档对您的 Cisco 设备进行自定义分析。


目录


简介

更换实际上运行良好的硬件通常会浪费宝贵的时间和资源。本文档帮助您使用 Cisco 2800 系列路由器排除潜在硬件问题的故障。本文档也为您提供帮助识别导致硬件故障的组件的信息。这取决于路由器出现的错误类型。

注意: 本文档不包括与软件相关的任何故障,但经常被误认为硬件问题的故障除外。

先决条件

要求

Cisco 建议您了解以下主题:

使用的组件

本文档中的信息基于 Cisco 2800 系列路由器。

规则

有关文档规则的详细信息,请参阅 Cisco 技术提示规则

硬件软件兼容性与内存要求

每当您安装一新的卡、模块或者思科IOSï ¿  ½软件镜像,验证是重要的路由器有足够的内存,并且硬件与软件是与功能兼容您希望使用。

请执行这些推荐的步骤,以检查硬件软件兼容性和内存要求:

  1. 使用软件顾问工具仅限注册用户)来为网络设备选择软件。

    提示: 硬件的软件支持仅限注册用户)部分可以帮助您验证所需的 Cisco IOS 软件版本是否支持安装在路由器上的模块与卡。

    提示: 功能的软件支持仅限注册用户)部分可帮助您选择希望实现的功能的类型,从而确定所需的 Cisco IOS 软件镜像。

  2. 使用软件下载区仅限注册用户)来检查 Cisco IOS 软件所需的最小内存(RAM 和闪存)大小,以及下载 Cisco IOS 软件镜像。要确定安装在您路由器上的内存(RAM 和闪存)的大小,请参阅如何选择 Cisco IOS 软件版本内存需求 部分。

    提示: 如果要保持与当前在路由器上运行的版本相同的功能,但不知道所使用的是哪一个功能集,请从您的 Cisco 设备中发出 show version 命令,并将其粘贴到命令输出解释程序工具中。您可以使用命令输出解释程序工具仅限注册用户)来显示潜在问题和解决方法。 您必须登录并启用 Javascript,才能使用此工具。

    提示: 如果需要将 Cisco IOS 软件镜像升级到新版本或功能集,可以参阅如何选择 Cisco IOS 软件版本,以获取详细信息。

  3. 如果您确定需要进行 Cisco IOS 软件升级,请参阅 Cisco 2800 系列路由器的升级系统镜像

    提示: 如果您的 2800 路由器没有网络连接或有效的 Cisco IOS 软件镜像,您可以发出 tftpdnld ROMmon 命令来恢复 IOS 镜像。有关详细信息,请参阅如何使用 tftpdnld ROMMON 命令通过 TFTP 将软件镜像下载到 Cisco 2600/2800/3700/3800

错误消息

错误消息通常以此形式出现在 Cisco 产品控制台上:

 %XXX-n-YYYY : [text]

这是错误消息示例:

Router# %SYS-2-MALLOCFAIL: Memory allocation of [dec] bytes failed from [hex], 
pool [chars], alignment [dec]

一些错误消息只是信息性的,而其他错误消息则会指示硬件或软件故障并要求执行操作。

排除故障

Cisco 2800 系列路由器故障排除的这些部分很有用:

有关故障排除信息,另请参阅口令恢复流程

模块与卡

这些文档可帮助您验证 Cisco 2800 系列路由器的哪个模块/卡受支持:

T1 控制器 VWIC2-2MFT-T1/E1 问题

安装 VWIC2-2MFT-T1/E1 卡后,您将识别不出 IOS 的卡。您需要发出 card type {t1|e1} 命令来配置路由器,以便识别卡。有关详细信息,请参阅第二代单端口和双端口 T1/E1 Multiflex 中继语音/WAN 接口卡

NM-16ESW-PWR-1GIG 模块 PoE 问题

NM-16ESW-PWR-1GIG 是一个拥有以太网供电 (PoE) 功能的 EtherSwitch 网络模块。添加此卡后,您也许不能配置 PoE。这是因为您需要在路由器上安装一个匹配电源来支持 PoE 功能。有关 EtherSwitch 网络模块和电源的详细信息,请参阅 Cisco EtherSwitch 网络模块数据表

识别问题

为了发现问题,首先需要捕获尽可能多的与问题有关的信息。此信息对于帮助您确定问题的原因至关重要:

  • 控制台日志 - 有关详细信息,请参阅为控制台连接应用正确的终端仿真器设置

  • 系统日志信息 - 如果将路由器设置为将日志发送到系统日志服务器,您可得到关于所发生情况的信息。有关详细信息,请参阅资源管理器基础和系统日志分析:基本指南如何为系统日志配置 Cisco 设备部分。

  • show technical-support 命令输出 - show technical-support 命令是许多不同命令的集合,包括 show versionshow running-configshow stacks 命令。TAC 工程师通常需要这些信息以便排除硬件问题。在您执行重新加载或重新通电前,收集 show technical-support 命令信息是至关重要的,因为这些操作会导致关于问题的所有信息丢失。

  • 若路由器出现启动错误,请执行启动顺序所要求的操作。

如果您的 Cisco 设备上有 show 命令输出(包括 show technical-support 命令),您可以使用命令输出解释程序工具仅限注册用户)来显示潜在问题和解决方法。 您必须登录并启用 Javascript,才能使用此工具。

排除串行接口故障

这是排除串行接口故障所使用的参考列表:

排除 ISDN 接口故障

这是排除 ISDN 接口故障所使用的参考列表:

排除路由器挂起故障

2800 系列路由器也许会遇到路由器挂起问题。挂起是指路由器启动到某个点后不再接受任何命令或键击。也就是说,控制台屏幕到 某种 程度 以后挂起。挂起不一定是硬件问题,在大多数情况下它们都是软件问题。如果您的路由器遇到挂起情况,请参阅排除路由器挂起故障

路由器重新启动/重新加载

路由器重新启动后,回到正常状态。正常状态意味着路由器正在运行,传送流量,并且您能够访问路由器。请发出 show version 命令并查看输出,以便检查出路由器重新启动的原因。示例如下:

Router#show version
Router uptime is 20 weeks, 5 days, 33 minutes
System returned to ROM by power-on

路由器崩溃

系统崩溃是指系统检测到无法恢复的错误并已自动重启的情况。软件问题和/或硬件问题都可能引起系统崩溃。此部分处理硬件造成的崩溃,以及与软件相关但可能被误认为硬件问题的崩溃。

警告 警告: 崩溃后,如果路由器重新加载(例如通过重新通电或 reload 命令),有关崩溃的重要信息将丢失。在您重新加载路由器之前,您需要收集 show technical-support 命令和 show log 命令输出,以及 crashinfo 文件(如果可能)。

有关此问题的详细信息,请参阅排除路由器崩溃故障

总线错误崩溃

当处理器尝试访问不存在(软件错误)、或者没有正确回应(硬件问题)的存储位置时,系统遇到总线错误。如果路由器没有进行重新通电或手动重新加载,可以通过路由器提供的 show version 命令输出结果来识别总线错误。

以下是总线错误崩溃的两个示例:

Router uptime is 2 days, 21 hours, 30 minutes
System restarted by bus error at PC 0x30EE546, address 0xBB4C4
System image file is "flash:igs-j-l.111-24.bin", booted via flash 
.........

在控制台提示符下,还可能在总线错误期间看到此错误消息:

*** System received a Bus Error exception *** 
signal= 0xa, code= 0x8, context= 0x608c3a50
PC = 0x60368518, Cause = 0x20, Status Reg = 0x34008002

有关此问题的详细信息,请参阅排除总线错误崩溃故障

连续启动/启动循环

路由器可能会出现由硬件问题引起的连续环路。连续环路不会让您获得访问路由器的机会。例如,您不能登录到启用模式等等,路由器将继续发出一连串错误消息,直到断电。此部分为确定导致连续环路的硬件提供了示例和故障排除步骤。

故障排除流程图

这是总线错误异常、SEGV 异常、%ERR-1-GT64010 和监视器超时连续环路的一个故障排除流程图:

http://www.cisco.com/c/dam/en/us/support/docs/routers/2800-series-integrated-services-routers/71444-hwts-2800-1.gif

在您完成这些故障排除步骤后,如果路由器不出现连续环路,则问题可能由插错位置的网络模块引起。我们建议您 24 小时监控路由器,以确保路由器继续运行,而不会再遇到这样的问题。

SegV 异常

如果不对路由器进行重新通电或手动重新加载,则 show version 命令显示此输出:

Router uptime is 2 days, 3 hours, 5 minutes 
System restarted by error - a SegV exception, PC 0x80245F7C 
System image file is "flash:c2600-js-mz.120-9.bin"

此输出也可显示在控制台日志中:

*** System received a SegV exception *** 
signal= 0xb, code= 0x1200, context= 0x80d15094 
PC = 0x80678854, Vector = 0x1200, SP = 0x80fcf170

有关此问题的详细信息,请参阅 SegV 异常

%ERR-1-GT64010

这是 %ERR-1-GT64010 错误的示例:

%ERR-1-GT64010: Fatal error, PCI Master read 
cause=0x0120E483, mask=0x0CD01F00, real_cause=0x00000400 
bus_err_high=0x00000000, bus_err_low=0x04080000, addr_decode_err=0x14000470

软件镜像损坏

启动时,路由器可能检测到 Cisco IOS 软件镜像损坏。路由器返回 compressed image checksum is incorrect 消息并且尝试重新加载,并且将事件作为软件引起的崩溃进行报告:

Error : compressed image checksum is incorrect 0x54B2C70A
        Expected a checksum of 0x04B2C70A


*** System received a Software forced crash ***
signal= 0x17, code= 0x5, context= 0x0
PC = 0x800080d4, Cause = 0x20, Status Reg = 0x3041f003

然后,此行为可能无限重复或者路由器可能降至 ROM monitor。

这可能由在转移到路由器期间已经损坏的 Cisco IOS 软件镜像造成。为了解决此问题,您可以将一个新镜像加载到路由器上。要为您的平台寻找一个 ROMmon 恢复方法,请参阅此 Cisco 搜索

它也可能由有故障的内存硬件或软件 Bug 造成。

监视器超时

Cisco 处理器有防范特定类型的系统挂起的计时器。CPU 定期重新设置监视计时器。监视器计时器主要控制每个进程的时间。如果没有重新设置计时器,陷阱就会发生。如果程序比较长,则使用监视器计时器,退出该进程。

监视器超时有两种主要类型。第一种类型通常由软件问题引起,采用这些方式的其中一种或两种方式进行报告:

  • show version 命令的输出显示:

    "System returned to ROM by bus error at PC 0x602DADE0, address 0x480811"  
    - or - 
    "System returned to ROM by error - a Software forced crash, PC 0x60435894"
  • 控制台日志显示:

    %SYS-2-WATCHDOG: Process aborted on watchdog timeout

第二种类型的监视器超时通常由硬件问题引起,并且以这些方式中的一种或两种进行报告:

  • show version 命令的输出显示:

    Router uptime is 17 minutes
    System returned to ROM by watchdog timer expired
    System image file is "flash:c3640-is-mz.122-3.bin"
  • 控制台日志显示:

    System returned to ROM by watchdog timer expired
    *** Watch Dog Timeout ***
    PC = 0x800001b4, SP = 0x61e19590

这两种都是潜在的软件问题,并且需要根据其症状进行进一步调查。请参阅排除总线错误崩溃故障了解软件引起的崩溃。这取决于哪一个出现在 show version 命令输出中。有关监视器超时崩溃的详细信息,请参阅排除监视器超时故障

路由器未启动

从路由器控制台捕获的信息对于排除未启动的路由器的故障至关重要。如果 TAC 案例开启,则应在一个文件中登录控制台输出,以便进行后续分析或获得 Cisco 技术支持。如果遇到启动问题,此部分将对症状和推荐采取的操作进行比较。

启动以后,没有 LED 处于开启状态

验证电源线是否插入电源,以及电源状态是否良好。如果不能解决问题,请更换电源线。如果问题仍然存在,请替换路由器。

启动后 LED 开启,但控制台上没有任何东西

验证波特率是否设置为 9600 bps。如果不起作用,请验证用于连接到控制台的设备是否运行正常。请连接到一台运行良好的路由器,以便检查您的控制台设备。如果设备测试成功,但是问题依然存在,那么请更换路由器。

路由器启动到 ROMmon,控制台上没有任何错误消息

将配置寄存器设置为 0x2102 并重新加载路由器:

rommon 1 > confreg 0x2102 
rommon 2 > reset

如果路由器保留在 ROMmon 中,请完成在 Cisco 2600 系列路由器和 VG200 的 ROMmon 恢复中描述的步骤。

路由器启动到 ROMmon,控制台上出现错误消息

启动时,可能看到这些错误中的一个:

  • device does not contain a valid magic number

  • boot:cannot open "flash: "”

  • boot:cannot determine first file name on device "flash: "”

  • Error:uncompressed image checksum is incorrect [hex value]

这些错误消息意味着闪存是空的,或者文件系统已损坏。

将有效镜像复制到在闪存上,以便解决此问题。在复制时,系统会提示您擦除闪存旧有内容(如果有)。然后重新加载路由器。有关如何将有效镜像复制到闪存的说明,请参阅 Cisco 2600 系列路由器和 VG200 的 ROMmon 恢复

启动时,您看到此错误消息:

 %SCC-2-BAD_ID_HW: Failed Identification Test in 0/-1/-1 [1/0]

此错误消息意味着存在机箱或 Cisco 设备不支持的硬件模块或接口。

  • 移除所有模块和接口,并且启动路由器。确保路由器启动时不会遇到任何问题。

  • 逐个添加模块并且重新启动路由器,以便隔离影响路由器启动的模块。

  • 确保模块受到路由器硬件和软件版本的支持。

收到错误消息后,路由器停止启动

在启动过程中,路由器可能在显示 pre- and post-compression image sizes disagree 错误消息后停止启动。

可能的原因包括:

  • 损坏的软件镜像

  • 有故障的闪存

  • DRAM 有故障

  • 内存插槽损坏

将一个新的镜像复制到闪存,以开始排除此问题的故障。有关如何将有效镜像复制到闪存的说明,请参阅 Cisco 2600 系列路由器和 VG200 的 ROMmon 恢复

如果安装一个新镜像不能解决问题,您可以更换内存。如果您更换闪存和 DRAM,但是不能解决问题,则可能是机箱上的内存插槽有故障。然后,您需要使用 TAC 服务请求工具仅限注册用户)来创建服务请求,以便解决硬件问题。

路由器丢弃数据包

硬件故障造成的数据包丢失是非常容易识别的。此部分使用show interfaces指令的输出识别包丢失。

循环冗余校验 (CRC) 和帧错误

如果接口上的 CRC 错误或帧错误持续增加,则这通常说明存在硬件问题。

router#show interface ethernet 0/0 
Ethernet0/0 is up, line protocol is up 
... 
121 input errors, 102 CRC, 19 frame, 0 overrun, 0 ignored

例外情况是,在信道化接口上找到 CRC 和帧错误。这些症状也可能表示存在计时问题。导致错误的故障可以在两个连接的接口之间的任何地方:在电缆、中间设备上,或者在接口本身上。对于不同的接口类型,故障排除方法略有不同。

以太网接口

对于以太网接口,故障排除方式在共享环境(设备通过集线器或同轴电缆进行连接)和交换环境(设备连接到交换机)中各不相同。

在交换环境中,只有五个可能导致错误的组件:

  • 电缆

  • 本地接口(端口)

  • 远程接口(端口)

  • 速度

  • 双工不匹配

因此,故障排除步骤非常简单。例如,如果路由器连接到交换机,故障排除步骤是:

  1. 更换电缆。

  2. 如果这解决不了问题,请尝试在切换到另一个端口。

  3. 如果问题仍然存在,请更换以太网接口。

在共享环境,问题的根源是更难找到。组成共享段的每个硬件部分都可能是问题的根源。必须逐个测试所有组件(电缆、连接器等等)。

忽略的数据包

如果没有接受新数据包的空闲缓存区,将忽略数据包。如果路由器流量超载,或者如果接口有故障,就会发生此问题。

router#show interfaces ethernet 0/0 
Ethernet0/0 is up, line protocol is up 
... 
21 input errors, 0 CRC, 0 frame, 0 overrun, 21 ignored

如果忽略出现在所有接口上,则路由器可能存在流量超载或者池中没有足够的与接口最大传输单元 (MTU) 匹配的空闲缓冲区。在后一种情况下,忽略的计数器增加,随后无缓冲计数器也增加:

router#show interfaces serial 0/0 
... 
1567 packets input, 0 bytes, 22 no buffer 
22 input errors, 0 CRC, 0 frame, 0 overrun, 22 ignored, 0 abort

您可能看到池中缓冲故障计数器增长到MTU的大小:

router#show buffers 
  ... 
   Big buffers, 1524 bytes (total 50, permanent 50): 
   50 in free list (5 min, 150 max allowed) 
   3066 hits, 189 misses, 0 trims, 24 created 
   12 failures (0 no memory)

预配置的永久性、空闲和所允许的最大缓冲区的数量也许不是在每个环境都能完全兼容。有关详细信息以及其避免方法,请参阅所有 Cisco 路由器的缓冲区调节

如果只有一个接口上的忽略增加,而无缓冲计数器没有增加,并且接口负载不重,则此接口可能存在故障。在此情况下,请捕获 show tech-support 命令输出并联系 Cisco 技术支持。可在 show interfaces 命令的输出中查看接口上的负载:

router#show interfaces serial 0/0 
... 
reliability 255/255, txload 100/255, rxload 122/255

输入和输出队列丢弃

输入队列丢弃从来都不是由硬件问题引起的。只有输出队列长期排满并且没有任何信息包从接口发送出去时,输出队列丢弃才可能由硬件问题引起。有关这些类型的丢弃的详细信息,请参阅排除输入队列丢弃和输出队列丢弃故障

由于 NVRAM 存在故障或损坏,路由器丢失配置

路由器未能加载以前保存的配置。显示这些错误消息之一:

System Bootstrap, Version 11.1(8)CA1, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1)
Copyright (c) 1997 by cisco Systems, Inc.
Warning: monitor nvram area is corrupt ... using default values
   
   Warning: NVRAM size is 0

   environment checksum in NVRAM failed

   Router#show startup-config
%Error opening nvram:/startup-config (Invalid Checksum)

这些错误消息通常表明存在硬件故障。请发出 test memory 命令,以便进行验证。以下是命令输出的一个示例:

Router#test memory
Test NVRAM card [y/n] ? y
Failed

解决方案是发出 write erase 命令并重新加载路由器。如果问题仍然存在,则需要更换硬件。

当故障排除后出现硬件更换指示时,请使用这些选项之一:

  • 如果您直接与 Cisco 签订了该部件的硬件支持合同,请使用服务订单提交工具仅限注册用户),直接请求更换该部件。

  • 对于质保服务,请使用 TAC 服务请求工具仅限注册用户),以便在线联系 Cisco 技术支持。

  • 如果您的产品不在合同或保修范围内,请联系您的 Cisco 合作伙伴或代理商,请求更换导致问题的硬件组件。

建立 TAC 服务请求时要收集的信息

如果您发现了一个需要更换的组件,请联系您的 Cisco 合作伙伴或代理商,请求更换导致问题的硬件组件。如果您直接与 Cisco 签订了支持合同,请使用 TAC 服务请求工具仅限注册用户)来发出更换硬件的 TAC 服务请求。确保您附上此信息:
  • 显示错误消息的控制台捕获
  • 显示采取的故障排除步骤的控制台捕获和在每个步骤期间的启动顺序
  • 发生故障的硬件组件和机箱的序列号
  • 故障排除日志
  • show technical-support 命令的输出


相关信息


Document ID: 71444