路由器 : 思科 3800 系列集成多业务路由器

Cisco3800系列路由器硬件故障排除

2016 年 10 月 24 日 - 机器翻译
其他版本: PDFpdf | 英语 (2015 年 4 月 22 日) | 反馈


交互:本文档对您的 Cisco 设备进行自定义分析。


目录


简介

更换实际上运行良好的硬件通常会浪费宝贵的时间和资源。本文档帮助您排除 Cisco 3800 系列路由器的潜在硬件问题故障。本文档也为您提供帮助识别导致硬件故障的组件的信息。这取决于路由器出现的错误类型。

注意: 本文档不包括与软件相关的任何故障,但经常被误认为硬件问题的故障除外。

先决条件

要求

Cisco 建议您了解以下主题:

使用的组件

本文档中的信息基于 Cisco 3800 系列路由器。

规则

有关文档规则的详细信息,请参阅 Cisco 技术提示规则

硬件软件兼容性与内存要求

每当您安装一新的卡、模块或者Cisco IOS�软件镜像,验证是重要的路由器有足够的内存,并且硬件与软件是与功能兼容您希望使用。

请执行这些推荐的步骤,以检查硬件软件兼容性和内存要求:

  1. 使用软件顾问工具仅限注册用户)来为网络设备选择软件。

    提示:

  2. 使用软件下载区仅限注册用户)来检查 Cisco IOS 软件所需的最小内存(RAM 和闪存)大小,以及下载 Cisco IOS 软件镜像。要确定安装在您路由器上的内存(RAM 和闪存)的大小,请参阅如何选择 Cisco IOS 软件版本内存需求 部分。

    提示:

  3. 如果确定需要 Cisco IOS 软件升级,请完成在 Cisco 3600 系列路由器的软件升级程序中概述的步骤。

    注意: 3600 系列路由器的 Cisco IOS 软件升级程序也适用于 3800 系列路由器。Cisco IOS 软件文件名可能根据 Cisco IOS 软件版本、功能集和平台而变化。

    提示:

错误消息

错误消息解码工具仅限注册用户)允许您检查错误消息的含义。错误消息通常以此形式出现在 Cisco 产品控制台上:

%XXX-n-YYYY : [text]

下面是错误消息的示例:

Router# %SYS-2-MALLOCFAIL: Memory allocation of [dec] bytes failed from [hex], 
pool [chars], alignment [DEC]

一些错误消息只是信息性的,而其他错误消息则会指示硬件或软件故障并要求执行操作。错误消息解码器工具可提供消息解释、推荐操作(如果需要)以及一个指向文档的链接(如果可用),该文档提供有关该错误消息的大量故障排除信息。

排除 Cisco 3800 系列路由器故障

Cisco 3800 系列集成多业务路由器在出厂之前要经过广泛的测验和预烧。如果您遇到问题,请参阅排除 Cisco 3800 系列路由器故障,以帮助隔离问题或排除路由器作为问题源的可能性。

本文档包含以下部分:

并且,请参阅口令恢复流程

启动顺序

当启动或重启 3800 系列路由器时,会发生以下事件:

  • ROM Monitor(在 Boot ROM 中)对自身进行初始化。

  • ROM Monitor 检查配置寄存器中的引导字段(最低的四个位)。

    • 如果引导字段的最后一位数字是 0(例如,0x100),系统则不引导 Cisco IOS 软件映像,等待 ROM Monitor 提示时的用户干涉。从 ROM Monitor 模式,您可以发出 boot 或 b 命令,以便手动引导系统。

    • 如果引导字段的最后一位数字是 2 到 F(例如,0x102 到 0x10F),路由器则引导在配置文件或 BOOT 环境变量中指定的第一个有效映像。它按顺序通过每个 boot system 命令,直到引导一个有效映像。

如果路由器找不到有效映像,则会发生下列事件:

  • 如果所有系统配置文件中的boot命令都发生故障,则系统尝试引导闪存中的第一个有效文件。

  • 如果没有找到功能完备的系统映像,路由器则不会运行,并停留在 ROM Monitor,等待通过直接控制台端口连接进行重新配置。

如果路由器找到有效映像,则会发生下列事件:

  • 主 Cisco IOS 软件映像解压到 DRAM 并且从那里加载。

  • Cisco IOS 软件构建所需的数据结构,例如接口描述块 (IDB),切分 DRAM 上的接口缓冲,加载启动配置并可随时运行。

如果路由器在 ROM Monitor 模式被滞留,请参阅在 Cisco 3800 系列路由器的 ROMmon 恢复中描述的恢复流程。

模块与卡

Cisco 3845 有四个插槽,Cisco 3825 有两个插槽。每个网络模块插槽接受支持各种 LAN、WAN 和语音技术的各种网络模块接口卡。

NM-1T3/E3 安装问题(DS3 卡)

默认情况下,T3 控制器不会显示在 show running-config 命令输出中。发出 show version 命令以查看卡。它不会显示在 show runshow ip interface brief 命令输出中。

Router-3845#show version
Cisco Internetwork Operating System Software
IOS (tm) 3800 Software (C3845-IK9S-M), Version 12.3(12b), RELEASE SOFTWARE (fc2)
Technical Support: http://www.cisco.com/techsupport
Copyright (c) 1986-2005 by cisco Systems, Inc.
Compiled Thu 31-Mar-05 18:07 by jfeldhou
Image text-base: 0x60008AF4, data-base: 0x61E20000

ROM: System Bootstrap, Version 12.2(8r)T2, RELEASE SOFTWARE (fc1)
ROM: 3800 Software (C3845-IK9S-M), Version 12.3(12b), RELEASE SOFTWARE (fc2)

D-R4745-9A uptime is 18 minutes
System returned to ROM by reload
System image file is "flash:c3845-ik9s-mz.123-12b.bin"


This product contains cryptographic features and is subject to United
States and local country laws governing import, export, transfer and
use. Delivery of Cisco cryptographic products does not imply
third-party authority to import, export, distribute or use encryption.
Importers, exporters, distributors and users are responsible for
compliance with U.S. and local country laws. By using this product you
agree to comply with applicable laws and regulations. If you are unable
to comply with U.S. and local laws, return this product immediately.

A summary of U.S. laws governing Cisco cryptographic products may be found at:
http://www.cisco.com/wwl/export/crypto/tool/stqrg.html

If you require further assistance please contact us by sending email to
export@cisco.com.

cisco 3845 (R7000) processor (revision 0.0) with 249856K/12288K bytes of memory.
Processor board ID
R7000 CPU at 350MHz, Implementation 39, Rev 3.3, 256KB L2, 2048KB L3 Cache
Bridging software.
X.25 software, Version 3.0.0.
SuperLAT software (copyright 1990 by Meridian Technology Corp).
2 FastEthernet/IEEE 802.3 interface(s)
1 Subrate T3/E3 ports(s)
DRAM configuration is 64 bits wide with parity disabled.
151K bytes of non-volatile configuration memory.
62592K bytes of ATA System CompactFlash (Read/Write)

Configuration register is 0x2102
Router-3845#show ip interface brief
Interface                  IP-Address      OK? Method Status                Prot
ocol
FastEthernet0/0            10.10.50.25     YES NVRAM  up                    up

FastEthernet0/1            unassigned      YES NVRAM  administratively down down

您需要配置路由器以便识别板卡。这是配置示例。有关详细配置信息,请参阅硬件安装指南,配置 T3 的卡类型和控制器

Router-3845#card type t3 1
Router-3845#
*Mar  1 00:24:20.031: %LINK-3-UPDOWN: Interface Serial1/0, changed state to down
*Mar  1 00:24:21.031: %LINEPROTO-5-UPDOWN: Line protocol on Interface Serial1/0,
 changed state to down
Router-3845#show ip interface brief
Interface                  IP-Address      OK? Method Status                Prot
ocol
FastEthernet0/0            10.10.50.25     YES NVRAM  up                    up

FastEthernet0/1            unassigned      YES NVRAM  administratively down down

Serial1/0                  unassigned      YES unset  down                  down

注意: 有些模块是不可热插拔的。在将卡安装到路由器后,您可能在 show version 命令输出中无法看到模块。您需要重新加载路由器,以识别最新安装的模块。

识别问题

此部分说明如何确定潜在硬件问题的原因。

为了发现问题,首先需要捕获尽可能多的与问题有关的信息。此信息是确定问题的重要原因:

  • 控制台日志 - 有关详细信息,请参阅为控制台连接应用正确的终端仿真器设置

  • 系统日志信息 - 如果将路由器设置为将日志发送到系统日志服务器,您可得到关于所发生情况的信息。请参阅 Resource Manager Essentials 和 Syslog 分析:如何为系统日志配置 Cisco 设备部分。

  • show technical-support 命令输出 - show technical-support 命令是许多不同命令的集合,包括 show versionshow running-configshow stacks 命令。TAC 工程师通常需要这些信息以便排除硬件问题。在您执行重新加载或重新通电前,收集 show technical-support 命令信息是至关重要的,因为这些操作会导致关于问题的所有信息丢失。

  • 若路由器出现启动错误,请执行启动顺序所要求的操作。

如果您的 Cisco 设备上有 show 命令输出(包括 show technical-support 命令),您可以使用命令输出解释程序工具仅限注册用户)来显示潜在问题和解决方法。 您必须登录并启用 Javascript,才能使用此工具。

路由器重新启动/重新加载

路由器重新启动后,回到正常状态。正常状态意味着路由器正在运行,传送流量,并且您能够访问路由器。请发出 show version 命令并查看输出,以便检查出路由器重新启动的原因。示例如下:

Router#show version
Router uptime is 20 weeks, 5 days, 33 minutes
System returned to ROM by power-on

路由器陷于ROMmon (rommon # > prompt)

要获得关于如何恢复停留在 ROMmon (rommon # > prompt) 中的 Cisco 3800 系列路由器的信息,请参阅 Cisco 3600/3700/3800 系列路由器的 ROMmon 恢复

路由器崩溃

系统崩溃是指系统检测到无法恢复的错误并已自动重启的情况。软件问题和/或硬件问题都可能引起系统崩溃。此部分处理硬件造成的崩溃,以及与软件相关但可能被误认为硬件问题的崩溃。

警告 警告: 崩溃后,如果路由器重新加载(例如通过重新通电或 reload 命令),有关崩溃的重要信息将丢失。在您重新加载路由器之前,您需要收集 show technical-supportshow log 命令输出,以及 crashinfo 文件(如果可能)。

有关此问题的详细信息,请参阅排除路由器崩溃故障

总线错误崩溃

当处理器尝试访问不存在(软件错误)、或者没有正确回应(硬件问题)的存储位置时,系统遇到总线错误。如果路由器没有进行重新通电或手动重新加载,可以通过路由器提供的 show version 命令输出结果来识别总线错误。

以下是总线错误崩溃的两个示例:

Router uptime is 2 days, 21 hours, 30 minutes
System restarted by bus error at PC 0x30EE546, address 0xBB4C4
System image file is "flash:igs-j-l.111-24.bin", booted via flash 
.........

在控制台提示符下,还可能在总线错误期间看到此错误消息:

*** System received a Bus Error exception *** 
signal= 0xa, code= 0x8, context= 0x608c3a50
PC = 0x60368518, Cause = 0x20, Status Reg = 0x34008002

有关此问题的详细信息,请参阅排除总线错误崩溃故障

连续启动/启动循环

由于硬件问题,路由器可能陷入连续循环。连续环路不会让您获得访问路由器的机会。路由器继续滚动错误消息,直到断电为止。本部分提供可能出现的错误消息示例,以及确定有故障的硬件所必需的故障排除步骤。

故障排除流程图

这是总线错误异常、%ERR-1-GT64010、监视器超时和 OIRINT 连续环路的一个故障排除流程图:

/image/gif/paws/71450/hwts-3800-1.gif

注意: 在您完成这些故障排除步骤后,如果路由器不出现连续循环,则问题可能由插错位置的网络模块引起。我们建议您 24 小时监控路由器,以确保路由器继续运行,而不会再遇到这样的问题。

总线错误异常

这是总线错误异常消息的示例:

*** System received a Bus Error exception *** 
signal= 0xa, code= 0xc, context= 0x61c67fc0 
PC = 0x6043904c, Cause = 0x2420, Status Reg = 0x34018002

有关此问题的详细信息,请参阅排除总线错误崩溃故障

SegV 异常

如果不对路由器进行重新通电或手动重新加载,则 show version 命令显示此输出:

Router uptime is 2 days, 3 hours, 5 minutes 
System restarted by error - a SegV exception, PC 0x80245F7C 
System image file is "flash:c2600-js-mz.120-9.bin"

此输出也可显示在控制台日志中:

 *** System received a SegV exception *** 
signal= 0xb, code= 0x1200, context= 0x80d15094 
PC = 0x80678854, Vector = 0x1200, SP = 0x80fcf170

有关此问题的详细信息,请参阅 SegV 异常

TLB(加载/提取)异常

TLB(加载/提取)异常错误看起来与此示例相似:

*** TLB (Load/Fetch) Exception ***
Access address = 0x1478
PC = 0x1478, Cause = 0x8008, Status Reg = 0x30410002

此错误通常会无限重复,直到用户发出中断顺序以中断操作,或者重新起动路由器(此后错误可能会继续)。

使用 Cisco 3600/3700/3800 系列路由器的 ROMmon 恢复中概述的步骤,将 Cisco IOS 软件映像重新加载至闪存。

使用本文档中的故障排除流程图排除硬件故障。

如果问题依然存在,请关闭路由器并且重置DRAM,然后接通路由器的电源。如果问题仍然存在,请更换 DRAM 并再次接通路由器电源。

%ERR-1-GT64010

下面是 %ERR-1-GT64010 错误消息的示例:

%ERR-1-GT64010: Fatal error, PCI Master read
cause=0x0120E483, mask=0x0CD01F00, real_cause=0x00000400 
bus_err_high=0x00000000, bus_err_low=0x04080000, addr_decode_err=0x14000470

监视器超时

Cisco 处理器有防范特定类型的系统挂起的计时器。CPU 定期重新设置监视计时器。监视器计时器主要控制每个进程的时间。如果没有重新设置计时器,陷阱就会发生。如果程序比较长,则使用监视器计时器,退出该进程。

监视器超时有两种主要类型。第一种类型通常由软件问题引起,采用这些方式的其中一种或两种方式进行报告:

  • show version 命令的输出显示:

    "System returned to ROM by bus error at PC 0x602DADE0, address 0x480811"  
    - or - 
    "System returned to ROM by error - a Software forced crash, PC 0x60435894"
  • 控制台日志显示:

    %SYS-2-WATCHDOG: Process aborted on watchdog timeout

第二种类型的监视器超时通常由硬件问题引起,并且以这些方式中的一种或两种进行报告:

  • show version 命令的输出显示:

    Router uptime is 17 minutes 
    System returned to ROM by watchdog timer expired 
    System image file is "flash:c3640-is-mz.122-3.bin"
  • 控制台日志显示:

    System returned to ROM by watchdog timer expired 
    *** Watch Dog Timeout *** 
    PC = 0x800001b4, SP = 0x61e19590

两者都是潜在的问题,需要根据症状进行进一步的调查。请参阅排除总线错误崩溃故障了解软件引起的崩溃。这取决于哪一个出现在 show version 命令输出中。有关监视器超时崩溃的详细信息,请参阅排除监视器超时故障

路由器未启动

从路由器控制台捕获的信息对于排除未启动的路由器的故障至关重要。如果 TAC 案例开启,则应在一个文件中登录控制台输出,以便进行后续分析或获得 Cisco 技术支持。

如果您遇到启动问题,此表列出症状和推荐采取的操作:

症状 建议操作
LED不是在关闭路由器以后。 检查电源线是否插牢,电源是否良好。如果不能解决问题,请更换电源线。如果问题仍然存在,请替换路由器。
路由器通电后,LED指示灯亮,但控制台上没有任何东西。 验证波特率是否设置为 9600 bps。有关如何使用终端仿真器配置和监控路由器的信息,请参阅对控制台连接应用正确的终端仿真程序设置。如果不起作用,请验证用于连接到控制台的设备是否运行正常。请连接到一台运行良好的路由器,以便检查您的控制台设备。如果设备测试成功,但是问题依然存在,请更换路由器。
路由器在ROMmon启动;在控制台没有错误消息。 将配置寄存器设置为 0x2102 并重新加载路由器:
rommon 1 > confreg 0x2102 
rommon 2 > reset
如果路由器保留在 ROMmon 中,请完成在 Cisco 3600/3700/3800 系列路由器的 ROMmon 恢复中描述的步骤。
路由器启动到 ROMmon,并且控制台上出现以下消息:
  • device does not contain a valid magic number
  • boot:cannot open "flash: "”
  • boot:cannot determine first file name on device "flash: "”
闪存为空的或文件系统损坏。复制闪存中的有效映像。复制的同时,系统将提示您擦除旧闪存(如果存在旧闪存)。然后重新加载路由器。有关如何复制闪存中的有效映像的指导,请参阅软件升级程序
在启动的过程中,路由器可能在启动停止后,显示如下错误消息 pre and post compression image sizes disagree。 可能的原因包括:
  • 损坏的软件镜像
  • 有故障的闪存
  • DRAM 有故障
  • 内存插槽损坏
将一个新的镜像复制到闪存,以开始排除此问题的故障。有关如何将有效映像复制到闪存的指令,请参阅 Cisco 3600/3700/3800 系列路由器的 ROMmon 恢复。如果安装一个新镜像不能解决问题,您可以更换内存。如果您更换闪存和 DRAM,但是不能解决问题,则可能是机箱上的内存插槽有故障。然后,您需要使用 TAC 服务请求工具仅限注册用户)来创建服务请求,以便解决硬件问题。

路由器丢弃数据包

硬件故障造成的数据包丢失是非常容易识别的。此部分使用show interfaces指令的输出识别包丢失。

循环冗余校验 (CRC) 和帧错误

如果接口上的 CRC 错误或帧错误持续增加,则这通常说明存在硬件问题。

router#show interface ethernet 0/0 
   Ethernet0/0 is up, line protocol is up 
   ... 
   121 input errors, 102 CRC, 19 frame, 0 overrun, 0 ignored

例外情况是,在信道化接口上找到 CRC 和帧错误。这些还能指示计时问题。导致错误的故障可以在两个连接的接口之间的任何地方:在电缆、中间设备上,或者在接口本身上。对于不同的接口类型,故障排除方法略有不同。

以太网接口

对于以太网接口,故障排除方式在共享环境(设备通过集线器或同轴电缆进行连接)和交换环境(设备连接到交换机)中各不相同。

在交换环境中,五个组件可能导致错误:

  • 电缆

  • 本地接口(端口)

  • 远程接口(端口)

  • 速度

  • 双工不匹配

因此,故障排除步骤非常简单。例如,如果路由器连接到交换机,故障排除步骤是:

  1. 更换电缆(请确保使用直通电缆)。

  2. 如果这解决不了问题,请尝试在切换到另一个端口。

  3. 如果问题仍然存在,请更换以太网接口。

在共享环境,问题的根源是更难找到。组成共享段的每个硬件部分都可能是问题的根源。必须逐个测试所有组件(电缆、连接器等等)。

忽略的数据包

router#show interfaces ethernet 0/0 
   Ethernet0/0 is up, line protocol is up 
   ... 
   21 input errors, 0 CRC, 0 frame, 0 overrun, 21 ignored

如果没有接受新数据包的空闲缓存区,将忽略数据包。如果路由器流量超载,这种情况可能发生;如果接口有故障,这种情况也可能发生。如果忽略出现在所有接口上,则路由器可能存在流量超载或者池中没有足够的与接口最大传输单元 (MTU) 匹配的空闲缓冲区。在后一种情况下,忽略的计数器增加,随后无缓冲计数器也增加:

router#show interfaces serial 0/0 
   ... 
   1567 packets input, 0 bytes, 22 no buffer 
   22 input errors, 0 CRC, 0 frame, 0 overrun, 22 ignored, 0 abort

您可能看到池中缓冲故障计数器增长到MTU的大小:

router#show buffers 
   ... 
   Big buffers, 1524 bytes (total 50, permanent 50): 
   50 in free list (5 min, 150 max allowed) 
   3066 hits, 189 misses, 0 trims, 24 created 
   12 failures (0 no memory)

预配置的永久性、空闲和所允许的最大缓冲区的数量也许不是在每个环境都能完全兼容。有关详细信息以及其避免方法,请参阅所有 Cisco 路由器的缓冲区调节

如果只有一个接口上的“ignore”增加,而后面的“no buffer”计数器没有增加,并且接口负载不重,则此接口可能存在故障。在此情况下,请捕获 show tech-support 命令输出并联系 Cisco 技术支持。可在 show interfaces 命令的输出中查看接口上的负载:

router#show interfaces serial 0/0 
   ... 
   reliability 255/255, txload 100/255, rxload 122/255

输入和输出队列丢弃

输入队列丢弃从来都不是由硬件问题引起的。只有输出队列长期排满并且没有任何信息包从接口发送出去时,输出队列丢弃才可能由硬件问题引起。有关这些类型的丢弃的详细信息,请参阅排除输入队列丢弃和输出队列丢弃故障

排除以太网接口故障

有关排除常见以太网媒体问题故障的程序,请参阅排除以太网故障

排除串行接口故障

这是排除串行接口故障所使用的参考列表:

排除 ISDN 接口故障

以下是排除 ISDN 接口故障可使用的参考:

排除路由器挂起故障

3800 系列路由器可能会遇到路由器挂起问题。挂起是指路由器启动到某个点后不再接受任何命令或键击。也就是说,控制台屏幕到 某种 程度 以后挂起。挂起不一定是硬件问题,在大多数情况下它们都是软件问题。如果您的路由器遇到挂起情况,请参阅排除路由器挂起故障

嵌入式电源问题

新的 Cisco 以太交换机服务模块(仅限 NME-16ES-1G-P、NME-X-23ES-1G-P、NME-XD-24ES-1S-P 和 NME-XD-48ES-2S-P)在插入 Cisco 2800 系列或 3800 系列集成多业务路由器时提供 Cisco 预标准和 IEEE 802.3af 以太网供电 (PoE) 支持(要求升级到 AC-IP 电源)。802.3af 是向以太网端口供电的 IEEE 标准。

在添加 802.3af EtherSwitch 模块后,您可能无法配置 PoE。发生这种情况的原因是在这些路由器中需要内联电源来提供 PoE 功能。外部电源选件不能与 Cisco 2800 或 3800 系列一起使用。如果需要 PoE,应该将内部路由器电源更换为一个带 PoE 功能的新电源。启用 PoE 的电源示例包括 PWR-2811-AC-IP=、PWR-2821-51-AC-IP=、PWR-3825-AC-IP= 和 PWR-3845-AC-IP=。有关更多信息和要求,请参阅 Cisco EtherSwitch 网络模块

报告TAC案例应收集的信息

如果您在完成这些故障排除步骤后仍需要帮助,并想要通过 Cisco 技术支持建立案例仅限注册用户),请确保包含下列信息:
  • 显示错误消息的控制台捕获
  • 显示采取的故障排除步骤的控制台捕获和在每个步骤期间的启动顺序
  • 发生故障的硬件组件和机箱的序列号
  • 故障排除日志
  • show technical-support 命令的输出
请以非压缩的纯文本格式 (.txt) 将收集的数据附加到请求中。您可以使用 TAC 服务请求工具仅限注册用户)来上载信息并将信息附加到案例中。如果无法访问 TAC 服务请求工具,可在邮件的主题行中注明案例号,然后以附件形式将信息发送到 attach@cisco.com

注意: 在您收集此信息前,除非出于故障排除要求,请勿手工重新加载或重新启动路由器。否则可能导致丢失确定问题的根本原因所需的重要信息。


相关信息


Document ID: 71450