路由器 : Cisco 7500 Series Routers

Cisco路由交换机处理器(RSP)硬件故障排除

2016 年 10 月 24 日 - 机器翻译
其他版本: PDFpdf | 英语 (2015 年 8 月 22 日) | 反馈


交互:本文档对您的 Cisco 设备进行自定义分析。


目录


简介

更换实际上正常运行的硬件会浪费宝贵的时间和资源。本文档可帮助对 Cisco 7500 系列路由器(更具体地说是其路由交换机处理器 (RSP) 卡)的常见硬件问题进行故障排除。本文档提供了用于识别故障硬件的指引。

注意: 本文档不包括与软件相关的任何故障,但经常被误认为硬件问题的故障除外。

先决条件

要求

Cisco 建议您了解以下主题:

使用的组件

本文档中的信息基于以下软件和硬件版本:

  • 所有Cisco IOS�软件版本

  • 任何包含 7505、7507、7513 和 7576 的 7500 的系列路由器中的以下 RSP:

    • RSP1

    • RSP2

    • RSP4

    • RSP4+

    • RSP8

    • RSP16*

    *在 7505、7507 和 7513 上受支持。RSP16 在 7576 上不受支持。

本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您使用的是真实网络,请确保您已经了解所有命令的潜在影响。

规则

有关文档规则的详细信息,请参阅 Cisco 技术提示规则

Cisco 7500 路由器系列家族

/image/gif/paws/16100/rsp1.gif

/image/gif/paws/16100/rsp2.gif

rsp4.gif

rsp8.gif

/image/gif/paws/16100/rsp16.gif

背景

Cisco 7500 系列路由器具有至少一个 RSP 以及 1-11 个接口处理器(传统 IP 或通用接口处理器 (VIP))。

RSP 可处理路由器的主要功能。它负责处理路由协议算法、非分布式环境中的数据包交换以及更高级别的功能等。接口处理器(IP 和 VIP)包含路由器的网络接口。RSP 只能插入下面所概括的 7500 系列路由器中的某些插槽中,插槽编号从 0 开始:

路由器 插槽编号
7505 4
7507 2 和 3
7513 6 和 7
7576 6 和 7

请注意,对于 7507、7513 和 7576,更低和更高编号的插槽分别称为主 RSP 插槽和辅助 RSP 插槽。

用于 Cisco 7500 系列路由器的 RSP 共有六个不同类型:

路由交换机处理器类型 说明
RSP1 包含一个 (MIPS) R4600 CPU,该 CPU 的内部运行速度为 100 MHz,外部总线速度为 50 MHz,支持从 16 MB 到 128 MB 的内存选件
RSP2 包含一个 MIPS R4600 CPU,该 CPU 的内部运行速度为 100 MHz,外部总线速度为 50 MHz,支持从 32 MB 到 128 MB 的内存选件
RSP4 包含一个 MIPS R5000 CPU,该 CPU 的内部运行速度为 200 MHz,外部总线速度为 100 MHz,支持从 32 MB 到 256 MB 的内存选件
RSP4+ 此 RSP 与 RSP4 相同,不同之处在于,它具有纠错码 (ECC) 内存保护/纠正功能以及更新版 ROMMON
RSP8 包含一个 MIPS R7000 CPU,该 CPU 的内部运行速度为 250 MHz,外部总线速度为 100 MHz,支持从 64 MB 到 256 MB 的内存选件
RSP16 包含一个 MIPS R7000 CPU,该 CPU 的内部运行速度为 500 MHz,外部总线速度为 100 MHz,支持从 64 MB 到 1 GB 的同步动态 RAM (SDRAM) 内存选件。除了用于第 3 层缓存的 2 MB 静态 RAM (SRAM) 之外,RSP16 还支持纠错码 (ECC) 功能。

硬件软件兼容性与内存要求

每当您安装一个新的 RSP、VIP、端口适配器或 Cisco IOS 软件映像时,都必须验证路由器具有足够内存,并且硬件和软件是兼容的。

为了检查硬件与软件之间的兼容性以及内存要求,请执行以下推荐的步骤:

  1. 使用 Software Advisor 工具(仅限注册用户)来验证所需的 Cisco IOS 软件版本是否支持这些模块和卡。

    提示: 确保转到硬件的软件支持(仅限注册用户)部分。

  2. 使用 Cisco 软件下载区(仅限注册用户)来检查 Cisco IOS 软件需要的最小内存(RAM 和闪存)大小和/或下载 Cisco IOS 软件映像。请参阅内存要求以确定所安装的内存(RAM 和闪存)大小。

    提示: 

    • 在 Cisco 软件下载区(仅限注册用户)中,您需要在步骤 1 中选择平台和推荐的 Cisco IOS 软件版本以查看内存要求。

    • 如果您需要将 Cisco IOS 软件映像升级到新版本,请参阅如何选择 Cisco IOS 软件版本以获取详细信息。

    如果您确定需要进行 Cisco IOS 软件升级,请针对 Cisco 7500 系列路由器完成软件安装和升级过程中的步骤。

错误消息

通过错误消息解码器工具(仅限注册用户),您可以检查错误消息的定义。错误消息通常以此形式出现在 Cisco 产品控制台上:

%XXX-n-YYYY : [text]

下面是错误消息的示例:

Router# %SYS-2-MALLOCFAIL: Memory allocation of [dec] bytes failed from [hex], pool [chars], alignment [dec]

一些错误消息只是信息性的,而其他错误消息则会指示硬件或软件故障并要求执行操作。错误消息解码器工具(仅限注册用户)提供了消息说明、建议的操作(如果需要)以及与一个文档的链接(如果适用),该文档提供了有关该错误信息的大量故障排除信息。

内存问题示例

以下 show log 输出显示了内存不足错误消息 %SYS-2-MALLOCFAIL:,此消息是由进程 BGP Router 引起的。验证 show processes memoryshow memory summary 输出以验证 BGP 进程的内存使用率。

Router#show log
%SYS-2-MALLOCFAIL: Memory allocation of 32768 bytes failed from 0x403B4650, alignment 0 
Pool: Processor  Free: 406936  Cause: Memory fragmentation 
Alternate Pool: None  Free: 0  Cause: No Alternate pool 

-Process= "BGP Router", ipl= 0, pid= 158
-Traceback= 403B96D0 403BD8BC 403B4658 40DF73C0 402476FC 4064FA10 4061C840 406268A0 40626A4C 40816EC4 408102B0 40ED0820 408103C0 407D46A8
Jun 30 10:27:40.836 UTC: %FIB-3-NORPXDRQELEMS: Exhausted XDR queuing elements while preparing message for slot 4
-Process= "BGP Router", ipl= 0, pid= 158
-Traceback= 40DF74A0 402476FC 4064FA10 4061C840 406268A0 40626A4C 40816EC4 408102B0 40ED0820 408103C0 407D46A8
 %BGP-5-ADJCHANGE: neighbor 10.10.10.254 Down BGP Notification sent
 %BGP-3-NOTIFICATION: sent to neighbor 10.10.10.254 4/0 (hold time expired) 0 bytes 
 %BGP-5-ADJCHANGE: neighbor 10.10.10.99 Down BGP Notification sent
 %BGP-3-NOTIFICATION: sent to neighbor 10.10.10.99 4/0 (hold time expired) 0 bytes 
 %BGP-5-ADJCHANGE: neighbor 10.10.10.100 Down BGP Notification sent
 %BGP-3-NOTIFICATION: sent to neighbor 10.10.10.100 4/0 (hold time expired) 0 bytes 
 %BGP-5-ADJCHANGE: neighbor 10.10.10.254 Up 

Router#show processes memory
Processor Pool Total:  229224896 Used:  198433716 Free:   30791180
     Fast Pool Total:     131072 Used:     131024 Free:         48 


!--- Output suppressed.
 

Router#show memory summary
              Head     Total(b)        Used(b)    Free(b)   Lowest(b)  Largest(b)
Processor   42564E40   229224896    198457508    30767388       22200    196700
     Fast   42544E40      131072       131024          48          48        48

在前面的输出中,处理器内存中的最大可用块为 196700。总可用内存为 30767388。为了适应邻居的 BGP 瞬时内存使用率上下波动,路由器需要超过 40 MB 的可用内存。在这种情况下,您需要考虑升级内存,或者设置 BGP 过滤器或 BGP 重新配置,以将路由表最小化。这是一个路由器上内存不足问题的示例。

识别问题

RSP 可能出于各种原因而重新启动或重新加载。其中几个原因归结于潜在硬件问题。您可以找到有关如何捕获不同类型输出的信息,这种信息有助于识别由有问题的硬件导致的症状并对其进行故障排除。故障排除指南部分列出了有关对各种症状进行故障排除的提示。

如何捕获信息

为了确定引起问题的原因,首先需要获得有关该问题的尽可能多的信息。要确定问题的原因,以下信息至关重要:

  • Crashinfo 文件 — 当路由交换机处理器 (RSP) 崩溃时,它会尝试将 crashinfo 文件保存到其 bootflash 中。请参阅《 从Crashinfo文件中获取信息 》,以了解有关crashinfo文件的详细信息。请注意,如果路由器具有双 RSP,并且备用 RSP 在作为主 RSP 时发生崩溃,则 crashinfo 文件可能在备用 RSP bootflash 上。通常,如果成功创建了 crashinfo 文件,则该文件存在于发生崩溃的 RSP 的 Bootflash 中。

  • 控制台日志和/或 Syslog 信息 — 这些信息对于在出现多个症状时确定起始问题可能至关重要。Cisco 7500 系列路由器通常就是这种情况。如果具有控制台日志/syslog,则可以执行有效的故障排除。如果将路由器设置为向 syslog 服务器发送日志,请在该服务器上检查日志。对于控制台日志,请确保已直接连接到路由器的控制台端口,并为控制台连接应用正确的终端仿真器设置。还要确保启用日志记录

  • show technical-support 输出show technical-support 命令是许多不同命令的集合,包括 show versionshow running-configshow stacks。当 RSP 遇到问题时,技术支持工程师通常会要求您提供此信息。请务必在重新加载或重新通电之前收集 show technical-support 的输出,因为这些操作可能导致有关该问题的所有信息丢失。这是因为,当路由器重新加载时,将会清除在堆叠上保存的上下文信息。

  • show environment 命令 — show environment all 命令用于查看路由器的电源和温度输出。除 show environment all 命令之外,show environment lastshow environment table 也十分有用。

如果您的 Cisco 设备上具有 show 命令的输出(包括 show technical-support),则您可以使用命令输出解释程序(仅限注册用户)来显示潜在问题和解决方法。为了使用命令输出解释程序(仅限注册用户),您必须是注册用户且已登录,并且已启用 JavaScript。

易误解的症状

某些问题可能被错误解释为硬件问题,而实际上并非如此。某些更常见的问题是在路由器停止响应或挂起或路由器因安装新硬件而发生故障时出现的。下面是这些经常被错误解释的问题的症状、说明和故障排除步骤的列表:

症状 说明
RSP 在正常运行期间挂起 这通常由软件问题引起,但也可能由硬件造成。请参考路由器死机故障排除
未识别出新的 RSP、VIP 或者端口适配器 使用 Software Advisor(仅限注册用户)工具来确定当前 Cisco IOS 软件版本是否支持新卡。
RSP1、RSP2 或 RSP4 在引导时崩溃或挂起 这可能是由 bootflash 上的第一个文件不是有效的 Cisco IOS 软件映像或 RxBoot 映像造成的。这种情况记录在 Field Notice 14484:Bootflash 包含不可引导的代码时路由器可能出现故障中。此问题不应影响 RSP4+、RSP8 和 RSP16。
您收到以下错误消息
RSP-3-RESTART: cbus complex
此错误消息可能是由配置更改、接口处理器的在线热插拔 (OIR) 或其他软件或故障硬件问题而引起的。导致“%RSP-3-RESTART:cbus complex”的原因中详细讨论了此错误消息。
RSP CPU 使用率非常高 尽管某些硬件问题故障可能导致很高的 CPU 使用率,但更可能的原因是路由器配置错误或网络上的某种情况导致了该问题。对 Cisco 路由器上的高 CPU 使用率进行故障排除中对此进行了详细讨论。
在 RSP 上看到内存分配错误 硬件问题几乎不可能导致内存分配错误。内存分配错误的故障排除提示位于排除内存问题页中。
RSP 崩溃 不是所有的 RSP 崩溃都是由硬件引起的。大多数 RSP 崩溃实际上是由软件引起的。路由器崩溃故障排除页对此进行了详细讨论。

故障排除指南

下面是一些故障排除指南,这些指南取决于您所遇到的问题的类型:

  • 奇偶校验错误 - 7500 上的奇偶校验错误通常是由硬件故障引起的。为了对奇偶校验错误进行故障排除,请在发生崩溃时捕获输出。获取此信息后,请参阅处理器内存奇偶校验错误 - RSP 以了解详细的故障排除步骤。

  • 有效地址处的总线错误 - 请参阅对总线错误崩溃进行故障排除以了解有关总线错误的详细信息。如果总线错误的地址是有效地址,则此问题最可能的原因是硬件故障。

  • 连续重新启动 - 如果 Cisco 7500 系列路由器连续重新启动(即使在路由器重新通电后也是如此),请完成以下步骤:

    1. 卸下除 RSP 之外的所有卡。如果该 RSP 位于辅助 RSP 插槽中,请将它移到主 RSP 位置,并且将路由器重新通电。如果路由器未通过主 RSP 启动,则将该 RSP 移到辅助插槽,然后重新加载路由器。

    2. 如果路由器仍然无法正常工作,请收集引导顺序的控制台日志/syslog,并创建向 Cisco 技术支持的服务请求。

建立 TAC 服务请求时应收集的信息

如果您确定了一个需要更换的组件,请联系您的Cisco合作伙伴或代理商,请求更换导致问题的硬件组件。如果您与 Cisco 直接签订了支持合同,请使用 Cisco 技术支持服务请求工具(仅限注册用户)发出更换硬件的 Cisco 技术支持服务请求。请一定要附上以下信息:
  • 显示错误消息的控制台捕获
  • 显示采取的故障排除步骤的控制台捕获和在每个步骤期间的启动顺序
  • 发生故障的硬件组件和机箱的序列号
  • 故障排除日志
  • show technical-support 命令的输出


相关信息


Document ID: 16100