路由器 : 思科 7200 系列路由器

Cisco 7200 系列路由器硬件故障排除

2016 年 10 月 27 日 - 机器翻译
其他版本: PDFpdf | 英语 (2015 年 8 月 22 日) | 反馈


交互:本文档对您的 Cisco 设备进行自定义分析。


目录


简介

更换实际上运行良好的硬件浪费了宝贵的时间和资源。本文帮助排除故障潜在硬件问题用思科7200系列路由器,并且可帮助您根据路由器体验错误的种类识别哪个组件可能导致硬件故障。

注意: 本文档不包括与软件相关的任何故障,但经常被误认为硬件问题的故障除外。

先决条件

背景

Cisco 7200系列路由器包含单个网络处理器引擎(NPE)或Network Services Engine (NSE),输入/输出(I/O)控制器卡,并且能有六个端口适配器(PA) 7206/7206VXR机箱的。

对于对Cisco 7200系列路由器体系结构的更加详细的了解,参考Cisco 7200系列路由器体系结构

要求

Cisco 建议您了解以下主题:

使用的组件

本文档中的信息不是特定对任何一种个Cisco IOSï ¿  ½软件版本,然而适用于在7200系列路由器运行的所有Cisco IOS软件版本。

本文包括在7200系列路由器的故障排除标准和VXR机箱的包括7202, 7204/7204VXR和7206/7206VXR。

对于在uBR7200系列平台的硬件故障检修协助,参考硬件故障检修为Cisco UBR72xx/UBR7246 VXR通用宽带路由器

本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您使用的是真实网络,请确保您已经了解所有命令的潜在影响。

硬件软件兼容性与内存要求

您在任何时候安装一张新卡、模块或者Cisco IOS软件镜像,重要的是要检验路由器是否有足够的内存,以及硬件与软件是否兼容您希望使用的功能。

请执行这些推荐的步骤,以检查硬件软件兼容性和内存要求:

  1. 使用软件顾问工具仅限注册用户)来为网络设备选择软件。

    提示:

  2. 请使用下载软件地区(仅限注册用户)检查Cisco IOS软件内存(RAM和闪存)要求的最小数量,并且/或者下载Cisco IOS软件镜像。要确定在您的路由器(RAM和闪存)安装的内存数量,请参阅内存要求

    提示:

  3. 如果确定Cisco IOS软件升级要求,请完成Cisco 7200系列路由器的软件安装和升级流程

升级引导镜像

参考超大Cisco 7200/uBR 7200启动镜像关于启动镜像的升级的更多信息在Cisco 7200系列路由器的更旧和新模型的。

错误消息

错误信息解码器 (仅限于 注册用户) 工具允许您检查报错消息的含义。错误消息出现在Cisco产品控制台,通常以下列格式:

%XXX-n-YYYY : [text]

这里是报错消息的实例:

Router# %SYS-2-MALLOCFAIL: Memory allocation of [dec] bytes failed from [hex], pool [chars], alignment [dec]

一些错误消息只是信息性的,而其他错误消息则会指示硬件或软件故障并要求执行操作。Error Message Decoder(仅限于注册用户)工具可提供消息解释、推荐措施(如果需要)。适当时,它还提供一个文档的链接,该文档提供了关于该错误信息的故障排除的丰富信息。

规则

有关文档规则的详细信息,请参阅 Cisco 技术提示规则

确定问题

为了确定原因,第一步是尽可能多的获取该问题的大量信息。此信息是确定问题的重要原因:

  • Crashinfo文件:当路由器失败时,文件保存到I/O控制器的Bootflash。文件包含在原因的详细信息为什么失败出现。欲了解更详细的信息参考获取信息从Crashinfo文件

  • 控制台日志和系统日志信息:这些是关键的在确定始发问题,如果多种症状发生。关于如何设置您的PC的更多信息查看控制台日志,参考应用正确终端仿真程序设置为控制台连接。如果路由器设置发送日志到系统日志服务器,您可以找到关于发生什么的一些信息。关于详细信息,参考如何配置Syslog的Cisco设备。一般来说,直接地连接到在控制台端口的路由器有启用的记录日志的是最佳的。

  • Show technical-supportshow technical-support命令是包括show versionshow running-configshow stacks许多不同的命令的编译。当Cisco7200遇到问题时, Cisco技术支持中心(TAC)通常请求此信息。在重新加载或重新通电作为这些之一能造成所有信息关于问题丢失前,收集show technical-support是重要的。

  • 完整的启动顺序,如果路由器出现引导 程序 错误。

如果有输出一show命令从您的Cisco设备,您能使用 显示潜在问题和修正。要使用输出结果,您必须是注册用户,并且必须进行登录,还要激活JavaScript。

常见问题

一些非硬件故障的问题也可能被误认为硬件问题。例如,新硬件安装之后的故障通常不是硬件问题。另外一个例子是路由器停止响应或“死机”。

此表为这些错误解析的问题通常提供症状、说明和故障排除步骤:

症状 说明
路由器死机 路由器也许体验路由器死机。挂起是指路由器启动到某个点后不再接受任何命令或键击。也就是说,控制台屏幕到 某种 程度 以后挂起。挂起不一定是硬件问题,在大多数情况下它们都是软件问题。如果您的路由器体验路由器死机,路由器死机故障排除帮助排除故障此问题。
端口适配器没有被认可并且搞到一控制台信息例如:
%PA-2-UNDEFPA: Undefined Port Adapter 
type 106 in bay 2
启动镜像不支持加密引擎例如SA-ISA或SA-VAM。如果他们中的一个插入到机箱,将有" Undefined Port Adapter "消息在启动,并且卡只将检测,当主要crypto Cisco IOS软件镜像装载。而且,启动程序将在1-2分钟之前减速。此预料之中的行为不影响路由器的操作。
坏CPU ID错误消息 坏CPU ID错误消息总是归结于不认可NPE-300/NPE-400或VXR机箱的Cisco IOS软件(通常启动镜像)。参考此问题的什么原因Bad CPU ID消息。升级Cisco IOS软件或启动镜像对支持未识别的硬件的版本解决此问题。
CPU(中央处理器)的利用率相当高 可能由硬件故障导致,但更可能是由于路由器配置错误或网络上的故障导致。在Cisco路由器页的故障排除高CPU利用率应该帮助排除故障此。
内存分配错误SYS-2-MALLOCFAIL 硬件问题几乎不可能导致内存分配错误。内存分配错误的故障排除提示在Troubleshooting Memory Problems页查找。
路由器崩溃 并非所有崩溃都是由不良硬件引起的。排除路由器崩溃故障可以帮助您确定崩溃是否由软件引起。
%PLATFORM-3-PACONFIG和%C7200-3-PACONFIG错误消息 这些错误消息经常是由错误的端口适配器配置导致的。参考什么原因%PLATFORM-3-PACONFIG和%C7200-3-PACONFIG错误消息?
什么导致 %SYS-3-CPUHOG 消息? 本文解释%SYS-3-CPUHOG错误消息的原因,和如何排除故障他们。
缓冲泄漏 缓冲泄漏是Cisco IOS软件Bug。有两不同的缓冲泄漏:楔入接口和系统缓冲泄漏。show interfacesshow buffer help命令确定您遇到缓冲泄漏的种类。欲知更多信息,请参阅故障排除缓冲泄漏
总线错误崩溃和总线错误异常
System restarted by bus error at 
PC 0x30EE546, address 0xBB4C4
** System received a Bus Error 
exception**
当处理器尝试访问不存在(软件错误)、或者没有正确回应(硬件问题)的存储位置时,系统遇到总线错误。请参见 “排除总线错误崩溃故障” 以了解有关这方面的更多信息。
SegV 异常
System restarted by error - 
a SegV exception
** System received a SegV 
exception ** 
关于此的更多信息参考的SEGV异常问题。
因失误被重新启动的系统
Software-forced crash
** System received a Software 
forced crash **
软件所制崩溃出现,当路由器检测严重,不可恢复的错误并且重新加载防止发送损坏的数据。关于此问题的更多信息,参考了解软件所制崩溃
%ERR-1GT64120 (PCI0):Fatal错误,内存奇偶错误 数据以错误奇偶校验可以由数在C7200/NPE路由器的对称校验设备报告所有读或写操作的。参考的Cisco 7200奇偶校验错误故障树欲知更多信息。
%RSP-3-RESTART :建立接口[xxx],输出停滞/冻结/不传送消息 参考什么原因%RSP-3-RESTART :interface [xxx], output stuck/frozen/not transmitting 消息?排除故障此种错误消息。
在线热插拔 (OIR) 在Cisco路由器的参考的在线插拔支持欲知更多信息。

逐步故障排除

奇偶校验错误

这是频繁地被误会并且能可能导致多余的停工期错误多数常见的类型的之一,如果适当故障排除没有被执行。

此部分目的将描述奇偶校验错误什么表可以由Cisco IOS软件检测和如何解密或诊断“永久性奇偶校验错误” (再发生并且归结于有故障或损坏的硬件)的一个和“暂时性奇偶校验错误” (负责一个瞬变的变化在不归结于有故障或损坏的硬件)的DRAM信元上。有重要字段回归证据“暂时性奇偶校验错误的”哪替换的硬件不把好处。

推荐的操作

在第一次发生时奇偶校验错误,区分在“暂时性奇偶校验错误”和“永久性奇偶校验错误之间”是不可能的。根据经验,大多数奇偶校验错误是暂时性奇偶校验错误,通常可不必考虑。如果最近更改一些硬件或移动机箱,请尝试重新安装受影响的部分(DRAM, SRAM, NPE, PA)。若经常出现多个奇偶校验错误,则说明存在硬件故障。受影响的部分(DRAM、PA、VIP或者主板)应该替换使用如下所述的故障排除指导。

了解有效故障排除的Cisco 7200系列体系结构

参考此平台概述的Cisco 7200系列路由器体系结构

Cisco 7200系列用途DRAM、SDRAM和SRAM内存在NPE以多种组合,根据NPE型号:

  • PCI总线—有在Cisco7200的三PCI数据总线:PCI 0, PCI 1和PCI 2. PCI 1和PCI 2延长从NPE到盆腔中段平面和互联媒介接口(端口适配器)对CPU和在NPE的内存。PCI 0分开和使用连接媒介接口和PCMCIA在I/O控制器到CPU和内存在NPE。运行在25兆赫, PCI 0, PCI 1和PCI 2提供至在带宽的800 Mbps中的每一。

  • I/O控制器—提供控制台连接、辅助连接、NVRAM、引导程序ROM、引导程序FLASH和内置的接口控制器(以太网或快速以太网接口)。I/O控制器通过PCI总线0也提供存取对于在PCMCIA卡插槽的闪存卡。

  • I/O总线—互联在I/O控制器(控制台端口、Aux端口、NVRAM、引导程序ROM和引导程序FLASH)的非PCI组件对CPU和NPE。

了解可能导致重新加载和报告奇偶校验错误的不同的误差源奇偶校验错误

  • DRAM奇偶校验错误(临时(阿尔法粒子)或硬件故障)

  • SRAM奇偶错误(临时或硬件故障)

  • 处理器内部缓存奇偶校验例外(说明或数据缓存)

  • 接口处理器文字错误奇偶校验到MEMD (SRAM)里

  • 总线奇偶校验奇偶错误(在CMD、总线处理的地址或者数据部分的错误)

  • 生产缺陷(坏焊剂、被中断的跟踪,冷焊剂联接,等等)

参考Cisco 7200奇偶校验错误故障树查看步骤排除故障和隔离Cisco7200的哪个部分或组件失败,当您识别各种各样的奇偶错误消息。

了解奇偶校验错误最普通的报告

参考处理器内存奇偶校验错误(PMPE)关于奇偶校验错误报告的详细信息。

一种方式发现错误哪里出现是通过查看“重新启动原因”在控制台日志和在输出show version命令中

DRAM中的奇偶校验错误

如果未在失败以后手工重新加载路由器, show version输出如下所示: :

System restarted by processor memory parity error at PC 0x601799C4, address 0x0 
System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash 

如果有输出一show命令从您的Cisco设备,您能使用 显示潜在问题和修正。要使用输出结果,您必须是注册用户,并且必须进行登录,还要激活JavaScript。

如果crashinfo文件是可用的,或者,如果控制台日志捕获,您也许也发现事类似于此:

 *** Cache Error Exception *** 
Cache Err Reg = 0xa0255c61 
data reference, primary cache, data field error , error on SysAD Bus 
PC = 0xbfc0edc0, Cause = 0xb800, Status Reg = 0x34408007 

DRAM中重复出现奇偶校验错误说明DRAM或机箱发生故障。如果机箱最近移动,或者,如果硬件配置更改进行了,再置DRAM芯片能解决问题。否则,首先更换DRAM。这样可防止奇偶校验错误。如果仍然路由器失败,在首先用尽在此部分的所有信息和咨询Cisco TAC之后替换机箱。

在SRAM的奇偶校验错误

如果未手工重新加载路由器,在失败,您在show version输出后将看到如此物:

System  restarted by shared memory parity error at PC 0x60130F40 
System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash 

如果crashinfo文件是可用的,或者,如果控制台日志捕获,您也许也发现事类似于此:

*** Shared Memory Parity Error *** 
shared memory control register= 0xffe3 
error(s) reported for: CPU on byte(s): 0/1 

%PAR-1-FATAL: Shared memory parity error 
shared memory status register= 0xFFEF 
error(s) reported for: CPU on byte(s): 0/1 2/3 

*** Shared Memory Parity Error *** 
shared memory control register= 0xffdf 
error(s) reported for: NIM1 on byte(s): 0/1  2/3

注意: 若生成CPU错误报告,则更换SRAM。若生成NIM(x)错误报告,则更换插槽(x)中的网络模块。SRAM分配到slot (x)也许也受影响,因此您也许必须替换SRAM。若SRAM中重复出现奇偶校验错误,则很可能说明SRAM芯片出现故障,或将错误奇偶校验写入SRAM中的网络模块出现错误。如果机箱最近移动,或者,如果硬件配置更改进行了,再置网络模块和SRAM芯片能解决问题。否则,检查控制面板日志中报错的位置(参见上面的输出示例)。

参考这些链路欲知更多信息:

%IP-3-LOOPPAK :循环的数据包检测和丢弃

%IP-3-LOOPPAK :循环的数据包检测的和丢弃的错误消息接收由于检测的一循环的数据包。常见原因是IP辅助工具地址的误配置。帮助地址应该是地址和那打算的服务的服务器一样。放置路由器的地址在帮助地址引起一路由环路创建。

推荐的操作是分析循环的数据包的源地址和目的地址和验证IP辅助地址的配置在路由器的正确指向正确的设备,并且不指向本地路由器。

总线错误异常导致的系统重新启动

当处理器尝试访问不存在(软件错误)、或者没有正确回应(硬件问题)的存储位置时,系统遇到总线错误。总线错误可以通过查看路由器提供的输出识别show version命令(如果未关机并重新开机也未手工重新加载)。

此问题可以硬件或软件相关的。这是这样错误消息示例:

*** System received a Bus Error exception ***

signal= 0xa, code= 0x18, context= 0x6206b820

PC = 0x606e356c, Cause = 0x6020, Status Reg = 0x3400800

然后路由器重启。有时,然而,路由器进入失败环路,并且重新加载和人工干预要求发生此环路。参考总线错误异常引导程序故障排除总线错误崩溃的环路部分的故障排除技术欲知更多信息。

对于潜在硬件相关问题,请完成这些步骤:

  1. 关掉路由器并且从单元去除端口适配器(PA)。再次接通系统电源,查看问题是否仍然存在。

  2. 如果正确系统重新加载,放置每个PA回到路由器一次一个,注意正确安装(没有总线错误异常)。

  3. 如果系统没有正确重启,它会继续重启,或者显示总线错误异常消息,我们必须进一步进行调查,以确定故障的根本原因。问题也许在I/O控制器或NPE内,或者它可能是软件错误。有关此问题的详细信息,请参阅排除总线错误崩溃故障

持续重启

如果Cisco 7200系列路由器不断地重新启动,在路由器,则某事的重新通电在硬件以后很可能是错误的。Comeplete这些故障排除步骤:

  1. 去除所有卡,除了NPE和I/O控制器卡;然后请重新启动路由器。

  2. 如果它仍然失败,请检查是否有对此的有效镜像。要执行此,您必须直接地连接到路由器的控制台端口。在启动后 60秒内按下Break键,以进入ROMmon模式。从那里,您能遵从在ROMmon恢复程序的步骤设法恢复。

  3. 如果路由器仍然不启动,并且肯定有对此的有效镜像,则NPE和I/O控制器卡很可能有故障。然而,故障可能对NPE或NSE的内存被限制。在这种情况下,请更换内存。

  4. 如果路由器仍然出故障,请替换I/O控制器。

  5. 如果路由器仍然出故障,请替换NPE或NSE。

在NPE-G2和NPE-G1之间的区别

NPE/DifferencesNPE/Differences NPE-G2 NPE-G1 在系统性能的影响
突发流量大小 突发流量大小不是可编程的和总是基于系统缓存线路大小 突发流量大小通过MAC寄存器是可编程的 吞吐量差异能为例如超过缓存线路边界的数据包被看到(32B缓存线路大小的128/129B
联合的中断 纯粹地取决于计时器失效 使用已接收/已传输数据包计时器和编号 对于某个low rate(pps)方案,是可能的发现若干额外的延迟(使用顺序)
输出端口饱和 再来源于和排队 再来源于和排队 一旦端口获得饱和, IOS行为,和有CPU影响
缓存线路大小 当接收缓存线路大小价值数据时, RX DMA将开始移动数据向系统iomem 控制由突发流量大小 超过缓存线路限定范围(n*缓存线路大小+1)的数据包大小的吞吐量降低
中断级别处理 CPU核心速度的~1/10 (例如,以系统总线速度)由于外部I/O 以CPU核心速度(非常快速) 广泛地更改中断级别的功能(例如IPS/FW等等)将看不到x2性能

排除路由器挂起故障

7200系列路由器也许体验路由器死机。挂起是指路由器启动到某个点后不再接受任何命令或键击。也就是说,控制台屏幕到 某种 程度 以后挂起。

hangs不一定是硬件问题,并且,大多时间,是软件问题。若出现路由器死机请参见 “解决路由器死机问题”。

带宽点故障排除

参考的带宽和带宽点需求关于详细信息。

您能以超出在此部分列出的指南的端口适配器配置使用Cisco 7200系列路由器;然而,防止反常现象发生,当路由器是在使用中的时例如—,高CPU (缓慢的性能) —思科强烈建议限制在路由器安装的端口适配器类型根据根据您安装的硬件列出在此部分的链路和的指南。

注意: 您的端口适配器配置必须在上述指南内,在Cisco技术支持中心将排除故障在您的Cisco 7200系列路由器发生的反常现象前。

技术上,您不应该超出在7200的带宽点不由于总线容量,但是由于瞬间总线带宽和内存延迟。换句话说,这是没有CPU加载问题,然而总线带宽问题。有时(不管信息包吞吐量),您从所有同时将获得内存请求,因为所有有在他们的数据。在这种情况下, PCI总线争用不能保证所有PA将被服务,在您获得超出和可能PCI总线超时前。

另一个问题是这影响SRAM分配。有SRAM有限块,并且这被分割对前三个快速接口,因此你的一个快速接口将必须使用DRAM存储池。这增加此接口的内存延迟,并且很可能超出将发生。(只请注释此是与NPE-150和NPE-200相关)。

端口适配器使用资源的多种类型从机箱的和NPE或者NSE。带宽是描述端口适配器资源需求的期限。带宽包括变量例如速度、内存、CPU需求和PCI总线带宽。由于在体系结构上的变化在多年来网络处理引擎,两个方法开发描述端口适配器带宽需求。方法在Bandwidth Resource Requirement列和Bandwidth Points列反射1-6。然而,必须考虑在这些列的信息与在这些部分的信息:

排除端口适配器的故障

这是故障排除资源列表:

排除串行接口故障

下面是串行接口故障检修的参考列表:

报告TAC案例应收集的信息

如果您确定了一个需要更换的组件,请联系您的Cisco合作伙伴或代理商,请求更换导致问题的硬件组件。如果有支持合同同直接思科,请使用TAC案例创建工具(仅限注册用户)开TAC案例和请求硬件替换。请一定要附上以下信息:
  • 显示报错消息的控制台显示内容
  • 显示故障排除步骤及每步骤期间启动顺序的控制台显示内容
  • 发生故障的硬件组件和机箱的序列号
  • 故障排除日志
  • show technical-support 命令的输出


相关信息


Document ID: 16122