路由器 : 思科 12000 系列路由器

Cisco 12000 系列互联网路由器线卡崩溃故障排除

2016 年 10 月 24 日 - 机器翻译
其他版本: PDFpdf | 英语 (2015 年 4 月 22 日) | 反馈


交互:本文档对您的 Cisco 设备进行自定义分析。


目录


简介

本文档将介绍如何对 Cisco 12000 系列 Internet 路由器上的板卡崩溃进行故障排除。

先决条件

要求

本文档没有任何特定的要求。

使用的组件

本文档中的信息基于以下软件和硬件版本:

  • 所有 Cisco 12000 系列 Internet 路由器,包括 12008、12012、12016、12404、12406、12410 和 12416。

  • 支持Cisco 12000SERIES互联网路由器的所有Cisco IOSï ¿  ½软件版本。

本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您使用的是真实网络,请确保您已经了解所有命令的潜在影响。

规则

有关文档规则的详细信息,请参阅 Cisco 技术提示规则

背景信息

此部分提供有关如何识别板卡崩溃的背景信息。

识别板卡崩溃

为了快速识别板卡崩溃,请使用 show context summary 命令:

   Router#show context summary 
       CRASH INFO SUMMARY 
         Slot 0 : 0 crashes 
         Slot 1 : 0 crashes 
         Slot 2 : 0 crashes 
         Slot 3 : 0 crashes 
         Slot 4 : 1 crashes 
           1 - crash at 04:28:56 EDT Tue Apr 20 1999 
         Slot 5 : 0 crashes 
         Slot 6 : 0 crashes 
         Slot 7 : 0 crashes 
         Slot 8 : 0 crashes 
         Slot 9 : 0 crashes 
         Slot 10: 0 crashes 
         Slot 11: 0 crashes

如果崩溃影响到路由器本身(不仅仅是板卡),则请参阅路由器崩溃故障排除

收集有关崩溃的信息

为了收集崩溃的相关数据,请使用表 1 中所示的命令。

表 1 - 用于收集崩溃相关数据的命令

命令 说明
show version 提供有关系统硬件和软件配置的一般信息。
show logging 显示路由器的一般日志。
show diag [slot #] 提供有关特定插槽的具体信息:引擎类型、硬件版本和内存配置等等
show context slot [slot #] 提供有关最近崩溃的上下文信息。这通常是在排除板卡崩溃故障时最有用的命令。
core dump 板卡的core dump是崩溃时板卡内存中的全部内容。对于初始故障排除,通常不需要此数据。之后如果断定问题为新的软件 Bug,可能会需要此数据。这种情况下,请参阅在 GSR 板卡上配置core dump

如果从 Cisco 设备上得到 show tech-support(启用模式下)命令的输出,您可以使用来显示潜在问题和解决方法。 要使用,您必须是注册用户,并且必须登录,还要启用 JavaScript。

分析收集的数据

检查 show context slot [slot#] 输出中 sig= 字段的值:

       Router#show context slot 4 
       CRASH INFO: Slot 4, Index 1, Crash at 04:28:56 EDT Tue Apr 20 1999 

       VERSION: 
       GS Software (GLC1-LC-M), Version 11.2(15)GS1a, EARLY DEPLOYMENT RELEASE 
       SOFTWARE (fc1) 
       Compiled Mon 28-Dec-98 14:53 by tamb 
       Card Type: 1 Port Packet Over SONET OC-12c/STM-4c, S/N CAB020500AL 
       System exception: SIG=20, code=0xA414EF5A, context=0x40337424 

       Traceback Using RA 
       STACK TRACE: 
         traceback 4014CFC0 40141AB8 40143944 4014607C 4014A7EC 401499D4 40149BB4 
       40149FD4 40080118 40080104 
       CONTEXT: 
       $0 : 00000000, AT : 40330000, v0 : 00000000, v1 : 00000038 
       a0 : 4094EF58, a1 : 00000120, a2 : 00000002, a3 : 00000001 
       t0 : 00000010, t1 : 3400BF01, t2 : 34008D00, t3 : FFFF00FF 
       t4 : 400A1410, t5 : 00000002, t6 : 00000000, t7 : 4041783C 
       s0 : 4093F980, s1 : 4093F980, s2 : 4094EEF0, s3 : 4094EF00 
       s4 : 00000000, s5 : 00000001, s6 : 00000000, s7 : 00000000 
       t8 : 34008000, t9 : 00000000, k0 : 404D1860, k1 : 400A2F68 
       gp : 402F3070, sp : 4082BFB0, s8 : 00000000, ra : 400826FC 
       EPC : 0x40098824, SREG : 0x3400BF04, Cause : 0x00000000 
       ErrorEPC : 0x4015B7E4

参见表 2,查找与您记录的 SIG 值匹配的错误原因。

表 2 - 查找与 SIG 值匹配的错误

SIG 价值 SIG 名称 错误原因
2 SIGINT 意外的硬件中断。
3 SIGQUIT 因break键而中断。
4 SIGILL 非法操作码异常。
5 SIGTRAP 因断点或者运算异常而中断。
8 SIGFPE 浮点单元(FPU)例外。
9 SIGKILL 预留异常。
10 SIGBUS 总线错误异常。
11 SIGSEGV SegV 异常。
20 SIGCACHE 缓存奇偶校验异常。
21 SIGWBERR 写入总线错误中断。
22 SIGERROR 致命的硬件错误。
23 SIGRELOAD 软件所制崩溃。

注意: 缓存奇偶校验异常 (SIG=20)、总线错误异常 (SIG=10) 和软件所制崩溃 (SIG=23) 占板卡崩溃的 95% 以上。

diag 执行命令

Cisco 12000 系列支持 diag [slot#] 命令,用于测试不同的主板组件。此命令对于硬件相关崩溃的故障排除和故障主板的识别非常有用。

执行测试时,可使用 verbose 选项使路由器显示测试列表。否则,它将只显示“通过测试”或“失败”消息。

注意: 执行此诊断会在测试期间终止板卡的所有活动(通常约五分钟)。

从 Cisco IOS 软件版本 12.0(22)S 开始,Cisco 将 Cisco 12000 系列 Internet 路由器域诊断板卡映像从 Cisco IOS 软件映像中分离。在较早版本中,可以从命令行启动诊断,同时会启动嵌入的映像。为了供应有20 MB闪存卡的客户,线卡域诊断当前存储并且维护作为一定取得到在闪存卡或简单文件传输协议(TFTP)引导程序服务器的独立的镜像,在可以使用前域诊断命令。路由器处理器和交换矩阵域诊断仍然是捆绑的,无需从独立的映像启动。有关详细信息,请参阅 Cisco 12000 系列 Internet 路由器域诊断

这里是 diag [slot#] 命令输出实例:

Router#diag 3 verbose 
Running DIAG config check 
Running Diags will halt ALL activity on the requested slot. 
[confirm] 
CR1.LND10# 
Launching a Field Diagnostic for slot 3 
Downloading diagnostic tests to slot 3 (timeout set to 400 sec.) 
Field Diag download COMPLETE for slot 3 
FD 3> ***************************************************** 
FD 3> GSR Field Diagnostics V3.0 
FD 3> Compiled by award on Tue Aug 3 15:58:13 PDT 1999 
FD 3> view: award-bfr_112.FieldDiagRelease 
FD 3> ***************************************************** 
FD 3> BFR_CARD_TYPE_OC48_1P_POS testing... 
FD 3> running in slot 3 (128 tests) 

Executing all diagnostic tests in slot 3 
(total/indiv. timeout set to 600/200 sec.) 
FD 3> Verbosity now (0x00000001) TESTSDISP 

FDIAG_STAT_IN_PROGRESS: test #1 R5K Internal Cache 
FDIAG_STAT_IN_PROGRESS: test #2 Burst Operations 
FDIAG_STAT_IN_PROGRESS: test #3 Subblock Ordering 
FDIAG_STAT_IN_PROGRESS: test #4 Dram Marching Pattern 
FDIAG_STAT_DONE_FAIL test_num 4, error_code 6 
Field Diagnostic: ****TEST FAILURE**** slot 3: last test run 4, 
Dram Marching Pattern, error 6 
Field Diag eeprom values: run 2 fail mode 1 (TEST FAILURE) slot 3 
last test failed was 4, error code 6 
Shutting down diags in slot 3 

slot 3 done, will not reload automatically

根据遇到的错误,插槽可能会或不会自动重新加载。如果不自动重新加载,则它可能处于阻塞或不一致状态(使用 show diag [slot #] 命令检查),直至手动重新加载。这是正常现象。要手动重新加载卡,请使用 hw-module slot [slot#] reload 命令。

缓存奇偶校验异常

您可以在 show context [slot #] 输出中用 SIG=20 来识别缓存奇偶校验异常。

如果从 Cisco 设备上得到 show tech-support(启用模式下)命令的输出,您可以使用来显示潜在问题和解决方法。 要使用,您必须是注册用户,并且必须登录,还要启用 JavaScript。

存在两种不同的奇偶校验错误:

  • 暂时性奇偶校验错误 - 这种错误在芯片内能量改变使0变为1或将1变为0。在出现软奇偶校验错误的情况下,不必更换主板或任何组件。

  • 永久性奇偶校验错误 - 这种错误在芯片或电路板故障并造成数据损坏。这种情况下,您应该重新安装或者更换受到影响的组件,通常是更换内存条或者主板。在同一个地址出现多个奇偶校验错误时,即存在硬奇偶校验错误。还有更加复杂更难识别的情况,但是,一般来说,如果在较短的时间内(几个星期到几个月)在某个特定内存区域发现多个奇偶校验错误,那么就可以认为是硬奇偶校验错误。

研究显示,暂时性奇偶校验错误的出现频率比硬奇偶校验错误高出10到100倍。

为了排除这些错误,请找一个维护窗口并针对该插槽运行 diag 命令。

  • 如果诊断产生故障,请替换线路卡。

  • 如果没有故障,则很可能是软奇偶校验错误,因而不必替换线路卡(除非在较短的时间内,因奇偶校验错误崩溃第二次)。

总线错误异常

您可以在 show context [slot #] 输出中用 SIG=10 来识别总线错误异常。

如果从 Cisco 设备上得到 show tech-support(启用模式下)命令的输出,您可以使用来显示潜在问题和解决方法。 要使用,您必须是注册用户,并且必须登录,还要启用 JavaScript。

这种类型的崩溃通常与软件有关,但是,如果由于某些原因(例如它是一张崭新的卡或者崩溃是在断电之后才开始),您认为问题可能与硬件有关,因而运行该插槽的 diag 命令。

注意: 已知某些软件 Bug 会导致 diag 命令报告错误,即使硬件没有问题。如果已经更换卡,但是仍在诊断的同一个测试中失败,则可能是受此问题的影响。在该情况下,应将崩溃看作为软件问题。

升级到 Cisco IOS 软件版本系列的最新版本可以排除导致板卡总线错误但已得到修正的所有 Bug。如果升级后崩溃依然存在,请收集相关信息(请参阅收集有关崩溃的信息)、show tech-support 的输出以及您认为可能有用的所有信息(例如最近的拓扑更改或者最近实施的新功能),并与您的 Cisco 支持代表联系。

软件所制崩溃

可以通过 show context [slot #] 输出中的 SIG=23 来识别软件所制崩溃。尽管名称是软件所制崩溃,但这些崩溃并不总是与软件相关。

如果从 Cisco 设备上得到 show tech-support(启用模式下)命令的输出,您可以使用来显示潜在问题和解决方法。 要使用,您必须是注册用户,并且必须登录,还要启用 JavaScript。

软件所制崩溃最常见的原因是“矩阵 Ping 超时”。在正常路由器操作时,路由处理器(RP)连续ping线卡。如果板卡不应答,路由处理器将决定重置板卡。这会导致受影响的板卡出现软件所制崩溃 (SIG=23),且路由器日志中应出现以下错误:

Mar 12 00:42:48: %GRP-3-FABRIC_UNI: 
Unicast send timed out (4) 
Mar 12 00:42:50: %GRP-3-COREDUMP: Core dump incident on slot 4, error: Fabric ping failure

要对矩阵 Ping 超时进行故障排除,需要确定板卡为什么对 Ping 没有响应。可能有多种原因:

  • 板卡的 CPU 使用率很高 - 这可通过 execute-on slot [slot #] show proc cpu 命令验证。如果 CPU 使用率确实很高(95% 以上),请参阅对 Cisco 路由器上的 CPU 使用率过高进行故障排除

  • 有在Inter Process Communication (IPC)的软件Bug或线卡用尽IPC缓冲区。大多数时候,这些软件导致的重新加载都是由软件 Bug 引起的。

    升级到 Cisco IOS 软件版本系列的最新版本可以排除导致矩阵 Ping 超时但已得到修正的所有 Bug。如果升级后崩溃依然存在,请收集相关信息(请参阅获得有关崩溃的信息)、show tech-support 和 show ipc status 的输出以及您认为可能有用的所有信息(例如最近的拓扑更改或者最近实施的新功能),并与您的 Cisco 支持代表联系。

  • 硬件故障 - 如果板卡长期运行良好并且最近没有发生拓扑、软件或功能更改,或者,如果问题发生在撤动或断电后,则原因可能是硬件有缺陷。在受影响的板卡上运行 diag 命令。如果有故障,请更换板卡。如果多个板卡受到影响或者 diag 输出正常,则请更换结构。

%GSRSPA-6-ERRORRECOVER:A Hardware or Software error occurred on Subslot 0.Reason Marvel:TXECCERR Automatic Error recovery initiate

当 MAC 中的 RxFIFO 或 TxFIFO 不可恢复的 ECC 错误中断超过该时间间隔内的阈值,将发生 TXECCERR/RXECCERR 错误。不可恢复的 ECC 错误无法由 ECC 逻辑更正。在 RxFIFO 读取操作期间出现不可恢复的错误时,数据所属的数据包将在 SPI4 接收接口上标记为 EOP/Abort,并被上层丢弃。

这属于硬件问题,并且将在重新加载 SIP/SPA 后得到更正。永久的解决方案是更换 SIP/SPA 以避免该类错误。

其它崩溃

显然,相较于上述两类崩溃,其他崩溃类型并不常见。在许多情况下,diag 命令应能指示是否需要更换卡。如果板卡能够正确无误地通过诊断测试,请考虑升级软件。

建立 TAC 服务请求时应收集的信息

如果您在执行上述故障排除步骤后仍需帮助,并希望使用 Cisco TAC 建立服务请求仅限注册用户),请务必提供以下信息:
  • 在建立服务请求之前执行的故障排除。
  • show technical-support 的输出(如果可能,在启用模式下)。
  • show log 输出或控制台捕获信息(如果可用)。
  • 针对发生板卡崩溃的插槽,execute-on slot [slot #] show tech 的输出。
请将收集到的数据以未压缩的纯文本格式 (.txt) 附加到服务请求中。您可以使用 TAC 服务请求工具仅限注册用户)来加载信息,将信息附加到服务请求中。若无法访问服务请求工具,请将信息以电子邮件附件形式发送到 attach@cisco.com,并在邮件标题栏中输入服务请求编号。

注意: 在收集上述消息之前请不要手动重新加载或重新启动路由器,除非为对 Cisco 12000 系列 Internet 路由器上的板卡崩溃进行故障排除要求您这么做。否则,可能导致确定问题根本原因所需的重要信息丢失。


相关信息


Document ID: 12770