路由器 : 思科 12000 系列路由器

排除 Cisco 12000 系列互联网路由器的矩阵 Ping 超时问题和故障

2016 年 10 月 24 日 - 机器翻译
其他版本: PDFpdf | 英语 (2015 年 4 月 22 日) | 反馈


目录


简介

本文解释如何排除故障矩阵ping超时和失败Cisco 12000SERIES互联网路由器的。这样失败是由以下错误消息表示的:

%GRP-3-FABRIC_UNI: Unicast send timed out (3)

并且

%GRP-3-COREDUMP: Core dump incident on slot 3, error: Fabric ping failure (seq:29192)

开始使用前

规则

有关文档规则的详细信息,请参阅 Cisco 技术提示规则

先决条件

本文档没有任何特定的前提条件。

使用的组件

本文档中的信息基于下面的硬件版本。

  • Cisco 12000 系列互联网路由器

本文档中的信息都是基于特定实验室环境中的设备创建的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您是在真实网络上操作,请确保您在使用任何命令前已经了解其潜在影响。

背景

GRP和线卡(LCs)在Cisco 12000SERIES互联网路由器通过Crossbar交换矩阵连接,为多数线卡间通信提供一个高速的物理路径。在消息中通过在GRP和线卡之间在交换矩阵是路由和接收的包括的实际数据包,转发信息、流量统计和多数管理和控制信息。因此,对GRP来说,确保这个路径在正常运转是很重要的。

矩阵PING是运行在GRP和交换矩阵之间四应用程序的之一。处理器间通信(IPC),网络信息包和代码下载是其他。矩阵 ping利用MBUS ping线卡的减缓矩阵接口从而提供部分错误检测算法和keep-alive机制。

在GRP的Cisco Cell Segmentation and Reassembly (CSAR)矩阵接口驱动程序处理在交换矩阵和GRP之间将被发送和接受的消息。这包括矩阵PING。矩阵PING是由软件生成的,每六秒从主GRP被发送到每个线路卡。在线卡收到从GRP时候的ping请求, LC发送回到对GRP的一回复。如果GRP不收到给五个连续矩阵PING (30秒总时间)的任何回复,通过维护总线(MBUS)宣称线卡失败和重置它。

多数时间,线路卡只是太繁忙以至于不能回答从GRP的矩阵PING请求。.这些矩阵ping失败也许由有故障的矩阵卡或bug也造成在思科IOSï ¿  ½软件里。矩阵ping失败的所有可能的原因在下面故障排除部分被列出。

矩阵ping超时,当千兆路由处理器(GRP)发现ping请求在T ofab队列被滞留(入交换矩阵) Cisc o Cell Segmentation and Reassembly (CSAR) applic ation-spec ific integrated c irc uit (ASIC)。在通过交换矩阵把包发到线卡前,此ASIC对切信息包负责到Cisco信元。

当线卡或第二GRP不能回答从主要的GRP的一个矩阵PING请求在交换矩阵,矩阵ping失败发生。这样失败是应该调查的问题症状。

症状

按照Background部分说明, GRP发送矩阵PING对线卡每六秒,并且线卡必须响应。当GRP不能收到对五个连续矩阵PING时的一回复,通过发送一个Request信息重置线卡在维护总线(MBUS),并且如在输出show context slot {-}命令中看到报告软件所制崩溃。

从控制台日志或show log命令,您可以在矩阵PING失效消息前收到以下错误消息:

%GRP-3-FABRIC_UNI: Unicast send timed out (3) 
%GRP-3-FABRIC_UNI: Unicast send timed out (3) 
%GRP-3-FABRIC_UNI: Unicast send timed out (3)

那里第(3)表示主GRP设法发送矩阵PING的线卡插槽。

此消息表明信息包在CSAR ASIC的Tofab队列被滞留在主GRP。如果在2个CSAR缓冲区的任何一个中延迟超过100毫秒,缓冲区被冲满,并且超时消息生成。

如果GRP传送其矩阵PING请求信息,但是线卡不应答或者线卡答案,或者交换矩阵有故障造成信息丢失,您在矩阵PING失效消 息之前将看不到此消息。所以,如果收到错误消息"%GRP-3-FABRIC_UNI",这意味着某事不可能传送到在结构的一slot为100或200 msecs。也许是,由于%GRP-3-FABRIC_UNI,您不能发送保活到LC,并且您最终获得矩阵ping失败以后,在这种情况下, 30秒。然而,您能获得矩阵ping失败,不用"%GRP-3-FABRIC_UNI"反之亦然。

主GRP可以检测线卡或备GRP存在的问题并实时执行core dump。.GRP会通过MBUS发出信息给线卡并要求线卡CPU crash,从而生成core dump。

%LCINFO-3-CRASH: Line card in slot 3 crashed
%GRP-3-COREDUMP: Core dump incident on slot 3, error: Fabric ping failure (seq:29192)

线卡创建core dump,如果用异常冲突信息和相关命令配置(请参阅配置在GSR线卡的Core dump关于关于配置core dump的特定GSR的信息)。合格的字符串在输出show context slot {-}命令中指示重新加载原因。一旦矩阵ping失败,原因总是“软件所制崩溃”。

CRASH INFO: Slot 1, Index 1, Crash at 00:42:45 KST Mon Mar 12 2001
VERSION: 
GS Software (GLC1-LC-M), Version 12.0(18)ST, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) 
TAC Support: http://www.cisco.com/tac 
Compiled Thu 09-Aug-01 22:06 by nmasa 
Card Type: 2 Ports OC3 Channelized to DS1/E1 , S/N CAT00400500 
System exception: sig=23, code=0x24, 

! --- SIG=23 indicates a software-forced crash.
 
context=0x41303B04 
System restarted by a Software forced crash 
STACK TRACE: 
-Traceback= 400C3970 400C1F90 40815D5C 407D3144 400C7488

在线路卡崩溃以后,它传送最初的信息通知主要的GRP。GRP然后等待线卡通过MBUS发送其他关于失败的信息。从线卡获得第一条消息后的几毫秒内GRP会收到完整的dump core。极少数情况后续crash信息没有到达GRP,GRP最多等待10秒,随后GRP会打出错误信息并且通知其他软件组件线卡已经崩溃。

排除故障

在正常路由器操作时,主要的GRP连续ping线卡,并且线卡响应。所有Ping失败是应该调查另一问题的症状。这些问题包括:

注意: 如果失败可以被再次产生,请配置在GRP的no service auto-reset此命令阻止矩阵ping失败引起的线卡重启,您可以通过attach<slot>命令登录线卡获取相关show命令排除故障。

与线卡的问题

  • 最有可能的原因是某个进程长时间阻止了中断造成连续5个矩阵ping没有响应的IOS Bug。尝试到在您的系列的最新的Cisco IOS软件版本避免解决的问题的升级。关于升级协助,请参阅思科下载软件地区

  • 线卡可能长时间施加反应,因此调度器阻止线卡从交换矩阵接受信息。此症状建议与接口拥塞的一问题。请使用以下命令确认这些症状:

    • show controller frfab queue命令在线卡。查看是否有non-IPC队列缓冲区不足或已耗尽。

    • show controllers csar queue命令在GRP。如以下输出示例:所显示,寻找非零值“最大长度的”和“最大长度的”等于" Length "值, :

      router#show controllers csar queue
           1190 Free Q
      
      Slot Length Max Length
        0     0      7
        1     0      2
        2    70     70 
      
      ! -- CSAR queue for slot 2 is building and reaching max length.
      
        3     0      2
        4     0      3
        5     0      0
         ...
      

      CSAR为目的线卡最多缓冲50个包。在50数据包以后,仅矩阵PING信息包排队。如果队列限制然后增加到70, CSAR停止排队所有信息包--包括矩阵PING--对线卡。GRP和所有线卡有64k CSAR存储消息的分段缓冲区。如果这些缓冲区忙碌,路由器使用一排软件保持队列存储消息。它也设置计时器保证矩阵PING消息在此队列太久不坚持。

  • 线卡CPU利用率高--通常在大规模路由表更新或者链路抖动导致BGP会话重置后引发的大量CEF表重新计算。在软件中交换数据流量的时候CPU也可能会高。.常见于早期Engine 0板卡,因为大部分功能通过软件实现。如果这是实际情形,您可以检查线卡的配置和删除可能影响在引擎0 LC的CPU的功能。高CPU利用率可能也归结于bug。确定与show proc cpu命令execute-on slot的<slot->show tech命令execute-on slot的<slot->的CPU利用率是否在路由器运行的Cisco IOS软件版本不支持前面的命令。考虑升级到在您的系列的最新的Cisco IOS软件版本在已知问题附近工作。

  • 线卡IPC缓冲区耗尽此缓冲区用于GRP和线卡交换控制信息。.请参阅在排除故障CEF相关的错误消息的故障排除步骤。如果您的故障排除指向一问题与IPC,请保证您的Cisco 12000SERIES互联网路由器运行至少Cisco IOS软件版本12.0(18)S。此版本介绍一更加大的默认容量5000 IPC缓存的能提高其稳定性和可扩展性。

  • 在线卡的硬件故障。请注意少于10%矩阵ping失败起因于硬件故障。在联系Cisco TAC前请求替换硬件,请尝试以下步骤:

    1. 寻找在矩阵ping失败前打印的IPC超时消息。并且请参阅下面IPC部分

    2. 重新安装线卡。

    3. 为路由器重新通电。

    4. 如果不访问物理访问路由器,请执行hw-module slot <slot -> reload命令执行线卡的手动重新载入。

与交换结构的问题

Cisco 12000SERIES互联网路由器的重点是交换矩阵电路,提供同步线卡和GRP的千兆速度互连。交换矩阵电路包含卡的两种类型:

  • 时钟和调度程序卡(CSC)

  • 交换矩阵卡(SFC)

如果这些卡之一失败, ping消息能不再穿过结构。在这种情况下,应该也看到其他消息指向有故障的矩阵卡的您,例如以下:

%FABRIC-3-CRC: Switch card 18

请使用show controllers fia命令确定您是否有坏CSC或SFC。请使用execute-on all show controllers fia命令获取从所有线卡的输出。比较从GRP的输出与从线卡的输出确定一有故障交换矩阵卡是否需要替换。

以下输出示例:指向一问题与在SLOT 18的sfc0。先插拔板卡,如无效,申请硬件更换。

  Router#show controllers fia 
      Fabric configuration: Full bandwidth redundant 
      Master Scheduler: Slot 17
      From Fabric FIA Errors 
      ----------------------- 
      redund FIFO parity 0   redund overflow 0     cell drops 1 
      crc32 lkup parity  0   cell parity     0     crc32      0 
      Switch cards present    0x001F  Slots  16 17 18 19 20
      Switch cards monitered  0x001F  Slots  16 17 18 19 20 
      Slot:     16         17         18         19         20 
      Name:    csc0       csc1       sfc0       sfc1       sfc2 
             --------   --------   --------   --------   -------- 
      Los    0          0          0          0          0 
      state  Off        Off        Off        Off        Off 
      crc16  0          0          4334       0          0 

! --- Check the CRCs under SFC0 (slot 18)

      To Fabric FIA Errors 
      ----------------------- 
      sca not pres 0          req error     0          uni FIFO overflow 0 
      grant parity 0          multi req     0          uni FIFO undrflow 0 
      cntrl parity 0          uni req       0          crc32 lkup parity 0 
      multi FIFO   0          empty DST req 0          handshake error   0 
      cell parity  0

与GRP的问题

在矩阵ping失败一些报告,路由器在失败前报告循环冗余冗余校验(CRC)错误消息。通过使用show controllers fia命令在GRP和在线卡的执行全部show controllers fia检查在交换矩阵卡的Crc。如果CRC仅在GRP上增加(不在任何线卡增加),则说明GRP有故障。.如果CRC错误继续增加,第一设法重新安装GRP然后请求更换。

与IPC的已知问题

与进程间通信(IPC)软件运行的问题在GRP和线卡之间被解决了以Cisco IOS软件版本12.0S.多种版本 在这种情况下,您应该与矩阵ping超时消息一起看到在日志的一些IPC相关的错误消息。设法运行最新的Cisco IOS软件版本以解决与IPC有关的已知问题。并且请参阅思科下载软件地区关于与选择版本的协助。

与思科快速转发(CEF)的已知问题

如果输出show log命令显示与CEF转发信息库(FIB)如下,涉及的消息类似于那个请参阅排除故障CEF相关的错误消息

%FIB-3-FIBDISABLE: Fatal error, slot 2: IPC failure

有用的 debug 及 show 命令

请使用以下Debug与Show调试指令排除故障矩阵ping超时/故障消息在Cisco 12000SERIES互联网路由器:

  • debug fabric events -打印GRP检测的所有错误。此调试仅在错误情况下生成少量信息。

  • debug fabric ping -打印在矩阵PING进程检测的所有错误由GRP。此调试仅在错误情况下生成少量信息。

获取每重置线卡的以下命令。用适当的插槽编号替换X。

  • execute-on slot X debug fabric events -打印在其ping响应的线卡检测的错误。此命令生成非常少量仅消息和在错误情况。

  • exec slot X debug fabric ping -,当线卡接收矩阵PING时,打印消息。此调试生成一条线路输出了启用的每线卡的每秒钟。

在线路卡崩溃以后,请获取从GRP控制台的以下命令:

  • show context all detail

  • show fabric

  • show controllers fia

  • show controllers csar queue

  • 执行全部show controllers fia

  • show tech

  • show log

也捕获关于卡状态的以下命令:

  • execute-on slot <slot-> show proc cpu

  • execute-on slot <slot-> show controller tofab queue

  • execute-on slot <slot-> show controller tofab stat

  • execute-on slot <slot-> show controller frfab queue

  • execute-on slot <slot-> show controller frfab stat

  • execute-on slot <slot-> show ipc stat

  • execute-on slot <slot-> show ipc queue

  • execute-on slot <slot->显示堆叠

  • execute-on slot <slot-> show tech

如果在遵从所有故障排除步骤以后仍然遇到问题,请收集上面所有必填信息并且呼叫您的Cisco TAC代表进一步排除故障。

这是从一些有用的show命令的输出:

router#show controllers csar 
From Fabric Error Stats 
------------------------ 
0 out of order, 0 unexpected first 
0 unexpected last, 0 unknown rx type, 0 corrupted pak, 0 parity 
0 first/last, 0 sequence, 0 cell avail, 0 reassembly,

To Fabric Stats 
------------------------ 
Slot  Tx Pkts      TX Th Pkts      Rx Pkts      Rx Th Pkts   To Fab timeout 
0     580278       490214          281061       1336470      0 
1     18854        66592           18390        945419       0 
2     6            50824           0            896290       0 
3     0            0               0            0            0 
4     0            51909           0            895430       0 
5     0            0               0            0            0 
6     0            35113           0            880247       0 
7     0            52690           0            52690        0 
8     0            0               0            0            0 
9     0            0               0            0            0 
10    0            0               0            0            0 
11    0            0               0            0            0 
12    0            0               0            0            0 
13    0            0               0            0            0 
14    0            0               0            0            0 
15    0            0               0            0            0 
0 too big, 1 Buf0 free, 1 Buf1 free 
0 Copy fail

Fabric access Error Stats 
-------------------------- 
0 parity errors,  0 bad access size, 0 invalid address 
0 queue full parity, 0 flushed buffer

router#show controllers fia 
Fabric configuration: Full bandwidth, nonredundant fabric 
Master Scheduler: Slot 16

From Fabric FIA Errors 
----------------------- 
redund fifo parity 0          redund overflow 0          cell drops 0 
crc32 lkup parity  0          cell parity     0          crc32      0 
Switch cards present    0x001D    Slots  16 18 19 20 
Switch cards monitored  0x001D    Slots  16 18 19 20 
Slot:     16         17         18         19         20 
Name:    csc0       csc1       sfc0       sfc1       sfc2 
       --------   --------   --------   --------   -------- 
los    0          0          0          0          0 
state  Off        Off        Off        Off        Off 
crc16  0          254        0          0          0  

! --- Check the CRC error here. In this case CSC1 in slot 17.


To Fabric FIA Errors 
----------------------- 
sca not pres 0          req error     0          uni FIFO overflow 0 
grant parity 0          multi req     0          uni FIFO undrflow 0 
cntrl parity 0          uni req       0          crc32 lkup parity 0 
multi FIFO   0          empty dst req 0          handshake error   0 
cell parity  0

您能找到在show controllers fia命令的更多详细信息在如何阅读输出show controller fia命令

router#show fabric 
Dest    ToFab       FrFab     Bad Seq     Unexpected 
Slot    Pkts        Pkts                  Pkts 
---------------------------------------------------- 
Slot0   26327       26327     0           0 
Slot1   26325       26325     0           0 
Slot2   26321       26321     0           0 
Slot4   26315       26315     0           0 
Slot6   26311       26311     0           0 
Slot7   26334       26334     0           0

multicast timeout 0 
failed pak        0 

Current fabric timeout is 6000

fabric send fails 58

报告TAC案例应收集的信息

如果在遵从上面故障排除步骤以后还需要援助并且要创建与Cisco TAC的一服务请求,请附上以下信息到排除故障的矩阵PING问题情况在Cisco 12000SERIES互联网路由器:
  • 在打开案件前被执行的故障排除
  • show technical-support output(在特权模式下)
  • show log 输出或控制台捕获信息(如果可用)
  • execute-on slot经历线路卡崩溃的slot的[slot -] show technical-support
请将您所收集到的上述数据附加在一个非压缩的、纯文本格式(.txt)文件中。通过使用Case Query工具进行上载,您可以将此信息附加到您的案例(仅限于注册用户)。如果不能访问Case Query工具,您可以附上关于案例的相关信息,并在标题栏注明案例编号,然后通过电子attach@cisco.com发送出去。

注意: 若可能,请勿在收集上述信息前手工重新加载也请勿重新启动路由器,这能造成为确定问题的根本原因是需要的重要信息丢失。


相关信息


Document ID: 12421