本文解释如何排除故障矩阵ping超时和失败Cisco 12000SERIES互联网路由器的。这样失败是由以下错误消息表示的:
%GRP-3-FABRIC_UNI: Unicast send timed out (3)
并且
%GRP-3-COREDUMP: Core dump incident on slot 3, error: Fabric ping failure (seq:29192)
有关文档规则的详细信息,请参阅 Cisco 技术提示规则。
本文档没有任何特定的前提条件。
本文档中的信息基于下面的硬件版本。
Cisco 12000 系列互联网路由器
本文档中的信息都是基于特定实验室环境中的设备创建的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您是在真实网络上操作,请确保您在使用任何命令前已经了解其潜在影响。
GRP和线卡(LCs)在Cisco 12000SERIES互联网路由器通过Crossbar交换矩阵连接,为多数线卡间通信提供一个高速的物理路径。在消息中通过在GRP和线卡之间在交换矩阵是路由和接收的包括的实际数据包,转发信息、流量统计和多数管理和控制信息。因此,对GRP来说,确保这个路径在正常运转是很重要的。
矩阵PING是运行在GRP和交换矩阵之间四应用程序的之一。处理器间通信(IPC),网络信息包和代码下载是其他。矩阵 ping利用MBUS ping线卡的减缓矩阵接口从而提供部分错误检测算法和keep-alive机制。
在GRP的Cisco Cell Segmentation and Reassembly (CSAR)矩阵接口驱动程序处理在交换矩阵和GRP之间将被发送和接受的消息。这包括矩阵PING。矩阵PING是由软件生成的,每六秒从主GRP被发送到每个线路卡。在线卡收到从GRP时候的ping请求, LC发送回到对GRP的一回复。如果GRP不收到给五个连续矩阵PING (30秒总时间)的任何回复,通过维护总线(MBUS)宣称线卡失败和重置它。
多数时间,线路卡只是太繁忙以至于不能回答从GRP的矩阵PING请求。.这些矩阵ping失败也许由有故障的矩阵卡或IOS软件Bug造成。.矩阵ping失败的所有可能的原因在下面故障排除部分被列出。
矩阵ping超时,当千兆路由处理器(GRP)发现ping请求在T ofab队列被滞留(入交换矩阵) Cisc o Cell Segmentation and Reassembly(CSAR) applic ation-spec ific integrated c irc uit (ASIC)。在通过交换矩阵把包发到线卡前,此ASIC对切信息包负责到Cisco信元。
当线卡或第二GRP不能回答从主要的GRP的一个矩阵PING请求在交换矩阵,矩阵ping失败发生。这样失败是应该调查的问题症状。
按照Background部分说明, GRP发送矩阵PING对线卡每六秒,并且线卡必须响应。当GRP不能收到对五个连续矩阵PING时的一回复,通过发送一个Request信息重置线卡在维护总线(MBUS),并且如在输出show context slot {-}命令中看到报告软件所制崩溃。
从控制台日志或show log命令,您可以在矩阵PING失效消息前收到以下错误消息:
%GRP-3-FABRIC_UNI: Unicast send timed out (3) %GRP-3-FABRIC_UNI: Unicast send timed out (3) %GRP-3-FABRIC_UNI: Unicast send timed out (3)
那里第(3)表示主GRP设法发送矩阵PING的线卡插槽。
此消息表明信息包在CSAR ASIC的Tofab队列被滞留在主GRP。如果在2个CSAR缓冲区的任何一个中延迟超过100毫秒,缓冲区被冲满,并且超时消息生成。
如果GRP传送其矩阵PING请求信息,但是线卡不应答或者线卡答案,或者交换矩阵有故障造成信息丢失,您在矩阵PING失效消息之前将看不到此消息。所以,如果收到错误消息"%GRP-3-FABRIC_UNI",这意味着某事不可能传送到在结构的一slot为100或200 msecs。也许是,由于%GRP-3-FABRIC_UNI,您不能发送保活到LC,并且您最终获得矩阵ping失败以后,在这种情况下, 30秒。然而,您能获得矩阵ping失败,不用"%GRP-3-FABRIC_UNI"反之亦然。
主GRP可以检测线卡或备GRP存在的问题并实时执行core dump。.GRP会通过MBUS发出信息给线卡并要求线卡CPU crash,从而生成core dump。
%LCINFO-3-CRASH: Line card in slot 3 crashed%GRP-3-COREDUMP: Core dump incident on slot 3, error: Fabric ping failure (seq:29192)
线卡创建core dump,如果用异常冲突信息和相关命令配置(请参阅配置在GSR线卡的Core dump关于关于配置core dump的特定GSR的信息)。合格的字符串在输出show context slot {-}命令中指示重新加载原因。一旦矩阵ping失败,原因总是“软件所制崩溃”。
CRASH INFO: Slot 1, Index 1, Crash at 00:42:45 KST Mon Mar 12 2001VERSION: GS Software (GLC1-LC-M), Version 12.0(18)ST, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) TAC Support: http://www.cisco.com/tac Compiled Thu 09-Aug-01 22:06 by nmasa Card Type: 2 Ports OC3 Channelized to DS1/E1 , S/N CAT00400500 System exception: sig=23, code=0x24, ! --- SIG=23 indicates a software-forced crash. context=0x41303B04 System restarted by a Software forced crash STACK TRACE: -Traceback= 400C3970 400C1F90 40815D5C 407D3144 400C7488
在线路卡崩溃以后,它传送最初的信息通知主要的GRP。GRP然后等待线卡通过MBUS发送其他关于失败的信息。从线卡获得第一条消息后的几毫秒内GRP会收到完整的dump core。极少数情况后续crash信息没有到达GRP,GRP最多等待10秒,随后GRP会打出错误信息并且通知其他软件组件线卡已经崩溃。
在正常路由器操作时,主要的GRP连续ping线卡,并且线卡响应。所有Ping失败是应该调查另一问题的症状。这些问题包括:
注意: 如果失败可以被再次产生,请配置在GRP的no service auto-reset。此命令阻止矩阵ping失败引起的线卡重启,您可以通过attach<slot>命令登录线卡获取相关show命令排除故障。
最有可能的原因是某个进程长时间阻止了中断造成连续5个矩阵ping没有响应的IOS Bug。尝试到在您的系列的最新的Cisco IOS软件版本避免解决的问题的升级。关于升级协助,请参阅思科下载软件地区。
线卡可能长时间施加反应,因此调度器阻止线卡从交换矩阵接受信息。此症状建议与接口拥塞的一问题。请使用以下命令确认这些症状:
show controller frfab queue命令在线卡。查看是否有non-IPC队列缓冲区不足或已耗尽。
show controllers csar queue命令在GRP。如以下输出示例:所显示,寻找非零值“最大长度的”和“最大长度的”等于" Length "值, :
router#show controllers csar queue 1190 Free QSlot Length Max Length 0 0 7 1 0 2 2 70 70 ! -- CSAR queue for slot 2 is building and reaching max length. 3 0 2 4 0 3 5 0 0 ...
CSAR为目的线卡最多缓冲50个包。在50数据包以后,仅矩阵PING信息包排队。如果队列限制然后增加到70, CSAR停止排队所有信息包--包括矩阵PING--对线卡。GRP和所有线卡有64k CSAR存储消息的分段缓冲区。如果这些缓冲区忙碌,路由器使用一排软件保持队列存储消息。它也设置计时器保证矩阵PING消息在此队列太久不坚持。
线卡CPU利用率高--通常在大规模路由表更新或者链路抖动导致BGP会话重置后引发的大量CEF表重新计算。在软件中交换数据流量的时候CPU也可能会高。.常见于早期Engine 0板卡,因为大部分功能通过软件实现。如果这是实际情形,您可以检查线卡的配置和删除可能影响在引擎0 LC的CPU的功能。高CPU利用率可能也归结于bug。确定与show proc cpu命令execute-on slot的<slot->或show tech命令execute-on slot的<slot->的CPU利用率是否在路由器运行的Cisco IOS软件版本不支持前面的命令。考虑升级到在您的系列的最新的Cisco IOS软件版本在已知问题附近工作。
线卡IPC缓冲区耗尽此缓冲区用于GRP和线卡交换控制信息。.请参阅在排除故障CEF相关的错误消息的故障排除步骤。如果您的故障排除指向一问题与IPC,请保证您的Cisco 12000SERIES互联网路由器运行至少Cisco IOS软件版本12.0(18)S。此版本介绍一更加大的默认容量5000 IPC缓存的能提高其稳定性和可扩展性。
在线卡的硬件故障。请注意少于10%矩阵ping失败起因于硬件故障。在联系Cisco TAC前请求替换硬件,请尝试以下步骤:
寻找在矩阵ping失败前打印的IPC超时消息。并且请参阅下面IPC部分。
重新安装线卡。
为路由器重新通电。
如果不访问物理访问路由器,请执行hw-module slot <slot -> reload命令执行线卡的手动重新载入。
Cisco 12000SERIES互联网路由器的重点是交换矩阵电路,提供同步线卡和GRP的千兆速度互连。交换矩阵电路包含卡的两种类型:
时钟和调度程序卡(CSC)
交换矩阵卡(SFC)
如果这些卡之一失败, ping消息能不再穿过结构。在这种情况下,应该也看到其他消息指向有故障的矩阵卡的您,例如以下:
%FABRIC-3-CRC: Switch card 18
请使用show controllers fia命令确定您是否有坏CSC或SFC。请使用execute-on all show controllers fia命令获取从所有线卡的输出。比较从GRP的输出与从线卡的输出确定一有故障交换矩阵卡是否需要替换。
以下输出示例:指向一问题与在SLOT 18的sfc0。先插拔板卡,如无效,申请硬件更换。
Router#show controllers fia Fabric configuration: Full bandwidth redundant Master Scheduler: Slot 17 From Fabric FIA Errors ----------------------- redund FIFO parity 0 redund overflow 0 cell drops 1 crc32 lkup parity 0 cell parity 0 crc32 0 Switch cards present 0x001F Slots 16 17 18 19 20 Switch cards monitered 0x001F Slots 16 17 18 19 20 Slot: 16 17 18 19 20 Name: csc0 csc1 sfc0 sfc1 sfc2 -------- -------- -------- -------- -------- Los 0 0 0 0 0 state Off Off Off Off Off crc16 0 0 4334 0 0 ! --- Check the CRCs under SFC0 (slot 18) To Fabric FIA Errors ----------------------- sca not pres 0 req error 0 uni FIFO overflow 0 grant parity 0 multi req 0 uni FIFO undrflow 0 cntrl parity 0 uni req 0 crc32 lkup parity 0 multi FIFO 0 empty DST req 0 handshake error 0 cell parity 0
在矩阵ping失败一些报告,路由器在失败前报告循环冗余冗余校验(CRC)错误消息。通过使用show controllers fia命令在GRP和在线卡的执行全部show controllers fia检查在交换矩阵卡的Crc。如果CRC仅在GRP上增加(不在任何线卡增加),则说明GRP有故障。.如果CRC错误继续增加,第一设法重新安装GRP然后请求更换。
与进程间通信(IPC)软件运行的问题在GRP和线卡之间被解决了以Cisco IOS软件版本12.0S.多种版本 在这种情况下,您应该与矩阵ping超时消息一起看到在日志的一些IPC相关的错误消息。设法运行最新的Cisco IOS软件版本以解决与IPC有关的已知问题。并且请参阅思科下载软件地区关于与选择版本的协助。
如果输出show log命令显示与CEF转发信息库(FIB)如下,涉及的消息类似于那个请参阅排除故障CEF相关的错误消息:
%FIB-3-FIBDISABLE: Fatal error, slot 2: IPC failure
请使用以下Debug与Show调试指令排除故障矩阵ping超时/故障消息在Cisco 12000SERIES互联网路由器:
debug fabric events -打印GRP检测的所有错误。此调试仅在错误情况下生成少量信息。
debug fabric ping -打印在矩阵PING进程检测的所有错误由GRP。此调试仅在错误情况下生成少量信息。
获取每重置线卡的以下命令。用适当的插槽编号替换X。
execute-on slot X debug fabric events -打印在其ping响应的线卡检测的错误。此命令生成非常少量仅消息和在错误情况。
exec slot X debug fabric ping -,当线卡接收矩阵PING时,打印消息。此调试生成一条线路输出了启用的每线卡的每秒钟。
在线路卡崩溃以后,请获取从GRP控制台的以下命令:
show context all detail
show fabric
show controllers fia
show controllers csar queue
执行全部show controllers fia
show tech
show log
也捕获关于卡状态的以下命令:
execute-on slot <slot-> show proc cpu
execute-on slot <slot-> show controller tofab queue
execute-on slot <slot-> show controller tofab stat
execute-on slot <slot-> show controller frfab queue
execute-on slot <slot-> show controller frfab stat
execute-on slot <slot-> show ipc stat
execute-on slot <slot-> show ipc queue
execute-on slot <slot->显示堆叠
execute-on slot <slot-> show tech
如果在遵从所有故障排除步骤以后仍然遇到问题,请收集上面所有必填信息并且呼叫您的Cisco TAC代表进一步排除故障。
这是从一些有用的show命令的输出:
router#show controllers csar From Fabric Error Stats ------------------------ 0 out of order, 0 unexpected first 0 unexpected last, 0 unknown rx type, 0 corrupted pak, 0 parity 0 first/last, 0 sequence, 0 cell avail, 0 reassembly,To Fabric Stats ------------------------ Slot Tx Pkts TX Th Pkts Rx Pkts Rx Th Pkts To Fab timeout 0 580278 490214 281061 1336470 0 1 18854 66592 18390 945419 0 2 6 50824 0 896290 0 3 0 0 0 0 0 4 0 51909 0 895430 0 5 0 0 0 0 0 6 0 35113 0 880247 0 7 0 52690 0 52690 0 8 0 0 0 0 0 9 0 0 0 0 0 10 0 0 0 0 0 11 0 0 0 0 0 12 0 0 0 0 0 13 0 0 0 0 0 14 0 0 0 0 0 15 0 0 0 0 0 0 too big, 1 Buf0 free, 1 Buf1 free 0 Copy failFabric access Error Stats -------------------------- 0 parity errors, 0 bad access size, 0 invalid address 0 queue full parity, 0 flushed bufferrouter#show controllers fia Fabric configuration: Full bandwidth, nonredundant fabric Master Scheduler: Slot 16From Fabric FIA Errors ----------------------- redund fifo parity 0 redund overflow 0 cell drops 0 crc32 lkup parity 0 cell parity 0 crc32 0 Switch cards present 0x001D Slots 16 18 19 20 Switch cards monitored 0x001D Slots 16 18 19 20 Slot: 16 17 18 19 20 Name: csc0 csc1 sfc0 sfc1 sfc2 -------- -------- -------- -------- -------- los 0 0 0 0 0 state Off Off Off Off Off crc16 0 254 0 0 0 ! --- Check the CRC error here. In this case CSC1 in slot 17.To Fabric FIA Errors ----------------------- sca not pres 0 req error 0 uni FIFO overflow 0 grant parity 0 multi req 0 uni FIFO undrflow 0 cntrl parity 0 uni req 0 crc32 lkup parity 0 multi FIFO 0 empty dst req 0 handshake error 0 cell parity 0
您能找到在show controllers fia命令的更多详细信息在如何阅读输出show controller fia命令。
router#show fabric Dest ToFab FrFab Bad Seq Unexpected Slot Pkts Pkts Pkts ---------------------------------------------------- Slot0 26327 26327 0 0 Slot1 26325 26325 0 0 Slot2 26321 26321 0 0 Slot4 26315 26315 0 0 Slot6 26311 26311 0 0 Slot7 26334 26334 0 0multicast timeout 0 failed pak 0 Current fabric timeout is 6000fabric send fails 58
如果在遵从上面故障排除步骤以后还需要援助并且要创建与Cisco TAC的一服务请求,请附上以下信息到排除故障的矩阵PING问题情况在Cisco 12000SERIES互联网路由器: |
---|
注意: 若可能,请勿在收集上述信息前手工重新加载也请勿重新启动路由器,这能造成为确定问题的根本原因是需要的重要信息丢失。 |