路由器 : 思科 7600 系列路由器

网络常见故障排查手册

2010 年 4 月 28 日 - 原创文档
其他版本: PDFpdf | 反馈

网络常见故障排查手册

目录

思科C7500路由器支持
C7500相关术语
Interpreting Reason Codes 5
排除路由器RSP崩溃故障
排除路由器VIP崩溃故障
排除思科路由器CPU利用率过高的故障
排除内存故障
是什么引起 “%RSP-3-RESTART: cbus Complex”?
排除流量延迟或数据包丢弃故障
思科C7200路由器支持
C7200相关术语
排除SNA相关故障
思科C7600路由器支持
排除 ATM模块及链路故障
ATM链路不能正常建立或产生ATM B1/B2/B3 decleared 告警
SIP-400及相关子卡故障
思科Catalyst系列交换机支持
排除 Catalyst 6000系列交换机崩溃故障
Native 模式Catalyst 6000系列交换机
混合模式(Hybrid)Catalyst 6000系列交换机.
排除Catalyst 6000系列交换机模块不在线或发生故障的故障
Native模式 Catalyst 6000系列交换机
混合模式(Hybrid) Catalyst 6000系列交换机.
排除Catalyst 6000系列交换机上的CPU利用率过高的故障
常见原因
排除Catalyst 4000/4500系列交换机 IOS监视器上CPU利用率过高的故障
排除Catalyst交换机上的性能缓慢的问题
思科防火墙支持
排除防火墙崩溃故障
排除防火墙(7.x)上的 VPN连接故障.
排除IOS路由器上的 VPN连接故障
排除防火墙连接故障
排除防火墙NAT不通问题
思科GSR支持
GSR相关术语
GSR 告警卡出现告警信息
GSR 电源模块故障
GSR Engine2 Module QOS Problem

思科C7500路由器支持

1. C7500相关术语

  • RSP: Route Switch Processor(路由交换处理器)
  • VIP: Versatile Interface Processor(通用处理器)

2. Interpreting Reason Codes

在路由器的控制台端口的信息输出中,一些IOS软件版本的输出信息自身包括错误原因。

例如,以下输出信息中 22就是Reason Code:

%VIP2-1-MSG: slot4 System exception: sig=22, code=0x0, context=0x603B91E8This table provides a list of possible SIG values and the reason for the error:

SIG值 错误原因
2 异常硬件中断
3 由于键盘出入‘break’引起退出
4 非法opcode异常
5 由于断点或者一个算法异常引起退出
8 浮点运算异常
9 预留引起的异常
10 总线错误引起的异常
11 SegV引起的异常
20 缓存奇偶校验引起的异常
21 写总线错误中断
22 致命硬件错误
23 软件原因路由器崩溃

3. 排除路由器RSP崩溃故障

信息收集信息收集工作列表
  • show clock
  • show version
  • show stacks
  • show context
  • show tech-support
  • console log
  • syslog
  • crashinfo
常见问题:处理器内存奇偶校验错误(PMPE)

奇偶校验错误有两种不同类型:

  • 软奇偶校验错误 ----- 当芯片内部的能级(如一个1或一个0)发生变化时出现软奇偶校验错误---大多是宇宙辐射的结果。被CPU引用时,它们会导致系统崩溃(如果错误出现在不能恢复的区域)或恢复其他系统 (例如,如果错误出现在分组内存[MEMD]中,CyBus Complex会重启)。出现软奇偶校验错误时,不需要切换主板或任何组件。
  • 硬奇偶校验错误 ----- 发生会导致数据破坏(所有时间或大多数时间不是坏事)的芯片或主板故障时,会出现硬奇偶校验错误。在这种情况下,您需要重启或更换受影响的组件,通常是内存芯片交换或主板交换。当我们看到同一地址上发生多个奇偶校验错误时,我们就说出现了硬奇偶校验错误。还有一些更复杂的更难识别的情况;但通常情况下,如果我们在相对较短的时间(几周到几月)内看到特定内存区域发生多个奇偶校验错误,就可以认为发生了硬奇偶校验错误。

研究表明,软奇偶校验错误出现的频率是硬奇偶校验错误的10到100倍,因此我们强烈建议在更换任何组件之前等待第二个奇偶校验错误的出现,因为这样可以大大减少对网络的影响。

4. 排除路由器VIP崩溃故障

信息收集工作列表
  • Show clock
  • show tech-support
  • show controller vip [x] tech-support
  • show logging
  • VIP crashinfo file

另一个好办法是采用下列格式创建一份VIP崩溃总结文件:

  • show version
  • show diag slot [x]
  • Crashinfo file excerpt
  • Syslog excerpt

常见崩溃:处理器内存奇偶校验错误(PMPE)

下图显示了CIP崩溃的故障树分析。

Vip Crash

 

5. 排除思科路由器CPU利用率过高的故障

信息收集工作列表
  • show processes cpu
  • show interfaces
  • show interfaces switching
  • show interfaces stat
  • show align
  • show version
  • show log

如果路由器完全无法访问,首先重启它。然后定期收集上述命令的输出,show log(显示日志) 命令除外,这些命令的信息应当记录到系统日志服务器上。收集输出的间隔时间应当是五分钟。您可以使用这种UNIX外壳脚本来以手动方式或自动收集数据。

6. 排除内存故障

信息收集工作列表:
  • show processes memory(每天2-3 次)
  • show memory
  • show tech-support
  • show log
  • show buffer old
  • show buffer pool (small - middle - big - verybig - large - huge)
  • show buffer pool (small - middle - big - verybig - large - huge) dump

内存分配故障意味着:

  • 路由器使用了所有可用内存(临时或永久)
  • 内存被分成小块,路由器找不到可以使用的内存块。使用处理器内存(思科互联网操作系统[IOS]使用)或分组内存(入局和出局数据包使用)时可能发生这种情况。
“处理器”池内存分配故障
  • 检查您的IOS软件版本或功能集的内存要求。
  • 如果可能,升级到最新IOS软件版本。
  • 检查正常或异常程序使用的大量内存。如果需要,增加更多内存空间。
  • 检查是否有渗漏或碎片(高端路由器上的缓冲渗漏)
  • 收集相关信息,联系TAC。

7. 是什么引起 “%RSP-3-RESTART: cbus Complex”?

路由器需要重新分割它的分组内存(MEMD)时会出现Cbus Complex。发生Cbus Complex时,所有接口处理器都被重装。然后每个IP设备从路由/交换处理器(RSP)上下载它的微码。这将引起大约2分钟的流量传输中断。

当切割算法使用的某个参数被修改时(如接口的数量、带宽和最大传输单位(MTU)),就会发生Cbus Complex。下面是可能触发Cbus Complex的一些事件:

  • 微码重装命令
  • 配置中的MTU变化
  • 接口处理器的在线插拔(OIR)
  • 接口崩溃(xIP)
  • 接口上检测到“输出被冻结”

以下情况下,一定形式的错误状态(如奇偶校验错误)会出现在CyBus (链接RSP和 IP的总线)上或 MEMD中:

  • 如果Cbus Complex是由微码重载命令、配置中MTU大小的变化或OIR引起,则不需要担心。
  • MEMD被切割的次数可以使用show controller cbu(显示控制器cbu)命令确认。

8. 排除流量延迟或数据包丢弃故障

信息收集工作列表
  • show processes cpu

如果 CPU利用率很高,请参见“排除CPU过高故障”部分。

如果高 CPU程序是“ip input”,考虑输入队列丢弃,检查 :

  • 故障原因分析(Traceroute)
  • 显示接口
  • 显示ip流量
  • 显示接口切换
  • 显示接口状态
  • ip 记帐mac-地址
  • 显示接口mac-记帐

思科C7200路由器支持

1. C7200相关术语

  • NSE: Network Services Engine(网络服务引擎)
  • NPE: Network Process Engine(网络处理引擎)

2. 排除SNA相关故障

信息收集工作列表
  • 故障发生时,首先采用以下命令收集信息:
show snasw link detail
show dlsw circuit detail
show dlsw circuit history
show snasw pdlog detail all
show snasw statistics
show snasw rtp
show snasw dlctrace detail
show snasw session
  • 对于进一步root cause的分析,建议采用以下命令收集信息:
  1. 打开dlctrace,并采用analyser格式,命令如下:
    snasw dlctrace buffer-size 16000 frame-size auto-terse format ana
  2. 等待5分钟
  3. 停止dlcstrace,命令如下:
    snasw stop dlctrace
  4. 下载dlctrace,命令如下:
    snasw dump dlctrace
  5. 关闭dlctrace,命令如下:
    no snasw dlctrace
  6. 打开ipstrace,命令如下:
    snasw ipstrace buffer-size 16000
  7. 等待5分钟
  8. 停止ipstrace
    snasw stop ipstrace
  9. 下载ipstrace
    snasw dump ipstrace
  10. 关闭ipstrace
    no snasw ipstrace

思科C7600路由器支持

1.排除 ATM模块及链路故障

1.1. ATM链路不能正常建立或产生ATM B1/B2/B3 decleared 告警

信息收集工作列表
  • Show ip interface ATM1/0/0.50(举例)
  • Show controllers ATM1/0/0 (每30秒收集一次,共3次,观察B1/B2/B3是否增长)
  • 如果发现B1/B2/B3增长,建议进行自环测试:
    首先将ATM时钟模式更改为internal,然后自环,收集三次 show controllers ATMx/x/x
  • 通过自环后的命令检查B1/B2/B3是否有增长,如果没有增长则说明硬件无问题,需要继续查找物理链路的问题;

1.2. SIP-400及相关子卡故障

信息收集工作列表
  • l Show logging
  • show diagnostic result module all detail
  • Show tech-support
  • Show hw-module slot x logging
  • Show hw-module slot x tech-support

思科Catalyst系列交换机支持

1.排除 Catalyst 6000系列交换机崩溃故障

1.1. Native 模式Catalyst 6000系列交换机

信息收集工作列表
  • 收集RP和SP的崩溃信息文件。
    检查命令:
  • dir bootflash:
  • dir sup-bootflash:
  • dir slavebootflash:
  • dir slavesup-bootflash:
  • dir dfc#module_#-bootflash: (DFC配备的模块自动复位)

使用命令"more"来查看和记录 crashinfo文件会话(或者通过TFTP将崩溃信息发送到TFTP 服务器)

  • more bootflash:<crash_file_name>
  • more sup-bootflash:<crash_file_name>
  • more dfc#module_#-bootflash:<crash_file_name>
  • or
  • show file bootflash:<crash_file_name>
  • show file sup-bootflash:<crash_file_name><
  • show file dfc#module_#-bootflash:<crash_file_name>
  • show tech-support
  • show logging

注意:定期检查bootflash,如果sup-bootflash/bootflash已满,请使用 “delete(删除)” 和"squeeze(压缩)" 命令来永久删除不需要的文件,为新的crashinfo文件腾出空间。

若欲了解有关如何排除运行IOS的6500交换机的故障的更多信息,请参考以下链接:

http://www.cisco.com/warp/public/473/193.html

1.2. 混合模式(Hybrid)Catalyst 6000系列交换机

信息收集工作列表
  • l 从SUP 和 MSFC中收集show tech和show log
  • show version
  • show log buff 1023
  • show tech-support from the sup and msfc
  • show system(8.3.1版之后增加了CatOS的Crashinfo支持,将crashinfo从bootflash拷贝到TFTP服务器)

若欲了解有关如何排除运行CatOS的6500交换机的故障的更多信息,请参考以下链接:

http://www.cisco.com/en/US/customer/products/hw/switches/ps700/products_tech_note09186a008015504b.shtml

2. 排除Catalyst 6000系列交换机模块不在线或发生故障的故障

2.1 Native模式 Catalyst 6000系列交换机

故障现象
  • show module命令的输出显示下列状态之一:
  • 其他(other)
  • 未知
  • 故障
  • errdisable
  • 电源拒绝(power-deny)
  • 电源已坏(power-bad)
  • 琥珀色或红色状态指示灯亮。
信息收集工作列表
  • show mod <mod-no>
  • show power
  • remote command switch show eobc
  • remote command switch show scp counters
  • remote command switch show scp status
  • remote command switch test scp ping <mod>
  • diagnostic level complete
  • hw-module module <mod-no> reset
  • show diagnostic module <mod-no>
  • show tech
  • show logg
  • show idprom mod <mod-no>
  • remote command switch show buffers | begin EOBC
常见原因/解决方案

电源拒绝(power-deny) - 提供给模块的电源不够,转到第2步。

电源已坏(power-bad) - 我们能够看到线路卡但不能分配电源,可能是因为我们不能读取模块的SRROM内容,以确定线路卡类型或某些其他相关问题,转到第12步。

其他 - 很可能是scp通信中断。执行步骤3到6,然后执行步骤7到9。

故障/未知 - 很可能是模块或插槽出错,但必须通过执行步骤7到步骤9来进行确认,也可以常识重启模块或将模块转移到另一个插槽中。在同一插槽中尝试其他模块。

err-disable(错误-禁用) – 查看'show logg' (步骤11),看看是否有关于模块为什么被

err-disable (错误-禁用)的任何日志。

2.2 混合模式(Hybrid) Catalyst 6000系列交换机

故障现象
  • 交换机上的显示模块命令不能识别插入插槽的线路卡。
  • 线路卡指示灯状态不是绿色。
信息收集工作列表
  • show tech support from the sup and msfc
  • show environment power
  • show outband
  • show outband ctr
  • show scp stat
  • show scp failcnt
  • show scp process
  • show scp module (三次)
  • show logg buff 1023

在计划的停机时间内请执行:

  • test scp <module#>

设置诊断模式,在交换机上执行:

  • set test diaglevel complete

然后重启模块。

重启模块之后,捕捉以下命令的输出:

  • show test all
常见原因/解决方案

与2.1相同

3. 排除Catalyst 6000系列交换机上的CPU利用率过高的故障

信息收集工作列表
  • show process cpu
  • show tech
  • show log
  • show ip interface
  • show ip cef summary
  • show spantree <vlan>
  • show spantree statistics
  • show mac
  • show system
  • show logging buffer -1023 (catos)
  • show mls cef (catos)
  • show ip cef summary
常见原因
  • IP不能到达
  • 在流缓存表中使用了CEF FIB表空间
  • 经过优化的ACL日志
  • 数据包速率限制到CPU
  • 不正确配线引起的VLAN的物理合并
  • 广播风暴
  • BGP 下一跳地址追踪(BGP扫描仪程序)
  • 非RPF多播流量
  • 显示命令
  • Exec程序
  • BPDU风暴
  • SPAN会话

4. 排除Catalyst 4000/4500系列交换机 IOS监视器上CPU利用率过高的故障

故障现象

运行思科IOS软件的思科Catalyst 4500监视器上会出现CPU利用率过高的现象。

由于Catalyst 4500 CPU的数据包处理结构体系,20%- 50%的CPU利用率属于正常。因此,首要步骤是了解当前配置和网络设置下交换机的基线CPU利用率。

信息收集工作列表
  • show processes cpu
  • show platform health
  • 如果高度活跃的程序是K2CpuMan Review,则执行以下步骤:
    Switch#show platform cpu packet statistics
    Switch#show platform cpu packet driver
    Switch(config)#configure terminal
    Switch(config)#monitor session 1 source cpu queue all rx
    Switch(config)#monitor session 1 destination interface gigabitethernet 1/3

    注意:目的地接口连接到数据包监视器或运行数据包Sniffer软件的管理员笔记本电脑。

  • 检查是否有过量的管理流量,如SNMP轮询
  • 检查网络中是否有STP问题:
    show spanning-tree detail (捕捉 3x)
    show spanning-tree summary
    show interface link
    show log

5. 排除Catalyst交换机上的性能缓慢的问题

故障现象

出现性能缓慢、连接断续或数据包丢失的情况。

信息收集工作列表

交换机的很多性能问题都与数据链接错误有关,因此请检查下列症状是否是可能的原因:

  • 已知网络接口卡(NIC)驱动问题
  • 速度和双工不匹配
  • 自动协商问题
  • 布线问题
  • 首先,请查看端口指示灯。它们可以显示链路状态或错误状况(红色或橘黄色)
  • 发出下列命令,查看以上症状:
    show tech-support
    show logging
    show controllers ethernet-controller
    show interface

若欲了解有关如何排除交换机端口和接口问题的更多信息,请参看以下链接:

http://www.cisco.com/en/US/customer/products/hw/switches/ps700/products_tech_note09186a008015bfd6.shtml#leds

思科防火墙支持

1. 排除防火墙崩溃故障

信息收集工作列表
  • show tech
  • show crash
  • Syslog (当问题发生时)

2. 排除防火墙(7.x)上的 VPN连接故障

信息收集工作列表
  • show tech (当问题发生时)
  • show crypto isakmp sa (当问题发生时)
  • show crypto ipsec sa(当问题发生时)
  • syslog (当问题发生时)
  • debug crypto isakmp 255(当问题发生时)
  • debug crypto ipsec(当问题发生时)

3. 排除IOS路由器上的 VPN连接故障

信息收集工作列表
  • *show tech (当问题发生时)
  • *show crypto isakmp sa(当问题发生时)
  • *show crypto ipsec sa(当问题发生时)
  • show crypto map(当问题发生时)
  • syslog (当问题发生时)
  • debug crypto isakmp (当问题发生时)
  • debug crypto ipsec(当问题发生时)

4. 排除防火墙连接故障

信息收集工作列表
  • show tech (当问题发生时)
  • show xlate / show conn with affected source/destination IP
  • collect syslog(当问题发生时)
  • show service-policy
  • show asp-drop
  • 查看操作详情

1. 收集系统日志(当问题发生时)

-----------------------

logging enable
logging timestamp
logging standby
logging buffer-size 1048576
logging monitor info
logging buffered informational
logging trap informational
logging host outside 172.16.200.2 <--系统日志服务器的IP

2. 显示asp-drop:

-------------------------

"clear service-policy global"
"clear asp drop "

如果问题仍然存在,请收集下列信息:

"show local-host AffectedclientIP detail" (当连接失败时)
"show service-policy" 每60秒钟2次,当连接失败时, "show asp drop"每60秒钟2次。

-------------------------

3. 收集

show conn detail" "show xlate debug" "show tech " 关系到受影响的客户端IP(当问题发生时)。

4. 捕捉Sniffer Trace:

按照下列操作,在防火墙内部和外部捕捉流量:

access-list 101 extended permit ip host 1.1.1.1 host 2.2.2.2<---1.1.1.1 & 2.2.2.2 是客户端、服务器的IP。
access-list 101 extended permit ip host 2.2.2.2 host 1.1.1.1

capture CAPOUTSIDE access-list 101 buffer 1024000 interface outside
capture CAPINSIDE access-list 101 buffer 1024000 interface inside

show capture CAPOUTSIDE
show capture CAPINSIDE,查看捕捉到的数据包。

copy /pcap capture:CAPOUTSIDE  tftp:1.1.1.1/CAPOUTSIDE.pcap,收集捕捉到的数据包。通过ethereal (www.ethereal.com)查看。

5. 排除防火墙NAT不通问题

信息收集工作列表

1. 确认业务数据是否被正确的转发到相应的防火墙设备上:

  1. show failover | 查看是否有主备切换
  2. show interface| 每分钟查看一次,共三次,确认数据包计数增长
  3. show access-list|每分钟查看一次,共三次,查看相应的ACL计数器是否有增长(安全类的ACL和用于策略地址转换的ACL)

2. 确认业务流量被正常地转发到相应的防火墙设备后,查看NAT功能模块是否工作正常:

  1. show xlate debug| 收集5次该信息,确认地址转换表项是否建立及建立相应的计时器是否被刷新
  2. show route| 是否有路由触发表项建立
  3. show connection detail| 查看4层表项进一步确认问题点是发生在3层还是4层
  4. show tech| 基础设备信息收集

3. 业务相关性信息收集:

  1. Syslog Server信息收集
  2. 描述哪类源IP网段及目的IP网段业务受到影响;

思科GSR支持

1. GSR相关术语

  • WRED: Weighted Random Early Detection(加权随机早期检测)
  • MDRR: Modified Deficit Round Robin(带低延迟排序的修改后差分循环)
  • SFC: Switch Fabric Cards(交换矩阵卡)
  • CSC: Clock Scheduler Cards(时钟调度卡)
  • VOQ: Virtual Output Queues(虚拟输出队列)
  • CEF: Cisco Express Forwarding(思科快速转发)
  • FIB: Forwarding Information Base(转发信息库)
  • PRP-2: Performance Route Processors - 2(性能路由处理器-2)

2. GSR 告警卡出现告警信息

故障现象
  • GSR Alarm Card(告警卡)出现Major LED告警信息。
信息收集工作列表
  • Show clock
  • Sow log
  • Show tech
  • show diag summary
  • show environment all
  • show led

3. GSR 电源模块故障

故障现象
  • GSR 电源模块故障。

信息收集工作列表

  • show clock
  • show log
  • show tech
  • show diag summary
  • show monitor event-trace power_manage
  • show gsr power detail internal all
  • show gsr power-mgr
  • show environment power

4. GSR Engine2 Module QOS Problem

故障现象
  • GSR Engine2引擎当端口流量未满时,QoS策略开始丢弃数据包。
信息收集工作列表
  • show clock
  • show log
  • show tech
  • attach to slot [x] LC
  • execute "sh contr frfab alpha features"
  • execute "sh contr frfab alpha counter 14"
  • execute "sh contro"
  • execute "show contro frf queue all drr"
  • 建议对GSR的各个Class的流量进行长期的监控及纪录,关注各个流量走势;举例如下:
    Class-map: 21app (match-any) (1084/6)
      38664 packets, 30258633 bytes
      5 minute offered rate 528000 bps, drop rate 0 bps ――>该数值采样时间需要结合各个业务流量特点
      Match: ip dscp 26  (1085)
      Class of service queue: 2
      Tx Queue (DRR configured)
      bandwidth [kbps]      bandwidth [%]     Weight
      700                   4                 376
      Tx queue-limit config
      Queue 2: queue-limit 451 cells (default)
      Threshold drop 0 packets, 0 bytes
      Current queue-depth: 65 cells, Maximum queue-depth: 129 cells ――>Current queue-depth值
    要注意观察是否有长时间保持“非零”状态,如果长时间非零而且接近queue-limit则需要重点关注;此外观察
    Maximum queue-depth值是否超出queue-limit,同时还在持续增长
生产业务恢复
  • 从目前TAC的测试结果来看,只有当总带宽超出额定带宽时,才会发生丢包现象,因此GSR再发生类似问题时,可以利用日常对各Class的流量统计结果,进行统一带宽调整;
  • 如果问题仍未解决或者怀疑为硬件/软件故障,通过调整路由策略,将流量调整至C7609侧;