交换机 : Cisco Nexus 7000 系列交换机

排除故障在连结7000系列交换机的通用硬件和体系结构问题

2015 年 8 月 28 日 - 机器翻译
其他版本: PDFpdf | 英语 (2015 年 5 月 15 日) | 反馈

简介

本文为运行Cisco NX-OS系统软件的Cisco Nexus 7000系列交换机的通用硬件和体系结构问题提供一个简要说明和解决方案。

注意:本文档中描述的 syslog 和错误消息的确切格式可能会稍有不同。不同之处取决于 Supervisor 引擎上运行的软件版本。

贡献用伊冯Shirshin和Naveen Venkateshaiah, Cisco TAC工程师。

问题:SpineControlBus失败

脊椎控制试验为连结7000 Supervisor失效:

Nexus7000# show module internal exceptionlog module 5
...
System Errorcode  : 0x418b0022 Spine control test failed
Error Type        : Warning
PhyPortLayer      : 0x0
Port(s) Affected  : none
Error Description : Module 10 Spine Control Bus test Failed
...
         11) SpineControlBus E
                Error code ------------------> DIAG TEST ERR DISABLE
                Total run count -------------> 1597800
                Last test execution time ----> Mon May 27 21:57:17 2013
                First test failure time -----> Sun Nov 20 00:30:55 2011
                Last test failure time ------> Mon May 27 21:57:17 2013
                Last test pass time ---------> Mon May 27 21:56:47 2013
                Total failure count ---------> 33
                Consecutive failure count ---> 1
                Last failure reason ---------> Spine control test failed

解决方案

此isue与Cisco Bug ID CSCuc72466涉及。参考的连结7000 FAQ :什么是推荐的操作采取,当SpineControlBus测试失败?

问题:在NVRAM找到的坏区

NVRAM错误在诊断事件出现:

Nexus7000#show diagnostic events
1) Event:E_DEBUG, length:97, at 9664 usecs after Wed Dec  5 01:03:42 2012
    [103] Event_ERROR: TestName->NVRAM TestingType->health monitoring module->5
Result->fail Reason->
#show diagnostic result module 5 test NVRAM detail
 4) NVRAM-------------------------> E
                Error code ------------------> DIAG TEST ERR DISABLE
                Total run count -------------> 52596
                Last test execution time ----> Wed Dec  5 01:03:41 2012
                First test failure time -----> Tue Dec  4 23:28:45 2012
                Last test failure time ------> Wed Dec  5 01:03:42 2012
                Last test pass time ---------> Tue Dec  4 23:23:41 2012
                Total failure count ---------> 20
                Consecutive failure count ---> 20
                Last failure reason ---------> Bad blocks found on nvram

这是硬件问题、Supervisor引擎失败或者一个瞬变问题。

解决方案

  1. 重新运行NVRAM测验为了发现这是否是假告警。输入这些命令为了禁用和重新授权给诊断测试(示例,如果给为问题模块5) :
    • 没有diagnostic monitor模块5测验NVRAM
    • diagnostic monitor模块5测验NVRAM

    输入detail命令show diagnostic result module 5测验的NVRAM为了发现结果test命令。

  2. 如果NVRAM测试再失败,请重新安装模块5.观察show diagnostic result module 5show module命令的结果。
  3. 如果模块再出故障,请提高退货授权(RMA)要求在问题slot的Supervisor。

问题:模块9微型闪存失败

其中一或所有这些在Supervisor 2/Supervisor 2E被看到:

  • 错误消息:
    DEVICE_TEST-2-COMPACT_FLASH_FAIL: Module 5 has failed test CompactFlash 
    20 times on device Compact Flash due to error The compact flash power test failed.
  • 无法保存设置。
  • 诊断测试失败:
           Test results: (. = Pass, F = Fail, I = Incomplete,
           U = Untested, A = Abort, E = Error disabled)
           7) CompactFlash E
                   Error code ------------------> DIAG TEST ERR DISABLE
                   Total run count -------------> 23302
                   Last test execution time ----> Sun Apr 13 10:07:30 2014
                   First test failure time -----> Sun Apr 13 00:37:41 2014
                   Last test failure time ------> Sun Apr 13 10:07:40 2014
                  Last test pass time ---------> Sun Apr 13 00:07:41 2014
                  Total failure count ---------> 20
                   Consecutive failure count ---> 20
                   Last failure reason ---------> The compact flash power test
                                                   failed
                   Next Execution time ---------> Sun Apr 13 10:37:30 2014

根本原因

第二代连结7000个Supervisor装备冗余的两相同的eUSB闪存。闪存为Bootflash、配置和其他相关信息提供一个信息库。重新配置这两闪存,当Redundant Array of Independent Disk (RAID)实现内部镜像的1个阵列。使用冗余, Supervisor能作用与损耗其中一闪存,但是不是两个。

有一些个实例在一或这两闪存被指示作为坏由在几月或岁月时间范围的RAID软件在使用中的字段。板的重置/重新启动再发现这些失败的闪存是健康的在下启动。

解决方案

如果这是或不是硬件问题,请完成这些步骤为了验证:

  1. 若可能重新加载问题Supervisor。
  2. 如果问题在重新加载以后被看到,您需要硬件替换。
  3. 如果问题由重新加载修复,根本原因与Cisco Bug ID CSCus22805涉及。

问题:N7K-M132XP-12线路卡PortLoopback测试故障

线路卡连续报告诊断失败由于端口PortLoopback测试故障10次:

DIAG_PORT_LB-2-PORTLOOPBACK_TEST_FAIL  Module:16 Test:PortLoopback
failed 10 consecutive times. Faulty module:Module 16 affected ports:5,7 
Error:Loopback test failed. Packets lost on the LC at the Queueing engine ASIC

MODULE-4-MOD_WARNING  Module 16 (serial: XXXX) reported warning on
ports 16/5-16/5 (Ethernet) due to Loopback test failed. 
Packets lost on the LC at the Queueing engine ASIC in device 78
(device error 0x41830059)

根本原因

这是警告消息,并且在大多数情况下指示硬件问题用端口。

解决方案

因为这可能是软件问题,首先检查Cisco Bug ID CSCtn81109和Cisco Bug ID CSCti95293

首先重新安装模块为了重初始化卡和重新运行启动硬件充分测验。如果诊断测试仍然显示同一个卡的失败,请替换卡。

在方便的时候重新加载卡并且收集这些命令输出:

  • show logging日志
  • show module
  • 显示diagn结果模块所有详细信息

或者,您能重新运行仅此特定测验,并且不需要重新加载卡。此示例显示模块16 :

show diagnostic result module 16
diagnostic clear result module all
(config)# no diagnostic monitor module 16 test 5
(config)# diagnostic monitor module 16 test 5
diagnostic start module 16 test 5
show diagnostic result module 16 test 5

问题:N7K-M132XP-12线路卡MODULE-4-MOD_WARNING

这些错误出现,并且有可能的模块重新加载:

2013 Mar 27 00:40:23 DC3-7000-PRODD2-A23  MODULE-4-MOD_WARNING  
Module 9 (serial: XXX) reported warning on ports 9/1-9/3 (Unknown)
due to BE2 Arbiter experienced an error in device 65 (device error 0xc410f613)

根本原因

这是奇偶校验错误或硬件问题造成的硬件故障在子卡。

解决方案

  1. 检查这些命令输出:
    • show version
    • show system重置原因模块x
    • show logging内置内部重置原因
    • show module内部事件历史记录模块x
    • show log
  2. 如果Cisco NS-OX您的版本早于版本4.2,则对新版本的升级为了保证这些软件缺陷的修正集成(请最小化奇偶校验错误的可能性) :
    • Cisco Bug ID CSCso72230 L1 D缓存启用与L1 D缓存奇偶校验错误的8541 CPU失败
    • Cisco Bug ID CSCsr90831 - L1 D缓存启用与L1 D缓存推送奇偶校验错误的8541 CPU失败
  3. 如果错误重复出现,请重新安装卡和监视器。
  4. 如果错误仍然重复,请替换问题模块。

另外的已知软件缺陷

Cisco Bug ID CSCtb98876

问题:N7K-M224XP-23L奇哥serdes同步损耗错误

这些错误出现在模块:

%MODULE-4-MOD_WARNING: Module # (Serial number: XXXX) reported warning 
Ethernet#/# due to chico serdes sync loss in device DEV_SKYTRAIN
(device error 0xc9003600)

根本原因

这些错误表明有在module-和Xbar/ASIC之间的一个同步损耗问题。在大多数情况下原因是模块的硬件故障。

如果思科NS-OX您的版本早于6.1(4)和消息不断地没出现,可以受Cisco Bug ID CSCud91672的影响。缺陷的原因是NX-OS serdes设置是与在两个信道的诊断设置不同在SKT之间<-->SAC.

解决方案

收集这些命令输出:

  • show version
  • show module
  • show run
  • show module内部事件历史记录模块x
  • show module内部活动模块x
  • show module内部例外LOG模块x
  • show module内部事件历史记录错误
  • show logging为时200
  • show logging nvram

升级交换机对NS-OX版本6.1(4)或以上为了查出缺陷的原因。

执行此测验为了确认卡是否是有故障而不是xbar或机箱槽:

  1. 移动问题模块向在机箱的另一自由slot。
  2. 如果有一个备用的模块,请插入它在问题slot。
  3. 如果错误在step1以后看不到,请插入在问题slot的模块上一步并且验证。

问题:N7K-F248XP-25 PrimaryBootROM和SecondaryBootROM测试故障

模块N7K-F248XP-25失效PrimaryBootROM和SecondaryBootROM测验:

show module internal exceptionlog module 1 | i Error|xception
********* Exception info for module 1 ********
exception information --- exception instance 1 ----
Error Description : Secondary BootROM test failed
 
exception information --- exception instance 2 ----
Error Description : Primary BootROM test failed

根本原因

这通常被看到的归结于BIOS文件损坏或线路卡硬件故障。

解决方案

Cisco Bug ID CSCuf82089添加代码显示关于这样失败的说明性信息更加好的诊断的。例如,它当前显示发生故障的组件而不是一个空值。

有时问题由在模块的BIOS损坏导致。输入安装模块x生物活素被强制的命令为了解决此。注意此命令能潜在影响服务。建议是仅执行它在维护窗口期间。

完成这些步骤以解决问题:

  1. 安排一维护窗口并且输入安装模块x生物活素被强制的命令作为一可能的应急方案。只请输入此命令在维护窗口期间为了避免潜在服务影响。
  2. 如果step1不帮助或有此操作的一维护窗口是不可能的,请替换模块。此示例输出显示失败的尝试:
Nexus7000# install module 1 bios forced
Warning: Installing Bios forcefully...!
Warning: Please do not remove or power off the module at this time
Upgrading primary bios
Started bios programming .... please wait
[#                            0%                             ]
BIOS install failed for module 1, Error=0x40710027(BIOS flash-type verify failed)
BIOS is OK ...
Please try the command again... 

问题:温度传感器失败

此错误在平台被看到:

%PLATFORM-4-MOD_TEMPFAIL: Module-2 temperature sensor 7 failed

根本原因

在一定条件下这是一个断断续续问题用在ASIC的温度/电压块由于内部ASIC定时。Cisco Bug ID CSCtw79052描述此问题的已知原因。

这是锁上温度内部地在ASIC和采样有效位的软件之间的一个计时问题。问题是在能点击任何12个飞剪机实例。没有此问题的特定的触发,并且断断续续。此问题不影响服务,并且出现,因为温度读了逻辑有在驱动程序里要求更多重试次数的问题。

解决方案

收集从这些命令和检查的输出Cisco Bug ID CSCtw79052

  • show version
  • 显示env温度
  • show sprom模块<module-> 
  • Nexus#附上模块<module->
  • <module#>#show硬件内部传感器事件历史记录错误

问题:Xbar Error/C7010-FAB-1在电源故障状态

C7010-FAB-1在电源故障状态,并且这些错误出现:

%PLATFORM-3-EJECTOR_STAT_CHANGED: Ejectors' status in slot 13 has changed, 
Left Ejector is OPEN, Right Ejector is CLOSE

%PLATFORM-3-EJECTOR_STAT_CHANGED: Ejectors' status in slot 13 has changed,
Left Ejector is OPEN, Right Ejector is OPEN

%PLATFORM-2-XBAR_REMOVE: Xbar 3 removed (Serial number XXX)
 
Xbar Ports  Module-Type                         Model              Status
---  -----  ----------------------------------- ------------------ ----------
3    0      Fabric Module                       N/A                powered-dn
?
Xbar Power-Status  Reason
---  ------------  ---------------------------
3    powered-dn     failure(powered-down) since maximum number of bringups were exceeded

或者, xbar ASIC错误出现:

%MODULE-4-MOD_WARNING: Module 15 (serial: XXX) reported warning due to 
X-bar Interface ASIC Error in device 70 (device error 0xc4600248)

%OC_USD-SLOT15-2-RF_CRC: OC2 received packets with CRC error from MOD 15
through XBAR slot 3/inst 2

根本原因

此问题归结于有故障或BAD装置的xbar模块或者坏机箱槽。

解决方案

  1. 检查这些命令输出:
    • show version
    • show module
    • show logging
    • show logging nvram
    • show module内部例外LOG
    • show module内部事件历史记录
    • 显示核心
    • show system重置原因
    • show environment|在xbar
    • show system内部平台内部事件历史记录xbar x是xbar #
    • show system内部xbar客户端内部事件历史记录错误
    • show system内部xbar全部
    • show system内部xbar事件历史记录错误
  2. 执行一硬重新安装xbar模块并且检查状态。
  3. 如果重新安装发生故障,请测试在另一slot的xbar或测试同一slot以另一个xbar模块为了保证机箱优良是。
  4. 更换根据测验的有故障的硬件执行在步骤2和3。

问题:N7K-C7010-FAN-F失败的风扇模块

一个或很多这些风扇故障症状被观察:

%PLATFORM-5-FAN_STATUS: Fan module 3 (Serial number XXX) 
Fan3(fab_fan1) current-status is  FAN_FAIL
 
Nexus 7000#show environment fan
Fan3(fab_fan1)  N7K-C7010-FAN-F    1.1     Failure (Failed Fanlets: 2 6 7 8 9 10 14 15 )
Fan4(fab_fan2)  N7K-C7010-FAN-F    1.1     Ok 
...
 
#show hardware
----------------------------------
Chassis has 4 Fan slots
----------------------------------
Fan3(fab_fan1) failed
  Model number is N7K-C7010-FAN-F
...

根本原因

在大多数情况下这是风扇或机箱槽的失败。

解决方案

  1. 检查这些命令输出:
    • show version
    • show module
    • 显示库存
    • show log
    • show log nvram
    • show environment风扇
  2. 测试在另一个好机箱的此N7K-C7010-FAN-F。
  3. 替换根据结果或机箱的风扇步骤1和2。

问题:%PLATFORM-2-PS_CAPACITY_CHANGE电源报警

报警为产能更改有时非常频繁地被看到。

%PLATFORM-2-PS_CAPACITY_CHANGE: Power supply PS2 changed its capacity. 
possibly due to On/Off or power cable removal/

2013 Oct 17 17:06:40 ... last message repeated 14 times

 

根本原因

此问题归结于一个有故障或断开电源电缆或者电源故障。

解决方案

检查detail命令显示env的电源的输出并且研究电源状态。在此示例输出中,两弦连接,但是第二仅显示1200W产能而不是3000W,并且需要是为在N7K-AC-6.0KW的220V AC。测试的电源好。替换电源。

PS_2 total capacity:    4200 W   Voltage:50Vchord 1    capacity:    3000 W chord 1    
connected to 110v AC chord 2    capacity:    1200 W chord 2    connected to 220v AC

问题:%PLATFORM-5-PS_STATUS :电源x PS_FAIL报警

此警报出现在平台:

%PLATFORM-5-PS_STATUS: PowerSupply 3 current-status is PS_FAIL

%PLATFORM-2-PS_FAIL: Power supply 3 failed or shut down (Serial number xxxxx)

根本原因

此警报归结于一个有故障或断开电源电缆或者电源故障。

解决方案

  1. 检查这些命令输出:
    • show environment power详细信息
    • show power
  2. 重新安装失败的电源。请使用冗余电源为了保证电源不脱机。
  3. 提交电源的RMA。请使用冗余电源为了保证电源不脱机。

参考

Cisco连结7000系列电源冗余

问题:在FEX的电源问题

这些报警为FEX电源出现:

%SATCTRL-FEX104-2-SOHMS_DIAG_ERROR: FEX-104 Module 1: Runtime diag detected major event:
Voltage failure on power supply: 1
%SATCTRL-FEX104-2-SOHMS_DIAG_ERROR: FEX-104 System minor alarm on power
supply 1: failed

%SATCTRL-FEX104-2-SOHMS_DIAG_ERROR: FEX-104 Recovered: System minor alarm
on power supply 1: failed 

解决方案

检查硬件和电源问题。如果有一个软件问题,错误消息继续,在您交换硬件以后。

解决这些问题的方法包括:

  1. 重新安装FEX电源。请使用冗余电源为了保证电源不脱机。
  2. 提交FEX电源的RMA。请使用冗余电源为了保证电源不脱机。
  3. 重复第二个电源的这些步骤。

查看并且应答这些问题为了帮助定义失败的情况:

  1. 多少个FEX电源是受影响?
  2. 对于次要告警,是否交换了输入源,并且那是否产生了任何变化?
  3. 是否有有问题的其他FEX电源?
  4. 是否有任何其他箱同一台电源?
  5. 是否替换电源线?
  6. 有没有一个电源浪涌或小问题在环境?

采集从这些命令的输出为了调查失败:

  • show sprom fex 100全部
  • show logging日志|没有
  • show tech fex 100|没有
  • 附上fex 100
  • 显示平台软件satctrl trace

已知软件缺陷

Cisco Bug ID CSCtr77620

问题:N7K-AC-6.0KW电源报告作为失败

爱默生电源N7K-AC-6.0KW报告,当失败/关闭,但是交换机运行和non-0良好实际输出为问题电源被看到。

根本原因

在与两输入激活的一供应,当输入再被断开,重新连接,并且被断开在1.5秒以内时供应能锁上低电压故障,并且NX-OS能标记电源如失败。在另一变化,在与两输入的一供应,删除一输入并且等20到30秒。供应也许间歇地设置内部故障报警,并且NX-OS报告电源如失败。

Cisco Bug ID CSCty78612在电源部件做对固件的变动为了调整问题。

Cisco Bug ID CSCuc86262添加一软件增强为了从这些错误失败恢复。NX-OS独立地当前监控电源部件(PSU)状态并且修改它成适当的状态,如果报告的状态与真实状态有所不同。

解决方案

输入detail命令显示env的电源并且验证实际输出为了验证错误失败:

Nexus7000# show env power
Power Supply:
Voltage: 50 Volts
Power Actual Total
Supply Model Output Capacity Status
(Watts ) (Watts )
------- ------------------- ----------- ----------- --------------
1 N7K-AC-6.0KW 0 W 0 W Shutdown
2 N7K-AC-6.0KW 3888 W 6000 W Fail/Shut

不正确的失败/关闭的状态,当您供给off/on动力PSU时,清除。

Cisco Bug ID CSCty78612在PSU做对固件的变动。软件通过从错误失败/关闭的通知恢复与错误位的更正的Cisco Bug ID CSCuc86262被提高了,如果在运行时间的电源正常运行。NX-OS版本5.2(9), 6.1(3), 6.2(2)及以后有避免RMA的增强存在。

问题:软件丢包

当比在数据包的出口接口的时,已配置的MTU有IP信息包高速率有一个长度长的一部分的大号数据包丢弃。

根本原因

这是预料之中的现象。当系统比在数据包的出口接口的时已配置的MTU接收与一个长度长一IP数据包,系统发送此数据包到控制飞机,照料分段。在NX-OS 4.1.3及以后,速率防幅器应用对这样被踢的数据包。默认情况下这对最多500 pps限制它。

解决方案

这是在Cisco Bug ID CSCsu01048的一个已知软件缺陷。

问题:USER-2-SYSTEM_MSG FIP自测失败系统错误

"USER-2-SYSTEM_MSG FIP自测失败在DCOS_rand - netstack”错误显示。

根本原因

每当随机数生成,有条件的随机数生成器(CRNG)自检运行。如果测试失败,系统消息被记录。这根据联邦信息处理标准(FIP)建议执行。然而,因为随机数再,生成此的影响是无害的。

有随机数生成器(RNGs)的两种类型在NX-OS :

  • 在openssl crypto库中实现的FIP RNG
  • 是Linux RNG的非FIPS RNG

根据FIP,所有RNGs必须实现有条件的随机数生成器测验(CRNGT)。测验当前生成的随机数与上一个一个比较。如果编号是相同的,则系统消息生成,并且一个随机数还生成。

测验运行为了保证随机数的该唯一性。因为编号被重新生成,没有功能影响。

解决方案

此消息是无害的对系统操作。从Cisco NX-OS版本5.2x和以上,消息的严重性降低远离2,因此在默认日志配置不再看到。此记录日志发生作为多种功能的内部NX-OS自检一部分在交换机。

这是在Cisco Bug ID CSCtn70083的一个已知软件缺陷。


相关的思科支持社区讨论

思科支持社区是您提问、解答问题、分享建议以及与工作伙伴协作的论坛。


Document ID: 118959