交换机 : Cisco Nexus 7000 系列交换机

排除故障Xbar连结7000系列交换机的同步失败

2016 年 10 月 24 日 - 机器翻译
其他版本: PDFpdf | 英语 (2016 年 4 月 21 日) | 反馈

简介

本文描述如何识别有故障纵横制(Xbar),当模块下降由于Cisco连结7000系列交换机的时一Xbar同步失败。此问题的故障排除程序介入搜集数据、数据分析和清除进程为了隔离问题组件。

贡献用Abhishek Soni, Cisco TAC工程师。

先决条件

要求

思科建议您有思科连结操作系统(NX-OS) CLI的知识。

使用的组件

本文档中的信息根据运行NX-OS版本6.1(2)的Cisco连结7000系列交换机,但是能也与所有NX-OS版本一起使用。

本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您使用的是真实网络,请确保您已经了解所有命令的潜在影响。

问题

N7K-F248XP-25E模块下降由于Xbar同步失败在模块引导。当模块插入到在机箱的Slot1,关掉。这能发生由于这些原因之一:

  • Bad模块

  • Bad Xbar

  • 坏或管脚在背板

解决方案

一旦N7K-F248XP-25E模块的一个怀疑的硬件故障,您必须查看登录顺序确定失败的原因是否归结于有故障的模块,或者由于Xbar同步失败。

为了进一步查出在本例中的问题,模块插入到一不同的slot并且变得激活正如所料。这表明模块没有故障,因此问题是与Xbar结构或机箱。

当模块在Slot1,关掉此例外日志出现:

show module internal exceptionlog module 1
********* Exception info for module 1 ********

exception information --- exception instance 1 ----
Module Slot Number: 1
Device Id : 88
Device Name : XbarComplex
Device Errorcode : 0x00000008
Device ID : 00 (0x00)
Device Instance : 00 (0x00)
Dev Type (HW/SW) : 00 (0x00)
ErrNum (devInfo) : 08 (0x08)

System Errorcode : 0x40240012 xbar sync failed during module bringup
(DevErr is LinkNum)
Error Type : Informational
PhyPortLayer : Unknown
Port(s) Affected : none
DSAP : 0 (0x0)
UUID : 0 (0x0)
Time : Thu Mar 20 15:55:19 2014
(Ticks: 532B0F67 jiffies)

exception information --- exception instance 2 ----
Module Slot Number: 1
Device Id : 88
Device Name : XbarComplex
Device Errorcode : 0x00000008
Device ID : 00 (0x00)
Device Instance : 00 (0x00)
Dev Type (HW/SW) : 00 (0x00)
ErrNum (devInfo) : 08 (0x08)

System Errorcode : 0x40240012 xbar sync failed during module bringup
(DevErr is LinkNum)
Error Type : Informational
PhyPortLayer : Unknown
Port(s) Affected : none
DSAP : 0 (0x0)
UUID : 0 (0x0)
Time : Thu Mar 20 15:53:12 2014
(Ticks: 532B0EE8 jiffies)

根据这些例外日志,问题清楚地是与Xbar或在Slot1的机箱。 

为了进一步查出问题,您必须单个删除每Xbar,当您监控在Slot1时的模块没有问题,直到能启动。这确认有一个问题用一个特定的Xbar结构模块,在会继续进行有故障的硬件的情况下退货授权(RMA)。

然而,这是一个长步骤,并且要求一长维护窗口。为了查找导致同步问题用模块的确切的Xbar结构slot,您能继续如显示此处:

show system internal xbar event-history errors
-----------------------------------------------------

7) Event:E_DEBUG, length:67, at 384460 usecs after Thu Mar 20 15:55:19 2014
[102] xbm_perform_error_action(1413): MTS_OPC_LC_INSERTED error 0x1

8) Event:E_DEBUG, length:104, at 384347 usecs after Thu Mar 20 15:55:19 2014
[102] send_exception_log_msg_to_lcm(1101): module 1 DevId 88 dev_err 0x8 sys
_err 0x40240012 err_type 0x4

9) Event:E_DEBUG, length:59, at 384343 usecs after Thu Mar 20 15:55:19 2014
[102] xbm_mod_ac_error(221): Sync fail for module 1 link 8

10) Event:E_DEBUG, length:66, at 384341 usecs after Thu Mar 20 15:55:19 2014
[102] xbm_mod_ac_error(210): Error for Slot 0 error_code 0x877660c

11) Event:E_DEBUG, length:62, at 384298 usecs after Thu Mar 20 15:55:19 2014
[102] xbm_sync_seq_failed(1169): Sync fail for module 1 link 8

在这些日志,您能为模块1链路8消息看到同步失败。您必须然后识别林克8关联的结构slot。为了确定此,您必须检查show system内部xbar sw命令的输出:

show system internal xbar sw

Module in slot 1 (present = 0)
 
Dedicated X-link 255
rid 0x2000000 type 0 state 0 sub_type 0 node_id 0x0
sw_card_id 0x0 lc_node_addr 0x0 feature_bits 0x0
timer: hdl 0x86fcc20 rid 0x2000000 ev_id 0xffff timer_id 0x41a tim_type 0x2
Link_Info:: Num Links 10 max Edp 10
    Link_num 0
        is_synced 0 is_edp 0 num_sync_try 0
    Link_num 1
        is_synced 0 is_edp 0 num_sync_try 0
    Link_num 2
        is_synced 0 is_edp 0 num_sync_try 0
    Link_num 3
        is_synced 0 is_edp 0 num_sync_try 0
    Link_num 4
        is_synced 0 is_edp 0 num_sync_try 0
    Link_num 5
        is_synced 0 is_edp 0 num_sync_try 0
    Link_num 6
        is_synced 0 is_edp 0 num_sync_try 0
    Link_num 7
        is_synced 0 is_edp 0 num_sync_try 0
    Link_num 8
        is_synced 0 is_edp 0 num_sync_try 3
    Link_num 9
        is_synced 0 is_edp 0 num_sync_try 0
Link_Map:: Num Links 10 max Edp 10
    Link_num 0
        connected to fab [10.0] active_lnk 1
        fi_to_mon 0 fi_to_use 0
    Link_num 1
        connected to fab [10.0] active_lnk 1
        fi_to_mon 0 fi_to_use 0
    Link_num 2
        connected to fab [11.0] active_lnk 1
        fi_to_mon 1 fi_to_use 1
    Link_num 3
        connected to fab [11.0] active_lnk 1
        fi_to_mon 1 fi_to_use 1
    Link_num 4
        connected to fab [12.0] active_lnk 1
        fi_to_mon 2 fi_to_use 2
    Link_num 5
        connected to fab [12.0] active_lnk 1
        fi_to_mon 2 fi_to_use 2
    Link_num 6
        connected to fab [13.0] active_lnk 1
        fi_to_mon 3 fi_to_use 3
    Link_num 7
        connected to fab [13.0] active_lnk 1
        fi_to_mon 3 fi_to_use 3
    Link_num 8
        connected to fab [14.0] active_lnk 1
        fi_to_mon 4 fi_to_use 4
    Link_num 9
        connected to fab [14.0] active_lnk 1
        fi_to_mon 4 fi_to_use 4

在输出中,您能看到Link_num 8 (林克8)连接对很好的[14.0] (结构Slot 14),是Xbar 5。

注意:一个基于零的编号系统使用Xbar。

为了识别很好的[14.0] (在Slot 5)回车的结构show module命令

show module

Xbar Ports Module-Type Model Status
--- ----- -------------------------------- ----------------- ------
4 0 Fabric Module 2 N7K-C7010-FAB-2 ok

Xbar MAC-Address(es) Serial-Num
--- -------------------------------------- ----------
1 NA JAF1739AQTP
2 NA JAF1739AJAA
3 NA JAF1739AQDG
4 NA JAF1739ATHG
5 NA JAF1739AQEF

在输出show module命令中,您能查看在Slot 5.的Xbar结构模块。 

您应该当前有导致同步失败模块的Slot1结构的正确识别。在本例中,结构从Slot 5删除,并且在Slot1的模块启动,不用任何错误。有故障Xbar可能当前替换。

相关信息

 



Document ID: 118970