存储网络 : 光纤通道

MDS9000系列光纤信道端口链路事件“LR Rcvd B2B"排除故障

2016 年 10 月 24 日 - 机器翻译
其他版本: PDFpdf | 英语 (2015 年 8 月 22 日) | 反馈

简介

本文描述在Cisco多层数据交换(MD) 9000系列光纤信道(FC)端口遇到的问题并且提供解决方案给问题。

贡献用爱德华Mazurek, Cisco TAC工程师。

问题

此林克事件日志显示:

*************** Port Config Link Events Log ***************
----                           ------    -----  -----  ------
Time                        PortNo    Speed  Event  Reason
----                         ------    -----  -----  ------
...
Jul 28 00:46:39 2012  00670297  fc11/25   ---   DOWN   LR Rcvd B2B      

LR Rcvd B2B (或链路故障林克重置的失败的非空的recv队列)消息表明设备附加对端口传送林克重置(LR)对MD,但是MD不回应林克重置答复(LRR)由于在端口的内部拥塞。端口有从连接的设备接收排队的数据包,但是MD不能送他们到适当的输出端口。因为他们在入站端口仍然排队, MD不能退还LRR,并且链路发生故障。

这些错误消息随附于上一个事件日志:

%PORT-2-IF_DOWN_LINK_FAILURE: %$VSAN 93%$ 
Interface fc11/25 is down (Link failure)

%PORT-5-IF_DOWN_LINK_FAILURE: %$VSAN 100%$
Interface fc5/32 is down (Link failure Link Reset
failed nonempty recv queue
)

注意:此方案给在假定下缓冲数赊帐MD授权FC设备是三,并且FC device数据包交换到出口FC端口。

                MDS
   FC Port                FC Port
   (Egress)   Arbiter    (Ingress)      FC device
   --------   -------    ---------      ---------
 1)                           <------- FC packet 1
 2)             <--- Grant Request
 3)             Grant------------>
 4)    <---------------FC packet 1
 5)                            R_Rdy-------->       Tx B2B=3
 6)                           <------- FC packet 2  Tx B2B=2
  7)             <---- Grant Request
 8)                           <------- FC packet 3  Tx B2B=1
  9)             <---- Grant Request
10)                           <------- FC packet 4  Tx B2B=0
11)             <---- Grant Request
12) Time lapses - Variable depending on attached HBA type
13)                           <--------Link Reset(LR)
14)          Start 90ms "LR Rcvd B2B" timer
15)          "LR Rcvd B2B" timer expires
16)                            <--------NOS-------->

说明

此部分说明上一个输出:

  1. FC设备在FC数据包传输到入站端口,被注定对输出端口。
  2. MD进入线路卡(LC)端口确定目的地索引(DI),并且传达格兰特请求给裁决者(Bellagio2)在激活的Supervisor。
  3. 裁决者派遣回到格兰特到入站端口,给它权限传达FC数据包1给输出端口通过XBAR。
  4. 入口LC通过XBAR传达FC数据包1给输出端口。 这做入口缓冲区联机。
  5. 入站端口传送R_RDY回到FC设备,重新补充信用值。

    注意:当没有拥塞时,前五个步骤是典型的。这时假设输出端口队列满,并且不能收到数据包。


  6. FC设备传达FC数据包2给入站端口,被注定对输出端口。
  7. MD入口LC端口确定DI,并且传达格兰特请求给裁决者(Bellagio2)在激活的Supervisor。
  8. FC设备传达FC数据包3给入站端口,被注定对输出端口。
  9. MD入口LC端口确定DI,并且传达格兰特请求给裁决者(Bellagio2)在激活的Supervisor。
  10. FC设备传达FC数据包4给入站端口,被注定对输出端口。
  11. MD入口LC端口确定DI,并且传达格兰特请求给裁决者(Bellagio2)在激活的Supervisor。
  12. 时间间隔,变化基于附加的HBA类型。
  13. 在一些时间以后在Tx B2B=0, FC设备启动信贷亏损恢复,并且传送林克重置(LR)。
  14. 当入站端口接收LR时,检查其入口缓冲区并且确定有排队的至少一数据包。它然后启动一个90个毫秒LR Rcvd B2B计时器。
  15. 如果授予接收,并且三FC数据包传送到输出端口,则LR Rcvd B2B计时器取消,并且林克重置答复(LRR)被退还的到FC设备。在这种情况下,然而,输出端口保持拥塞,并且三FC数据包保持排队在入站端口。LR Rcvd B2B计时器超时,并且LRR没有传送回到FC设备。
  16. 入站端口和FC设备通过不是一个运算程序的发射启动链路故障。

解决方案

如果链路失败的与LR Rcvd B2B链路故障林克重置失败非空的recv队列消息,则失败的端口不是慢流失的原因和只是受慢/卡塞端口的影响的。为了识别导致链路故障的慢/卡塞端口,请完成这些步骤:

  1. 确定是否有超过发生故障由于早先被提及的问题的一条链路。 如果超过一条链路在大约同一时间发生故障,则问题也许出现,因为所有端口尝试传达数据包给一个普通的输出端口。
  2. 检查VSAN区域数据库为了用哪些设备发现相邻FC设备被分区。映射这些到出口E本地F端口。为了映射到出口E,端口使用显示fspf内部路由vsan <vsan>域<dom>命令。为了映射到本地F端口,请使用<vsan show flogi database的vsan >命令。如果有超过失效与LR Rcvd B2B消息的一条链路,则请结合出口E本地F端口查找,并且检查交叠。交叠是慢/卡塞端口的可能起因。
  3. 检查在步骤找到的端口2慢流失的征兆。这些 ISP 包括:

    • 信贷亏损(AK_FCP_CNTR_CREDIT_LOSS/FCP_SW_CNTR_CREDIT_LOSS)
    • 100毫秒Tx B2B零(AK_FCP_CNTR_TX_WT_AVG_B2B_ZERO/FCP_SW_CNTR_TX_WT_AVG_B2B_ZERO)
    • 超时丢弃(AK_FCP_CNTR_LAF_TOTAL_TIMEOUT_FRAMES/THB_TMM_TOLB_TIMEOUT_DROP_CNT/F16_TMM_TOLB_TIMEOUT_DROP_CNT)

  4. 如果确定慢端口是出口E端口,则请继续慢流失排除故障在FSPF下一跳接口表示的相邻交换机。
  5. 如果确定慢/卡塞端口是FCIP链路或Port-Channel,则请检查FCIP链路IP重新传输或其他问题的符号,例如链路故障。输入all命令show ips的stats为了检查问题。

配置选项

这是两个可能的系统配置选项:

  • 此计时器确定系统多久等待,在暂停不能传送的帧前。默认是500ms。

    system timeout congestion-drop <ms> mode E|F
  • 此计时器确定有开始帧丢包的零的Tx赊帐以线路速率的点之间的时间,直到赊帐接收。

    system timeout no-credit-drop <ms> mode E|F

相关信息



Document ID: 116400