交换机 : Cisco Nexus 3500 ?????

连结3500系列交换机平台系统工作状况健康检查进程

2016 年 10 月 24 日 - 机器翻译
其他版本: PDFpdf | 英语 (2015 年 8 月 22 日) | 反馈

简介

本文描述使用为了执行在Cisco连结3500系列交换机平台的系统工作状况健康检查运行连结操作系统的一般进程(NX-OS)版本6.0(2)。 

贡献用Yogesh Ramdoss和马特Blanshard, Cisco TAC工程师。

箴言报CPU和内存使用

为了接收CPU的系统的概述和内存使用,请输入show system资源命令:

switch# show system resources 
Load average: 1 minute: 0.32 5 minutes: 0.13
  15 minutes: 0.10
Processes: 366 total, 2 running
CPU states: 5.5% user, 12.0% kernel, 82.5% idle
  CPU0 states: 10.0% user, 18.0% kernel,
  72.0% idle
  CPU1 states: 1.0% user, 6.0% kernel, 93.0% idle
Memory usage: 4117064K total, 2614356K used,
  1502708K free
Switch#

如果需要关于浪费CPU周期或内存的进程的更多详细信息,请输入show process CPU排序show system内部内核内存使用命令:

switch# show process cpu sort
PID    Runtime(ms)  Invoked   uSecs  1Sec    Process
-----  -----------  --------  -----  ------  -----------
 3239     55236684  24663045   2239    6.3%  mtc_usd
 3376          776      7007    110    2.7%  netstack
   15     26592500 178719270    148    0.9%  kacpid
 3441      4173060  29561656    141    0.9%  cfs
 3445      7646439   6391217   1196    0.9%  lacp
 3507     13646757  34821232    391    0.9%  hsrp_engine
    1        80564    596043    135    0.0%  init
    2            6       302     20    0.0%  kthreadd
    3         1064    110904      9    0.0%  migration/0
<snip>
switch# show system internal kernel memory usage 
MemTotal:      4117064 kB
MemFree:       1490120 kB
Buffers:           332 kB
Cached:        1437168 kB
ShmFS:         1432684 kB
Allowed:       1029266 Pages
Free:           372530 Pages
Available:      375551 Pages
SwapCached:          0 kB
Active:        1355724 kB
Inactive:       925400 kB
HighTotal:     2394400 kB
HighFree:       135804 kB
LowTotal:      1722664 kB
LowFree:       1354316 kB
SwapTotal:           0 kB
SwapFree:            0 kB
Dirty:              12 kB
Writeback:           0 kB
AnonPages:      843624 kB
Mapped:         211144 kB
Slab:            98524 kB
SReclaimable:     7268 kB
SUnreclaim:      91256 kB
PageTables:      19604 kB
NFS_Unstable:        0 kB
Bounce:              0 kB
WritebackTmp:        0 kB
CommitLimit:   2058532 kB
Committed_AS: 10544480 kB
VmallocTotal:   284664 kB
VmallocUsed:    174444 kB
VmallocChunk:   108732 kB
HugePages_Total:     0
HugePages_Free:      0
HugePages_Rsvd:      0
HugePages_Surp:      0
Hugepagesize:     2048 kB
DirectMap4k:      2048 kB
DirectMap2M:   1787904 kB
switch#

输出显示NX-OS使用高端内存区域,并且内核使用低内存区域。MemTotalMemFree值提供为交换机是可用的总内存。

为了生成内存使用警报,请配置交换机类似于此:

switch(config)# system memory-thresholds minor 50 severe 70 critical 90

注意:对于本文,使用仅值507090作为示例;选择根据您的需要的门限值限额。

检查硬件诊断状态

为了检查硬件诊断状态,请输入all命令show diagnostic的结果。保证所有测验通过,并且整体诊断结果PASS

switch# show diagnostic result all 
Current bootup diagnostic level: complete
Module 1: 48x10GE Supervisor  SerialNo : <serial #>
  Overall Diagnostic Result for Module 1 : PASS
  Diagnostic level at card bootup: complete
  Test results: (. = Pass, F = Fail, I = Incomplete, U = Untested, A = Abort)
     1) TestUSBFlash ------------------------> .
     2) TestSPROM ---------------------------> .
     3) TestPCIe ----------------------------> .
     4) TestLED -----------------------------> .
     5) TestOBFL ----------------------------> .
     6) TestNVRAM ---------------------------> .
     7) TestPowerSupply ---------------------> .
     8) TestTemperatureSensor ---------------> .
     9) TestFan -----------------------------> .
    10) TestVoltage -------------------------> .
    11) TestGPIO ----------------------------> .
    12) TestInbandPort ----------------------> .
    13) TestManagementPort ------------------> .
    14) TestMemory --------------------------> .
    15) TestForwardingEngine ----------------> .
<snip>

查看硬件配置文件

输入status命令show hardware的配置文件为了检查在交换机配置的当前硬件配置文件和硬件表使用情况:

switch# show hardware profile status 
Hardware table usage:
Max Host Entries = 65535, Used = 341
Max Unicast LPM Entries = 24576, Used = 92
Max Multicast LPM Entries = 8192, Used (L2:L3) = 1836 (1:1835)
Switch#

保证主机条目的使用情况和单播/组播最长前缀匹配(LPM)条目在指定限制内。

注意:对于交换机的最佳性能,选择适当的硬件配置文件模板是重要的。

如果希望交换机生成Syslog在一特定阈值范围,请配置交换机类似于此:

switch(config)# hardware profile multicast syslog-threshold ?
  <1-100>  Percentage

switch(config)# hardware profile unicast syslog-threshold ?
  <1-100>  Percentage

注意:默认阈值是单播和组播的90百分比。

欲了解更详细的信息,参考配置的PIM Cisco条款,提供根据许可证安装和功能的配置细节启用。并且,如果要优化转发表,参考Cisco连结3000系列交换机:了解,配置并且调整转发表Cisco条款。

活动缓冲区监听

活动缓冲区监听(ABM)提供粒状缓冲区占用数据,允许更加好的见解到拥塞热点。此功能支持两操作模式:单播组播模式。

单播模式, ABM监控并且维护缓冲用量数据每缓冲区块和所有48个端口的单播缓冲区利用率。在组播模式,它监控并且维护缓冲用量数据每缓冲区块和组播缓冲区利用率每缓冲区块。

注意:欲知更多信息,请参考思科连结3548活动缓冲区监听Cisco条款。条款的图4显示缓冲用量锐化了在22:15:32并且持续了直到22:15:37。并且,突然的阻止直方图提供证据在使用情况的和显示缓冲区漏的速度。如果有一个慢接收方(例如在10 Gbps接收方中的1 Gbps接收方),则为了避免丢包,您必须包括配置类似于此:硬件配置文件组播慢接收方端口<x>

箴言报接口计数器/统计信息

为了监控数据流损失,请输入show interface ethernet x/y命令。从此命令的输出提供基本速率信息、并且端口级丢包/错误。

switch# show interface eth1/10
Ethernet1/10 is up
 Dedicated Interface
  Belongs to Po1
  Hardware: 100/1000/10000 Ethernet, address: 30f7.0d9c.3b51
  (bia 30f7.0d9c.3b51)
  MTU 1500 bytes, BW 10000000 Kbit, DLY 10 usec
  reliability 255/255, txload 1/255, rxload 1/255
  Encapsulation ARPA
  Port mode is trunk
  full-duplex, 10 Gb/s, media type is 10G
  Beacon is turned off
  Input flow-control is off, output flow-control is off
  Rate mode is dedicated
  Switchport monitor is off
  EtherType is 0x8100
  Last link flapped 3d21h
  Last clearing of "show interface" counters never
  14766 interface resets
  30 seconds input rate 47240 bits/sec, 68 packets/sec
  30 seconds output rate 3120720 bits/sec, 3069 packets/sec
  Load-Interval #2: 5 minute (300 seconds)
    input rate 50.18 Kbps, 52 pps; output rate 3.12 Mbps, 3.05 Kpps
  RX
    4485822 unicast packets  175312538 multicast packets  388443 broadcast
    packets
    180186040 input packets  9575683853 bytes
    0 jumbo packets  0 storm suppression bytes
    1 runts  0 giants  1 CRC  0 no buffer
    2 input error  0 short frame  0 overrun   0 underrun  0 ignored
    0 watchdog  0 bad etype drop  0 bad proto drop  0 if down drop
    0 input with dribble  260503 input discard
    0 Rx pause
  TX
    159370439 unicast packets  6366799906 multicast packets  1111 broadcast
    packets
    6526171456 output packets  828646014117 bytes
    0 jumbo packets
    0 output errors  0 collision  0 deferred  0 late collision
    0 lost carrier  0 no carrier  0 babble 0 output discard
    0 Tx pause

switch#

如果输入输出丢弃显示非零值,请确定丢弃的数据包是否是单播并且/或者组播:

switch# show queuing interface ethernet 1/10
Ethernet1/10 queuing information:
  TX Queuing
    qos-group  sched-type  oper-bandwidth
        0       WRR            100

  RX Queuing
    Multicast statistics:
        Mcast pkts dropped                      : 0
    Unicast statistics:
    qos-group 0
    HW MTU: 1500 (1500 configured)
    drop-type: drop, xon: 0, xoff: 0
    Statistics:
        Ucast pkts dropped                      : 0
switch#

输出表明丢失的数据流不归结于服务质量(QoS)。现在您必须检查硬件MAC地址统计信息:

switch# show hardware internal statistics device mac ?
  all         Show all stats
  congestion  Show congestion stats
  control     Show control stats
  errors      Show error stats
  lookup      Show lookup stats
  pktflow     Show packetflow stats
  qos         Show qos stats
  rates       Show packetflow stats
  snmp        Show snmp stats

当您进行流量丢包的时一排除故障,关键选项检查是拥塞错误qospktflow选项提供在RX和TX方向的流量统计,特定数据包大小范围。

switch# show hardware internal statistics device mac errors port 10
|------------------------------------------------------------------------|
| Device: L2/L3 forwarding ASIC   Role:MAC                               |
|------------------------------------------------------------------------|
Instance:0
ID   Name                                          Value              Ports
--   ----                                          -----              -----
198  MTC_MB_CRC_ERR_CNT_PORT9                      0000000000000002   10 -
508  MTC_PP_CNT_PORT1_RCODE_CHAIN3                 0000000000000002   10 -
526  MTC_RW_EG_PORT1_EG_CLB_DROP_FCNT_CHAIN3       000000000054da5a   10 -
3616 MTC_NI515_P1_CNT_TX                           0000000000000bed   10 -
6495 TTOT_OCT                                      000000000005f341   10 -
7365 RTOT                                          0000000000000034   10 -
7366 RCRC                                          0000000000000001   10 -
7374 RUNT                                          0000000000000001   10 -
9511 ROCT                                          00000000000018b9   10 -
10678 PORT_EXCEPTION_ICBL_PKT_DROP                 000000000003f997   10 -

注意0x3f997十六进制值等于260503在十进制形式。

switch# show interface eth1/10
Ethernet1/10 is up
<snip>  0 input with dribble  
260503 input discard
<snip>

在输出中, PORT_EXCEPTION_ICBL_PKT_DROP错误消息表明在端口接收的流量有在交换机没有启用的VLAN的一Dot1q标记。

这是另一示例,其中流量丢弃被看到的归结于QoS :

switch# show interface ethernet 1/11

Ethernet1/11 is up
<snip>
  TX

<snip>
    0 output errors  0 collision  0 deferred  0 late collision
    0 lost carrier  0 no carrier  0 babble 6153699 output discard
    0 Tx pause
switch#
switch# show queuing interface ethernet 1/11

Ethernet1/11 queuing information:
  TX Queuing
    qos-group  sched-type  oper-bandwidth
        0       WRR            100

  RX Queuing
    Multicast statistics:
        Mcast pkts dropped                      : 0
    Unicast statistics:
    qos-group 0
    HW MTU: 1500 (1500 configured)
    drop-type: drop, xon: 0, xoff: 0
    Statistics:
        Ucast pkts dropped                      : 6153699

注意:输出表明6153699数据包在接收方向丢弃了,是令人误解的。参考的Cisco Bug ID CSCuj20713

switch# show hardware internal statistics device mac all | i 11|Port

(result filtered for relevant port)
ID   Name           Value              Ports
<snip>
5596 TX_DROP        00000000005de5e3   11 -  <--- 6153699 Tx Drops in Hex
<snip>
10253 UC_DROP_VL0   00000000005de5e3   11 -  <--- Drops for QoS Group 0 in Hex
<snip>

总之,这是使用为了捕获丢包的命令:

  • show interface ethernet x/y
  • 显示排队接口以太网x/y
  • show hardware内部统计信息设备mac错误端口<port->

箴言报控制平面策略统计信息

控制平面策略(CoPP)保护控制层面为了保证网络稳定性。关于其他详细信息,请参考配置的控制平面策略Cisco条款。

为了监控CoPP统计信息,请输入show policy-map interface控制面板命令:

switch# show policy-map interface control-plane 
Control Plane
  service-policy  input: copp-system-policy

    class-map copp-s-ping (match-any)
      match access-group name copp-system-acl-ping
      police pps 100 , bc 0 packets
        HW Matched Packets   30
        SW Matched Packets   30
    class-map copp-s-l3destmiss (match-any)
      police pps 100 , bc 0 packets
        HW Matched Packets   76
        SW Matched Packets   74
    class-map copp-s-glean (match-any)
      police pps 500 , bc 0 packets
        HW Matched Packets   103088
        SW Matched Packets   51544
<snip>

在输出中, CoPP s PING的硬件(HW)和软件(SW)被匹配的信息包是相同的。由HW计数的这意味着相当数量数据包是30 (所有发送往带内CPU驱动程序),并且SW计数数据包同一数量,在发送他们对CPU前。这表明数据包没有由CoPP丢弃,因为在100个p/s.内配置的限制。

当您查看CoPP s汇集类,匹配数据包被注定对IP地址地址解析服务(ARP)缓存条目不是存在,由HW看到是103,088数据包的数量,当SW匹配仅51544时。这表明CoPP丢弃了51544 (103088-51544)数据包,因为速率这些数据包超出500个p/s。

SW计数器从在HW被编程的CPU带内驱动程序得到,并且HW计数器来自访问控制表(ACL)。如果遇到HW被匹配的信息包等于零和非零值的情况为SW被匹配的信息包是存在,则ACL不是存在HW为该特定类映射,可以是正常。应该注意的是这两个计数器也许同时不轮询,并且您应该只使用计数器值为了troubelshoot,如果差异是重大的。

CoPP统计信息也许不直接地涉及到HW交换式数据包,但是相关的,如果应该通过交换机发送的数据包被踢对CPU。当您运行收集邻接时,数据包PUNT由多种原因造成,例如。

注意有CoPP策略的三种类型:默认, Layer2 (L2)和第3层(L3)。选择根据部署方案的相应的策略,并且修改根据观察的CoPP策略。为了优化CoPP,请有规律地检查和检查,在您获取新的服务/应用程序后或者,在网络再设计后。

注意:为了清除计数器,请输入statistics命令清楚的copp

执行Bootflash文件系统健康检查

为了执行在Bootflash文件系统的一个健康检查,请输入系统工作状况健康检查Bootflash命令:

switch# system health check bootflash 
Unmount successful...
Checking any file system errors...Please be patient...
Result: bootflash filesystem has no errors
done.
Remounting bootflash ...done.
switch#

警告:文件系统被卸载,当您运行测验时,并且被重登上,一旦测验完成。保证文件系统没有访问,当您运行测验时。

收集系统核心和进程日志

警告:保证系统不经历任何进程重置或失败和不生成任何内核文件或进程日志,当您尝试使用在此部分被提及的命令时。

输入这些命令为了收集系统核心和进程日志:

switch# show cores
Module  Instance  Process-name     PID       Date(Year-Month-Day Time)
------  --------  ---------------  --------  -------------------------
switch#

switch# show process log
Process          PID     Normal-exit  Stack  Core   Log-create-time
---------------  ------  -----------  -----  -----  ---------------
ethpc            4217              N      N      N  Tue Jun  4 01:57:54 2013

注意:欲了解更详细的信息参考从思科连结交换平台Cisco条款的获取的内核文件关于此进程。

相关信息



Document ID: 116699