简介
本文档介绍如何排除Catalyst 9200/9200L和9300/9300L的Stackwise部署中的常见故障情况。
先决条件
使用的组件
此部分指定与Catalyst 9000系列上的Stackwise相关的产品ID(PID)和相关组件。
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。
Stackwise平台
振铃速度取决于PID。这些PID支持Stackwise:
- Cisco Catalyst 9200 - StackWise-160
- Cisco Catalyst 9200L - StackWise-80
- Cisco Catalyst 9300 - StackWise-480
- Cisco Catalyst 9300L - StackWise-320
- Cisco Catalyst 9300X - StackWise-1T
Stackwise硬件
C9200/C9200L和C9300L PID堆栈套件包含一个堆栈适配器(可插入机箱中)和一个连接到适配器的电缆。C9300/9300X PID堆栈套件只需要电缆。
背景信息
本文适用于Catalyst 9200/9200L、9300/9300L和9300X交换机。
StackWise架构允许一个环形拓扑中最多包含八台交换机的堆栈实现高密度的堆栈带宽。堆叠架构扩展了交换机的外形规格、吞吐量、端口密度和冗余,并提供单一的控制和管理平面。它简化了管理,并提高了恢复能力和可扩展性。
对Stackwise进行故障排除和验证
已建立的堆栈中的操作问题通常与一个或多个成员设备的静默重新加载有关,堆栈合并是常见的重新加载原因。 本节介绍堆栈环不稳定如何导致重新加载和其他问题,以及如何验证堆栈环并排除相关问题。
Stackwise操作
使用相关Stackwise堆栈套件连接两台或多台(最多八台)交换机,以形成数据堆栈。堆叠环提供主用/备用交换机和成员交换机之间的互连。环可以在半容量或满容量时运行。
连接到堆栈拓扑的交换机使用堆栈发现协议(SDP)进行邻居发现和角色选举。 启动后,在交换机软件完全加载之前,会有一个120秒的选举窗口,在此窗口中会发现成员,并确定活动和备用角色。
活动选举由最高优先级和最低MAC地址决定。在选择活动且发现所有成员的情况下,备用设备将使用相同的条件进行选择 — 下一个最高优先级或下一个最低MAC。 以下是需要考虑的其他要点:
添加或替换成员
实施新堆栈或向已建立的堆栈添加成员时,必须考虑多个因素。 重要的是,切勿将通电的交换机连接到通电的堆栈。关闭电源时连接新成员以避免堆栈合并。 以下是需要考虑的其他几点:
添加新交换机时,可利用自动升级功能解决这些冲突问题。它使用以下命令实现:
C9300-Stack#config t
Enter configuration commands, one per line. End with CNTL/Z.
C9300-Stack(config)#software auto-upgrade enable
C9300-Stack(config)#end
C9300-Stack#
注意:自动升级功能仅在安装模式下可用。捆绑包模式不支持自动升级。 捆绑模式需要手动干预以解决版本许可证不匹配错误。
解决与Stackwise相关的操作问题
如果主用/备用和成员之间的通信中断,将重新加载。 长期不稳定可能导致堆叠拆分和合并的情况。
大多数与堆栈相关的不稳定源于物理堆栈介质(堆栈电缆和/或堆栈适配器)未对齐。如果堆叠成员长期不稳定,请重新安装堆叠硬件,并确保手动拧紧电缆拇指螺钉。 使用本文档后面部分提供的验证命令确定哪些成员受影响最大。
问题 — 一个或多个成员的意外重新加载
活动和备用设备之间以及成员设备之间的交换控制流量。 如果堆叠成员与备用/主用设备之间的通信中断,则会发生重新加载。
最后一次重新加载的原因可以在show version命令的输出中看到:
C9300-Stack#show version
Cisco IOS XE Software, Version 16.12.05b
Cisco IOS Software [Gibraltar], Catalyst L3 Switch Software (CAT9K_IOSXE), Version 16.12.5b, RELEASE SOFTWARE (fc3)
Technical Support: http://www.cisco.com/techsupport
Copyright (c) 1986-2021 by Cisco Systems, Inc.
Compiled Thu 25-Mar-21 13:21 by mcpre
C9300-Stack uptime is 2 days, 1 hour, 18 minutes
Uptime for this control processor is 2 days, 1 hour, 20 minutes
System returned to ROM by Reload Command
System image file is "flash:packages.conf"
Last reload reason: stack merge
以下是堆叠不稳定起作用时常见的重新加载原因:
使用命令show logging onboard switch <number> uptime detail查看堆栈内特定交换机的运行时间历史记录:
C9300-Stack#show logging onboard switch 3 uptime detail
--------------------------------------------------------------------------------
UPTIME SUMMARY INFORMATION
--------------------------------------------------------------------------------
First customer power on : 06/23/2020 04:08:31
Total uptime : 1 years 0 weeks 6 days 23 hours 49 minutes
Total downtime : 0 years 12 weeks 6 days 11 hours 51 minutes
Number of resets : 84
Number of slot changes : 5
Current reset reason : Reload Command
Current reset timestamp : 09/26/2021 14:49:07
Current slot : 3
Chassis type : 22
Current uptime : 0 years 0 weeks 2 days 1 hours 0 minutes
--------------------------------------------------------------------------------
--------------------------------------------------------------------------------
UPTIME CONTINUOUS INFORMATION
--------------------------------------------------------------------------------
Time Stamp | Reset | Uptime
MM/DD/YYYY HH:MM:SS | Reason | years weeks days hours minutes
--------------------------------------------------------------------------------
09/06/2021 21:47:16 stack merge 0 0 0 14 0
09/06/2021 21:52:42 stack merge 0 0 0 0 0
09/06/2021 22:06:01 stack merge 0 0 0 0 10
09/20/2021 15:48:38 Reload Command 0 0 0 0 25
09/20/2021 16:11:59 Reload Command 0 0 0 0 20
09/26/2021 14:49:07 stack merge 0 0 5 22 0
--------------------------------------------------------------------------------
通过重置堆栈硬件,可以解决与重新加载相关的堆栈不稳定问题。 使用验证命令确定哪些交换机不稳定,以及它们重新加载的频率,并重新安装与此成员关联的堆栈硬件。
show switch stack-ports summary命令可用于快速确定哪些设备不稳定:
C9300-Stack#show switch stack-ports summary
Sw#/Port# Port Status Neighbor Cable Length Link OK Link Active Sync OK #Changes to LinkOK In Loopback
-------------------------------------------------------------------------------------------------------------------
1/1 OK 2 50cm Yes Yes Yes 1 No
1/2 OK 3 50cm Yes Yes Yes 6 No
2/1 OK 3 50cm Yes Yes Yes 8 No
2/2 OK 1 50cm Yes Yes Yes 6 No
3/1 OK 1 50cm Yes Yes Yes 6 No
3/2 OK 2 50cm Yes Yes Yes 1 No
在本例中,交换机2经历了长期重新加载。您可以看到,此交换机上的两个堆栈端口显示链路状态的许多更改。 交换机1和3也如此,但这些值可能与交换机2的重新加载相关。重新拔插将交换机1连接到交换机2的堆叠硬件以及交换机2和交换机3之间的硬件。交换机1和交换机3之间的连接没有抖动。
堆叠连接可以在堆叠运行时重新安装,但请确保一次仅重新安装一个链路。 成员交换机的完全断开会导致重新引入时堆叠合并。
与Stackwise相关的早期代码版本中存在已知软件缺陷。如果在重新安装堆栈硬件后问题仍然存在,请升级到推荐版本和/或联系TAC。
相关的Bug ID:
还有一个已知问题会影响Stackwise平台的堆栈硬件,表现为身份验证失败。以下是C9200L的错误消息示例:
Stack Adapter Auth Fail : SIF_SERDES_CABLE_EASTBOUND
*** Stack adapter authentication failed on stack port 1 on switch 1
Error-2:
*** Stack adapter authentication failed on stack port 2 on switch 1
Stack Adapter Auth Fail : SIF_SERDES_CABLE_WESTBOUND
相关的Bug ID:
如果遇到此情况并在重新加载后继续存在,则组件本身可能会受到影响。如需帮助,请联系技术支持中心(TAC)。
问题 — 无法向堆栈添加/替换成员
如果成员未加入,则表明未满足Stackwise的先决条件,或者新成员与堆栈的其余部分之间的连接有问题。
确保满足Stackwise的必备条件:
- 新成员的软件版本必须与堆栈的软件版本匹配。
- 许可证级别必须匹配……
- 操作模式(安装与捆绑包)必须匹配
- 不支持混合PID开关堆叠(有关特定详细信息,请参阅产品手册)。
确保正确安装堆栈套件。C9200L和C9300L需要堆叠适配器。手动拧紧指旋螺钉正确确定硬件方向。注意不要过度拧紧螺钉。
Stackwise-80堆叠套件(C9200L)
使用C9300堆叠套件STACK-T1-XXCM,电缆的制作方式使其可以倒置放置于机箱中。确保Cisco徽标朝上,并且您可以完全固定指旋螺丝,以避免错误安装。
Stackwise-480电缆连接
注意:金属中铣削有思科徽标。确保此徽标正面朝上,而不是颠倒以便正确安装。
如果满足前提条件且硬件安装正确,请验证有问题的交换机是否识别堆栈硬件。此输出特定于C9200L:
Switch#show inventory
NAME: "c92xxL Stack", DESCR: "c92xxL Stack"
PID: C9200L-24P-4X , VID: V01 , SN: JAE2332006G
NAME: "Switch 1", DESCR: "C9200L-24P-4X" <<<---- This entry represents the chassis
PID: C9200L-24P-4X , VID: V01 , SN: JAE2332006G
NAME: "StackPort1/1", DESCR: "StackPort1/1" <<<--- This entry represents the 50CM cable connected in Stackport 1/1
PID: STACK-T4-50CM , VID: V01 , SN: LCC2325G3XW
NAME: "StackPort1/2", DESCR: "StackPort1/2" <<<--- This entry represents the 50CM cable connected in Stackport 1/2
PID: STACK-T4-50CM , VID: V01 , SN: LCC2325G410
NAME: "StackAdapter1/1", DESCR: "StackAdapter1/1"
PID: C9200-STACK , VID: V01 , SN: JAE2332133J <<<--- This entry represents the stack adapter in Stackport 1/1
NAME: "StackAdapter1/2", DESCR: "StackAdapter1/2"
PID: C9200-STACK , VID: V01 , SN: JAE23321DDK <<<--- This entry represents the stack adapter in Stackport 2/2
如果交换机无法识别堆叠套件中的一个或多个组件,则需要进一步研究此问题。 联系TAC寻求帮助。
问题 — C9300X混合堆栈拆分为子环/不匹配的堆栈速度
C9300X引入了高速(1TB)。支持C9300X和非高速堆叠的混合堆叠,但在此情况下,整个堆叠的堆叠环速度与最慢成员的速度匹配。
堆叠接口速度不匹配会导致堆叠拆分。使用show switch stack-ring speed确认堆栈环速度。
Device#show switch stack-ring speed
Stack Ring Speed : 1000G
Stack Ring Configuration: Full
Stack Ring Protocol : StackWise
Stack Ring Next-boot Speed: 1000G
使用交换机堆叠速度更改堆叠环速度[高 |低]。
Device# switch stack-speed high
验证和验证Stackwise
本节提供用于验证和验证的命令Stackwise确保正确设置堆栈并运行 如预期.
show switch detail命令提供有关堆栈硬件、端口状态和邻居详细信息的信息。它还标识了当前的主用和备用交换机以及任何成员交换机。
C9300-Stack#show switch detail
Switch/Stack Mac Address : 9077.ee4a.6b00 - Local Mac Address
Mac persistency wait time: Indefinite
H/W Current
Switch# Role Mac Address Priority Version State
-------------------------------------------------------------------------------------
*1 Active 9077.ee4a.6b00 15 V03 Ready
2 Standby 7cad.4f5f.e000 1 V03 Ready
3 Member 9077.ee4a.6e00 1 V03 Ready
Stack Port Status Neighbors
Switch# Port 1 Port 2 Port 1 Port 2
--------------------------------------------------------
1 OK OK 2 3
2 OK OK 3 1
3 OK OK 1 2
命令show switch stack-ports summary提供有关堆栈环特性的详细信息。
提示:请注意链#Changes正常,此列中大于1的值表示不稳定。
C9300-Stack#show switch stack-ports summary
Sw#/Port# Port Status Neighbor Cable Length Link OK Link Active Sync OK #Changes to LinkOK In Loopback
-------------------------------------------------------------------------------------------------------------------
1/1 OK 2 50cm Yes Yes Yes 1 No
1/2 OK 3 50cm Yes Yes Yes 1 No
2/1 OK 3 50cm Yes Yes Yes 1 No
2/2 OK 1 50cm Yes Yes Yes 1 No
3/1 OK 1 50cm Yes Yes Yes 1 No
3/2 OK 2 50cm Yes Yes Yes 1 No
命令show switch stack-bandwidth可以快速确定交换机是半容量运行还是全容量运行。
C9300-Stack#show switch stack-bandwidth
Stack Current
Switch# Role Bandwidth State
------------------------------------------------------------
*1 Active 480G Ready
2 Standby 480G Ready
3 Member 480G Ready
联系 TAC
如果尝试补救后问题仍然存在,请联系TAC。确保您的TAC案例已随相关数据一起提交,以防延迟。有用的数据集包括:
输出 — show technical-support
此实用程序提供相关show命令集合的输出。输出是详细的,因此在运行实用程序时请记住这一点。将输出重定向到文件,或以其他方式以文本格式保存输出并上传到TAC案例。
C9300-Stack#show tech-support
存档文件 — 二进制tracelog存档
此实用程序利用平台的持久跟踪功能。使用这些命令生成存档,将其保存到本地闪存介质中。
C9300-Stack#request platform software trace slot switch 1 r0 archive
Creating archive file [flash:C9300-Stack_1_RP_0_trace_archive-20210929-151348.tar.gz]
Done with creation of the archive file: [flash:C9300-Stack_1_RP_0_trace_archive-20210929-151348.tar.gz]
C9300-Stack#request platform software trace slot switch 2 r0 archive
Creating archive file [flash-2:RP_0_trace_archive-20210929-151358.tar.gz]
Done with creation of the archive file: [flash-2:RP_0_trace_archive-20210929-151358.tar.gz]
C9300-Stack#request platform software trace slot switch 3 r0 archive
Creating archive file [flash-3:RP_0_trace_archive-20210929-151450.tar.gz]
Done with creation of the archive file: [flash-3:RP_0_trace_archive-20210929-151450.tar.gz]
该实用程序为每个成员运行。文件名和位置在实用程序的输出中指定。文件将写入运行该实用程序的交换机的本地闪存介质。将文件附加到TAC案例。
在意外重新加载之前,通常会先向本地介质执行二进制跟踪转储。这些存档非常有用,代表手动创建的存档中可能丢失的数据。
检查每个成员的flash/crashinfo中是否写入了相关文件。查找在系统恢复之前直接写入的文件。
使用命令show version或show logging onboard switch <number> detail确定系统重新启动的时间。
C9300-Stack#show version
Cisco IOS XE Software, Version 16.12.01
Cisco IOS Software [Gibraltar], Catalyst L3 Switch Software (CAT9K_IOSXE), Version 16.12.1, RELEASE SOFTWARE (fc4)
Technical Support: http://www.cisco.com/techsupport
Copyright (c) 1986-2019 by Cisco Systems, Inc.
Compiled Tue 30-Jul-19 19:26 by mcpre
<snip>
<snip>
C9300-Stack uptime is 5 hours, 5 minutes
Uptime for this control processor is 4 hours, 50 minutes
System returned to ROM by SSO Switchover
System restarted at 14:04:40 EST Sun Feb 14 2021
System image file is "flash:packages.conf"
Last reload reason: stack merge
C9300-Stack#show logging onboard switch 2 uptime detail
--------------------------------------------------------------------------------
UPTIME SUMMARY INFORMATION
--------------------------------------------------------------------------------
First customer power on : 02/12/2020 00:56:09
Total uptime : 0 years 0 weeks 5 days 0 hours 28 minutes
Total downtime : 0 years 13 weeks 0 days 18 hours 31 minutes
Number of resets : 22
Number of slot changes : 1
Current reset reason : stack merge
Current reset timestamp : 02/14/2021 14:04:40
Current slot : 2
Chassis type : 52
Current uptime : 0 years 0 weeks 0 days 8 hours 0 minutes
--------------------------------------------------------------------------------
<snip>
查找在系统重新加载时写入的存档文件,或直接在加载前写入的存档文件。包括系统报告的文件名通常包含TAC可用于调查的可行信息。
TAC可以识别其他感兴趣的存档。
C9300-Stack#dir crashinfo:
-#- --length-- ---------date/time--------- path
2 16384 Feb 14 2021 18:51:37.0000000000 +00:00 tracelogs
3 1623 Feb 14 2021 14:02:08.0000000000 +00:00 tracelogs/flashutil_R0-0.7398_0.20210214190148.bin.gz
4 358 Feb 14 2021 14:02:08.0000000000 +00:00 tracelogs/binos_R0-0.6831_0.20210214190148.bin.gz
5 63823 Feb 12 2021 06:45:15.0000000000 +00:00 tracelogs/dmesg
6 10 Feb 12 2021 06:45:15.0000000000 +00:00 tracelogs/timestamp
7 935 Feb 14 2021 14:02:08.0000000000 +00:00 tracelogs/install_engine_R0-0.3330_0.20210214190144.bin.gz
8 730 Feb 14 2021 14:02:08.0000000000 +00:00 tracelogs/tdl_boottime_R0-0.6801_0.20210214190148.bin.gz
9 1149 Feb 14 2021 14:02:08.0000000000 +00:00 tracelogs/issu_boottime_R0-0.6809_0.20210214190148.bin.gz
<snip>
271 2509408 Feb 14 2021 13:41:46.0000000000 +00:00 system-report_2_20210214-134145-EST.tar.gz
272 1813204 Feb 14 2021 14:00:24.0000000000 +00:00 system-report_2_20210214-140023-EST.tar.gz
摘要
通过重新放置堆栈套件,立即解决长期不稳定问题,即一台或多台交换机每天重新加载几次。
对于一个或多个成员意外重新加载的堆栈相关重新加载,请确定哪些成员不稳定,并确保这些交换机正确连接到堆栈。如果问题仍然存在,请确保您的交换机运行推荐的代码并联系TAC。
相关信息
Catalyst 9200系列交换机上的Cisco StackWise架构白皮书
Catalyst 9300 Stackwise系统架构白皮书
堆叠和高可用性配置指南,Cisco IOS XE Amsterdam 17.3.x(Catalyst 9200交换机)
堆叠和高可用性配置指南,Cisco IOS XE Bengaluru 17.5.x(Catalyst 9300交换机)
技术支持和文档 - Cisco Systems