简介
本文档介绍如何排除大多数UCS服务器类型都可能出现的服务器不可访问故障的常见原因。
先决条件
要求
思科建议您了解统一计算系统管理器(UCSM)和Intersight管理模式(IMM)下的服务器管理知识。
使用的组件
本文档不限于特定的软件和硬件版本。
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。
背景信息
用户在其UCS域中可能会收到一个常见故障,即通知您服务器不可访问。这可能是由于多种原因,并且根据监控工具和UCSM/IMM版本的不同,故障可能看起来有几种不同的方式。
System Notification from [UCSM Domain Name] - diagnostic:GOLD-minor - 2023-05-25 01:56:41 GMT-04:00 Recovered : Server x/y (service profile: org-root/ls-[service_profile]) inaccessible
Serial number: [Server Serial]
Alert: System Name: [UCSM Domain Name]
Time of Event:2022-08-31 03:15:04 GMT-05:00 Event Description:Server x (service profile: org-root/ls-[service_profile]) inaccessible Severity Level:4
如果使用IMM,则在GUI中可能会看到“Connection to Server was lost”消息。还可以观察到与Intersight故障的断开。
与服务器的连接已丢失IMM
当刀片上的思科集成管理控制器(CIMC)遇到问题并重新启动或尝试重新启动时,可以看到此警报。这会触发服务器不可访问警报,因为当刀片的管理平面重新启动时,UCSM/IMM无法与刀片通信,因此它认为刀片不可访问。CIMC重新启动后,刀片状态恢复正常。
这就是为什么您可以收到此警报,然后当您检查域时,服务器会查找并正常运行。
常见缺陷参考
思科漏洞ID CSCwe19822 — 适用于X系列在4.2(2c)/5.0(1c)之后的M5/M6服务器
思科漏洞ID CSCwa8567 — 适用于4.1(3e)- 4.2(2a)之间的M5/M6服务器,还包括5.0(1b)之后的X系列
思科漏洞ID CSCvz62711 — 适用于4.1(3d)- 4.2(2a)之间的M5/M6服务器
思科漏洞ID CSCwi50991 — 适用于4.3(2e)之前代码为M5/M6系列的刀片
思科漏洞ID CSCvv7912 — 适用于介于4.0(4h)和4.2(1a)/4.1(3d)之间的M5/M6服务器
思科漏洞ID CSCvh25786 — 适用于2.0(13f)和3.0(4a)之后的M4/M5服务器
故障排除
场景 1
第一种最常见的情况是收到警报,然后在检查UCSM/IMM时,服务器看起来运行正常,没有(新)故障。检查操作系统时,系统似乎已正常运行且没有中断。
UCSM中的正常服务器
日志捆绑包在CIMCx_TechSupport.tar.gz > obfl > obfl-log中的一个可找到的OBFL日志中显示此消息。
3:2022 Sep 8 10:54:33 UTC:+0000:(4.2(2d)):kernel:-:[watchdog_init]:976:BMC Watchdog resetted BMC.
这说明CIMC是自己崩溃并重新启动的。
在此场景中,由于CIMC成功重启,且服务器不存在问题,因此无需执行进一步的操作。
场景 2
下一个情况是接收警报,然后在检查UCSM/IMM时,如果使用UCSM,服务器仍显示为不可访问;如果使用IMM,则服务器仍显示为已断开。 检查操作系统时,系统似乎已正常运行且没有中断。
由于操作系统已启动并运行,但UCSM/IMM无法与刀片通信,这意味着CIMC未重新启动或在进程中停止。
此场景中的第一步是通过SSH或控制台连接到交换矩阵互联(FI),并运行此命令,用受影响的机箱/刀片替换x/y。有三种不同的结果。
1)成功连接到CIMC。
UCSM-A# connect cimc x (For C Series Rack Mount Server)
UCSM-A# connect cimc x/y (For B/X Series Blade Server)
Trying 127.5.1.1...
Connected to 127.5.1.1.
Escape character is '^]'.
CIMC Debug Firmware Utility Shell [ support ]
[ help ]#
如果看到此输出,则CIMC上仍有一些生命期,您可以尝试重置CIMC以恢复刀片。
如果使用UCSM,导航到设备>机箱>机箱编号>服务器>服务器编号>恢复服务器>重置CIMC。
刀片的Recover Server的位置
重置CIMC
如果正在使用IMM,请导航到受影响的服务器,然后选择操作>系统>重新启动管理控制器。
重新启动管理控制器IMM
如果在重新启动CIMC后,服务器恢复正常,则问题会得到解决,不需要执行进一步的操作。
如果故障仍然存在,请继续执行下一次connect cimc输出的故障排除步骤。
2)连接到CIMC失败。
UCSM-A# connect cimc x (For C Series Rack Mount Server)
UCSM-A# connect cimc x/y (For B/X Series Blade Server)
Trying 127.5.1.8...
telnet: Unable to connect to remote host: No route to host
3)与CIMC摊位的连接。在这种情况下,运行命令后不会发生任何操作,在尝试转义(Ctrl + C)时,会观察到此情况。
UCSM-A# connect cimc x (For C Series Rack Mount Server)
UCSM-A# connect cimc x/y (For B/X Series Blade Server)
^C
Console escape. Commands are:
l go to line mode
c go to command mode
z suspend telnet
e exit telent
continuing...
最后两个输出中任意一个的故障排除相同。在这些情况下,CIMC完全关闭且无法与交换矩阵互联通信。需要重新启动服务器才能恢复CIMC。重新引导刀片时,始终建议使用维护窗口。
如果正在使用UCSM,则可以通过使用SSH连接到交换矩阵互联并运行此命令来用受影响的机箱/服务器替换x/y来模拟物理重新拔插刀片。您必须输入正确的机箱/服务器,因为此命令不会提示您进行确认。
UCSM-A# reset slot x/y
注:reset slot命令会立即重新启动指定插槽x/y中的刀片。如果操作系统仍在运行,请确保服务器可以安全重新启动。
如果成功,此命令不会返回任何内容。如果命令无法执行,将显示一条消息。
如果IMM正在使用中,或者reset slot命令未解决无法访问的问题,则唯一的其它选项是物理重新定向刀片。
如果在实际重新拔插刀片后,问题仍会联系TAC进行进一步的故障排除。
场景 3
最终情况是收到警报,然后当检查UCSM/IMM时,如果使用UCSM,服务器仍显示为不可访问;如果使用IMM,则服务器仍显示为已断开。 检查操作系统时,该操作系统已关闭且无法访问。
在这种情况下,唯一能做的就是重新启动服务器。如果无法重新启动,请实际重新安装服务器。
如果在实际重新拔插刀片后,问题仍会联系TAC进行进一步的故障排除。
结论
接收服务器不可访问故障的原因可能很多,其中有些故障比其他故障更为严重。此处的步骤是一个很好的起点,可用于评估是否需要执行任何故障排除,或者您的域是否正常且无需执行任何操作。