简介
本文档介绍如何对思科统一计算系统(UCS)环境中的RAID控制器问题进行故障排除、收集日志和建议所需的操作。
先决条件
要求
本文档没有任何特定的要求。
使用的组件
本文档中的信息基于以下软件和硬件版本:
- UCS
- 思科统一计算系统管理器(UCSM)
- RAID控制器
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。
已知UCSM故障代码
UCSM故障:F1004
说明:服务器X上的控制器X无法运行。理由:设备无响应。
UCSM故障:F1004
描述:服务器2上的控制器1无法运行。理由:设备报告数据损坏。
UCSM故障:F1007
说明:服务器X上的虚拟驱动器X的可操作性:无法操作。理由:驱动器状态:未知。
UCSM故障:F0181
描述:服务器3/4上的本地磁盘1的可操作性:无法操作。理由:驱动器状态:未知。
UCSM故障:F1834
描述:服务器2/7上的控制器1已降级。理由:controller-flash-is-degraded。
更换RAID控制器
更换RAID控制器时,存储在控制器中的RAID配置将丢失。使用此过程将RAID配置恢复到新的RAID控制器。
传统模式
步骤1.关闭服务器电源,更换RAID控制器。
警告:如果是完全机箱更换,请按照旧机箱中安装的相同顺序将所有驱动器更换到驱动器槽位。在将驱动器从当前机箱中移除之前,请标记每个磁盘订单。
步骤2.重新启动服务器并观察提示 按F
当您看到此屏幕提示时,按F。
Foreign configuration(s) found on adapter.
Press any key to continue or 'C' load the configuration utility, or 'F' to import foreign configuration(s)
参考链接:https://www.cisco.com/c/en/us/td/docs/unified_computing/ucs/c/sw/raid/configuration/guide/RAID_GUIDE/MegaRAID.html
注意:在更换RAID控制器之前,VD应是最佳的,并且可从主机访问。
UEFI引导模式
步骤1.检查服务器是否在统一可扩展固件接口(UEFI)模式下配置。

步骤2.关闭服务器电源,更换RAID控制器。
警告:如果是完全机箱更换,请按照旧机箱中安装的相同顺序将所有驱动器更换到驱动器槽位。在将驱动器从当前机箱中移除之前,请标记每个磁盘订单。
步骤3.重新启动服务器并查看F2提示符。
步骤4.当提示进入BIOS设置实用程序时,按F2。
步骤5.在“设置实用程序”下,导航至“高级”>“选择控制器”>“配置”,然后单击“导入外部配置”。

注意:在更换RAID控制器之前,VD应是最佳的,并且可从主机访问。
要收集的日志
请确保这些日志已附加到TAC案例。
- 服务器技术支持(_T)
- UCSM_techsupport(如果适用)
- 操作系统日志和驱动程序详细信息
- LSIget / storcli日志
- 屏幕截图(如果适用)(示例PSOD)
注意:如果控制器未响应,则storcli日志不会捕获任何内容。如果控制器开始响应,请重新启动服务器,然后收集Storcli日志。如果仍然没有响应,请在重新启动服务器前后收集server_techsupport。
如何收集Storcli日志?
LSIGET是运行实用程序所有命令的脚本。STORCLI是实用程序本身。
注意:始终从Broadcom网站下载并使用最新的Lisget。
已安装操作系统
Linux操作系统:
要在Linux操作系统上安装StorCLI,请执行以下步骤。
- 解压StorCLI软件包。
- 要安装StorCLI RPM,请运行rpm -ivh <StorCLI-x.xx-x.noarch.rpm>命令。
- 要升级StorCLI RPM,请运行rpm -Uvh <StorCLI-x.xx-x.noarch.rpm>命令。
要捕获的命令:
./storcli /c0 /eall show phyerrorCounters > Phy.txt
./storcli /c0 show termlog > Termlog.txt
./storcli /c0/eall/sall show all > PD.txt
./storcli /c0/vall show all > VD.txt
./storcli/c0 show eventloginfo > eventlog.txt
./storcli /c0 show pdfailevents > PDFailEvents.txt
下载Linux OS的LSIget脚本。
https://www.broadcom.com/support/knowledgebase/1211161499563/lsiget-data-capture-script&dskeyword=lsiget&dsperpage=10&tab=search
ESXI操作系统
步骤1.从此处下载Storcli实用程序: https://docs.broadcom.com/docs/1.19.04_StorCLI.zip
步骤2.将storcli.vib从源文件夹复制到ESXi Datastore。请检查自述文件并使用相应的VIB文件。
步骤3.安装storcli实用程序,如图所示。请注意,您可能需要指定VIB所在的datastore的完整路径。
esxcli软件vib install -v /vmfs/volumes/<datastore>/vmware-esx-storcli.vib —no-sig-check
步骤4.导航至/opt/lsi/storcli目录并执行任何storcli命令,以检查该实用程序是否能够收集日志。
示例:./storcli /c0 show all
步骤5.从此链接下载LSIget实用程序。
https://www.broadcom.com/support/knowledgebase/1211161499563/lsiget-data-capture-script&dskeyword=lsiget&dsperpage=10&tab=search
步骤6.选择VMware版本。
步骤7.将文件复制到主机OS Datastore。
步骤8.运行命令tar -zxvf lsigetvmware_062514.tgz(已针对下载的文件名/版本进行更正)。
ESXi 6.0上的输出示例:
/vmfs/volumes/52a767af-784a790c-3505-a44c1129fe2c/LSI # tar -zxvf lsigetvmware_062514.tgz
/vmfs/volumes/52a767af-784a790c-3505-a44c1129fe2c/LSI # ls
lsigetvmware_062514 lsigetvmware_062514.tgz
/vmfs/volumes/52a767af-784a790c-3505-a44c1129fe2c/LSI # cd lsigetvmware_062514/
/vmfs/volumes/52a767af-784a790c-3505-a44c1129fe2c/LSI/lsigetvmware_062514 # ls
Readme.txt all_cli lsigetlunix.sh
/vmfs/volumes/52a767af-784a790c-3505-a44c1129fe2c/LSI/lsigetvmware_062514 # ./lsigetlunix.sh
命令的./lsigetlunix.sh -D -Q版本可用于在静默模式下运行脚本,以减少对生产的影响。
步骤9.工具成功完成后,将生成tar.gz文件。将此文件附加到TAC案例,只需上传普通技术支持捆绑包的方式即可。
操作系统未安装
下载Storcli工具:https://www.broadcom.com/support/download-search
步骤1.从管理软件和工具(链接)下载Storcli,提取文件夹并导航EFI文件夹。获取扩展名为。EFI的Storcli文件,如图所示。


步骤2.按任何名称创建新文件夹,此处由名称EFI创建,并复制该文件夹中的storcli.efi。
启动服务器的KVM,如图所示,转至虚拟媒体创建映像选项。
浏览以在“从文件夹创建映像”弹出窗口中提供源文件夹。此处选择的源文件夹是之前创建的EFI文件夹,它包含storcli.efi文件。
此外,浏览IMG文件的目标路径。如图所示,单击“完成”(Finish)创建IMG文件。

注意:此处使用基于JAVA的KVM从storcli.efi转换到EFI.IMG。
步骤3.启动KVM,连接efi.img


步骤4.映射EFI映像。
注意:请勿勾选“只读”(READ ONLY)复选框。

如何使用HTML5 KVM将Storcli.efi转换为efi.IMG文件
背景
从CIMC/UCSM 4.1开始,Java KVM不再可用于创建读/写映像文件。此外,从CIMC/UCSM 4.1开始,基于JAVA的KVM将不再可用。
详细步骤
步骤 A:您需要一台Linux计算机来执行以下步骤。
步骤 B:[root@localhost /]# dd if=/dev/zero of=hdd.img bs=1024 count=102400
输入 102400+0 条记录
输出 102400+0 条记录
104857600字节(105 MB)已复制,0.252686秒,415 MB/s
步骤 C:[root@localhost /]# mkfs.msdos hdd.img
mkfs.fat 3.0.20(2013年6月12日)
注意:如果您没有将MSDOS看作扩展,则需要按照此处所示安装相应的.RPM。使用“Yum list”查看软件包是否在其他位置,您需要从Internet或Redhat下载。
[root@localhost /]# rpm -ivh dosfstools-3.0.20-10.el7.x86_64.rpm
警告:dosfstools-3.0.20-10.el7.x86_64.rpm:报头V3 RSA/SHA256签名,密钥ID f4a80eb5:NOKEY
正在准备…… ############################################# [100%]
正在更新/安装……
1:dosfstools-3.0.20-10.el7 ################################### [100%]
步骤 D:安装hdd.img
[root@localhost /]# mount -oloop hdd.img /mnt/hdd
步骤 E:复制所需文件(storecli.efi文件)
[root@localhost EFI]# cp storcli.efi /mnt/hdd
[root@localhost EFI]#
[root@localhost EFI]# ls
storcli.efi
步骤 F:Umount /mnt/hdd
[root@localhost EFI]# umount /mnt/hdd
步骤 G:验证hdd.img类型。浏览到目录并运行命令,如下所示。
[root@localhost /]#文件hdd.img
hdd.img:x86引导扇区、mkdosfs引导消息显示、代码偏移量0x3c、OEM-ID“mkfs.fat”、扇区/集群4、根条目512、媒体描述符0xf8、扇区/FAT 200、头64、扇区204800(卷> 32 MB)、保留的0x1、串行编号0x6f39955b,未标记,FAT(16位)
第H步:使用Winscp或任何其他文件传输工具复制映像并将其传输到所需的系统。
步骤 I:启动HTML5 KVM。单击激活虚拟设备> Removeable disk > Browse以选择从Linux计算机复制的“hdd.img”,然后单击映射驱动器。
步骤5.引导到EFI外壳后,运行此命令(map -r),如此图所示。


步骤6.运行此命令fs<X>:,其中X =从映射表接收的控制器编号。

步骤7.运行命令cd EFI。

步骤8.键入ls以确认存在storcli.efi。运行命令Storcli.efi show以确认您位于正确的RAID控制器内。现在,您应该看到目录结构中有storcli.efi可用,并可以从此处运行storcli.efi命令。

运行以下命令以收集日志:
storcli.efi /c0/vall show all >showall.txt
storcli.efi /c0/vall show all > vall.txt
storcli.efi /c0/eall show all >eall.txt
storcli.efi /c0 show termlog > termlog.txt
storcli.efi /c0/eall/sall show all > showall.txt
storcli.efi /c0 show events file > Events.txt
storcli.efi /c0/eall show phyerrorcounters > phy.txt
storcli.efi /c0 show snapdump
storcli.efi /c0 get snapdump id=all file=snapdump.zip
Storcli.efi /c0 show pdfailevents file=pdfailevents.txt
此时,您需要将文件提交到Cisco TAC进行分析。卸载.img文件,然后将日志上传到Cisco TAC案例。
虚拟驱动器状态和推荐步骤
虚拟驱动器是最佳的 — 虚拟驱动器运行状况良好。所有已配置的驱动器都处于联机状态。
无需操作。
虚拟驱动器已降级 — 虚拟驱动器的运行状态不最佳。其中一个已配置的驱动器发生故障或处于脱机状态。
要执行的操作 — 尽快更换驱动器。首先,进行数据备份。
虚拟驱动器已部分降级 — RAID 6虚拟驱动器中的操作条件不最佳。其中一个已配置的驱动器发生故障或处于脱机状态。RAID 6最多可容忍两个驱动器故障。
要执行的操作 — 尽快更换驱动器。
虚拟驱动器脱机 — 虚拟驱动器对RAID控制器不可用。这实质上是失败状态。
要执行的操作 — 将RAID恢复到降级状态并备份数据。立即更换驱动器。
虚拟驱动器脱机且新存储控制器 — 虚拟驱动器对RAID控制器不可用。这实质上是失败状态。
要执行的操作 — 请勿更换存储控制器。联系TAC寻求帮助
相关信息