此产品的文档集力求使用非歧视性语言。在本文档集中,非歧视性语言是指不隐含针对年龄、残障、性别、种族身份、族群身份、性取向、社会经济地位和交叉性的歧视的语言。由于产品软件的用户界面中使用的硬编码语言、基于 RFP 文档使用的语言或引用的第三方产品使用的语言,文档中可能无法确保完全使用非歧视性语言。 深入了解思科如何使用包容性语言。
思科采用人工翻译与机器翻译相结合的方式将此文档翻译成不同语言,希望全球的用户都能通过各自的语言得到支持性的内容。 请注意:即使是最好的机器翻译,其准确度也不及专业翻译人员的水平。 Cisco Systems, Inc. 对于翻译的准确性不承担任何责任,并建议您总是参考英文原始文档(已提供链接)。
本文档介绍运行Unified Computing System Manager(UCSM)运行状况和升级前检查工具的流程。
思科建议您在系统上安装Python 3.6或更高版本。
注意:如果您正在运行Windows操作系统,则可以安装Python并配置环境路径。
注:请勿打开TAC案例,因为Python问题/脚本运行失败。请参阅CLI命令部分,以手动确定问题并按确定的问题打开TAC案例
本文档不限于特定的软件和硬件版本。
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。
UCSM检查工具是一个实用程序,用于在UCSM上执行主动自检,以确保其稳定性和恢复能力。它有助于在UCS基础设施进行升级和维护操作时,自动执行UCS系统的运行状况和升级前检查列表,从而节省时间。
注意:请始终下载并使用工具的最新版本。由于该工具经常增强,因此当您使用较旧版本时,它可能会遗漏重要的检查。
注意:此脚本是尽力而为的,可免费使用,且无法识别所有可能的问题。
步骤1:从Python下载下载最新版本的Python
第二步:使用常规安装过程并单击Install Now(推荐的安装)下载安装程序。
注意:确保选中Add Python to PATH。
第三步:导航到系统上安装Python的目录。
第四步:打开命令提示符并键入命令Python以验证python安装。
第五步:从此处下载运行状况检查脚本的最新版本并保存到文件夹。现在,提取压缩文件,如图所示。
第六步:下载最新UCSM技术支持日志并将其保存到所创建的文件夹,如图所示。单击此链接可查找下载UCSM日志捆绑包的步骤;生成UCSM技术支持。
步骤 7.打开CMD并cd以找到UCSMTool.py所在的文件夹,然后运行UCSMTool.py,如图所示。
步骤 8输入UCSM技术支持文件所在的文件路径并选择所需选项。
1. UCSM运行状况检查
2.升级前检查
步骤1:MacOS随附已安装默认python,请验证已安装的python版本,如下所示:
注:如果python版本低于3.6,请升级到3.6及更高版本。
注:如果python版本为3.6或更高版本,请跳至步骤5,否则跳至步骤2。
第二步:从https://www.python.org/downloads/macos/下载最新版本的Python。
第三步:使用常规安装过程完成/升级python安装。
第四步:从此处下载运行状况检查脚本的最新版本,并将其保存到文件夹中。现在,提取压缩文件,如图所示。
第五步:下载最新的UCSM技术支持日志并将其保存到所创建的文件夹,如下图所示。单击链接查找下载UCSM日志捆绑包的步骤;生成UCSM技术支持。
第六步:打开终端,浏览到下载运行状况检查脚本的目录,运行python UCSMTool.py或python3UCSMTool.py,如下所示。
步骤 7.输入UCSM技术支持文件所在的文件路径,然后选择所需的选项来执行脚本。
1. UCSM运行状况检查
这些检查由UCSM-Healthchecktool执行:
UCSM HA集群 状态: 显示交换矩阵互联的集群状态。
PMON进程 状态: 显示Cisco UCS Manager中所有进程的状态。
文件系统装载:显示装载表。
检查/var/sysmgr大小问题:检查/var/sysmgr使用情况。
检查/var/tmp大小问题:检查/var/tmp使用情况。
6296 FI在重新通电后无响应,硬件修订版更新:验证交换矩阵互联模块及其硬件修订版号。
严重程度为严重程度为严重程度为严重或严重程度为严重程度的故障:如果UCS Manager中有任何严重或严重程度警报,则报告。
选中Backup Available:验证UCS Manager中是否有可用备份。
密钥环证书 检查: 检查密钥环是否过期或有效。
需要或不需要Safeshut解决方案:通过验证FI模型及其版本来检查是否需要或不需要shafeshut解决方法。
Cisco UCS Manager 4.x版本中已弃用的硬件:检查Cisco UCS Manager 4.x版本中已弃用的任何硬件。
从3.1.x版本起已弃用的硬件:在Cisco UCS Manager 3.x版本中检查任何已弃用的硬件
检查B200M4是否由于空白MRAID12G字段而重新启动:检查B200M4服务器是否具有空白MRAID12G RAID控制器S/N。
UCSM 3.1最大功率分配更改会导致刀片发现失败:验证UCS Manager中配置的电源策略。
bootflash corruption fault code F1219:检查是否存在bootflash corruption。
检查httpd在删除默认密钥环时是否无法启动:检查是否删除了默认密钥环。
第3代FI具有不干净的文件系统状态 — “Filesystem state: clean with errors”:检查文件系统错误。
检查服务器自动安装至4.0(4b)无法激活SAS控制器:验证主机固件版本和SAS扩展器版本
检查C系列固件升级是否持续很长时间“执行服务器清单” PNU OS清单:它会验证服务器型号及其版本,以确定您是否遇到此问题。
检查使用句点或连字符的UCSM身份验证域:验证身份验证域名是否配置了句点或连字符。
本地或回退身份验证失败:检查为特定FI模型配置的身份验证方法并验证其版本。
UCSM和UCS中心之间的运行状况检查:验证UCSManager是否已向UCS中心注册
LAN和SAN引脚组:检查集群中的lan/san固定配置,突出显示以在升级之前查看配置/任何MW活动
检查UCSM中存在的挂起活动:验证UCS Manager域中是否有任何挂起活动。
IOM运行状况检查:检查IO模块的整体运行状况。
Core Files available in UCSM Check:验证60天内是否发现了任何Core File。
分离L2潜在配置错误:如果配置了分离L2,请验证是否存在任何配置错误。
VIC 1400和6400链路抖动问题:检查是否存在此缺陷
在固件更新期间检查2304 IOM断开连接并重新连接:验证交换矩阵互联和IO模块型号,并确定是否存在任何潜在问题。
DME运行状况检查:验证数据管理引擎(DME)数据库的运行状况。
FI上接口和浮动匹配的数量:验证接口和浮动会话的数量
超巨型或标准MTU检查:确定MTU配置。
afrahmad@AFRAHMAD-M-C3RS ucsm_health_check-master $ python UCSMTool.py
UCS Health Check Tool 1.1
Enter the UCSM file path: /Users/afrahmad/Desktop/20190328180425_fabric-5410-1k08_UCSM.tar
Press 1 for UCSM Health Check
Press 2 for PreUpgrade Check
Enter your choice (1/2): 2
Enter the UCS Target Version [Ex:4.1(1x)]: 4.2(1i)
Log Extraction: [########################] COMPLETED
UCSM Version: 3.2(3h)A
Target Version: 4.2(1i)
Upgrade Path: 3.2(3) ==> 4.2(1i)
Summary Result:
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| SlNo | Name | Status | Comments |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 1 | UCSM HA Cluster State | PASS | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 2 | PMON Process State | PASS | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 3 | File System Mount | PASS | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 4 | Check for /var/sysmgr size issue | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 5 | Check for /var/tmp size issue | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 6 | 6296 FI unresponsive after power cycle, HW revision update | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 7 | Faults with Severity Major or Severity Critical | Found | Review the faults and Contact TAC, if needed |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 8 | Check Backup Available | No Backup | Please ensure to take backup, |
| | | | Refer this link: |
| | | | http://go2.cisco.com/UCSBackup |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 9 | Keyring Cert Check | PASS | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 10 | Safeshut Workaround Needed or Not | Not Needed | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 11 | Deprecated Hardware in Cisco UCS Manager Release 4.x | Found | Review the release notes to verify the hardware compatibility. |
| | | | Refer this link: |
| | | | http://go2.cisco.com/RN-4 |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 12 | Deprecated HW found for 3.1.x onwards | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 13 | Check for B200M4 reboot due to blank MRAID12G fields | Found | Contact TAC |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 14 | UCSM 3.1 Change in max power allocation causes blade discovery | Not Found | |
| | failure | | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 15 | Existence of bootflash corruption fault code F1219 | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 16 | Check for httpd fail to start when default keyring is deleted | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 17 | 3rd GEN FIs has unclean file system states-"Filesystem state: | Not Found | |
| | clean with errors" | | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 18 | Check for Server Auto-Install to 4.0(4b) Fails to Activate SAS | Not Found | |
| | Controller | | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 19 | Check for C-Series firmware upgrade stays long in process | Not Found | |
| | "perform inventory of server" PNU OS Inventory | | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 20 | Check UCSM Authentication Domain using a Period or Hyphen | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 21 | Local or fallback Authentication failure | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 22 | Health check between UCSM and UCS central | Not Found | UCS Manager is Not Registered |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 23 | LAN and SAN Pin Groups | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 24 | Checking Pending Activities Present in UCSM | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 25 | Health Check for IOM | PASS | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 26 | Core Files available in UCSM Check | Not Found | No core files were found in last 60 days |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 27 | Disjoint L2 potential misconfiguration | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 28 | VIC 1400 and 6400 Link Flap Issue | Not Found | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 29 | Check 2304 IOMs disconnect and re-connect during firmware update | Not Found | |
| | step | | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 30 | Number of Interface up and Flogi Matching on FI | --- | Primary: |
| | | | FC Port Trunking Count: 0, |
| | | | Eth up Port: 5, |
| | | | Flogi Count: 12 |
| | | | Secondary: |
| | | | FC Port Trunking Count: 0, |
| | | | Eth up Port: 5, |
| | | | Flogi Count: 12 |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
| 31 | Jumbo or Standard MTU Check | NOT_FOUND | |
+------+-------------------------------------------------------------------+------------+----------------------------------------------------------------+
Faults with Severity Major:
F0207: Adapter ether host interface 3/3/1/2 link state: down
F0207: Adapter ether host interface 3/3/1/4 link state: down
F0207: Adapter ether host interface 3/3/1/3 link state: down
F0283: ether VIF 1153 on server 3 / 3 of switch B down, reason: Admin config change
F0479: Virtual interface 1153 link state is down
We would recommend Customers should complete the below prior to an upgrade:
a. Review firmware release notes
b. Review compatibility
c. Upload required images
d. Generate/Review UCSM show tech
e. Determine vulnerable upgrade bugs and complete pro-active workaround
f. Verify FI HA and UCSM PMON status
g. Generate all configuration and full state backups (right before upgrade)
h. Verify data path is ready (right before upgrade)
i. Disable call home (right before upgrade)
NOTE:
a. All reports and logs will be saved in the same location from where the script was executed.
b. Please visit the Summary Report/ Main Report to view all the Major and Critical Fault alerts.
提示:对于您的UCS环境的常规运行状况检查,Cisco TAC不提供此服务。思科的CX客户交付团队(以前称为“高级服务”)确实提供错误清理/风险分析。如果您需要此类服务,请与您的销售/客户团队联系。
到两个交换矩阵互联的SSH:
# show cluster extended-state, verify HA status is ready.
# connect local-mgmt ; # show pmon state, Verify the services are in running status.
# connect nxos ; # show system internal flash, Verify free size in /var/sysmgr and /var/tmp
# connect nxos ; # show module, verify HW revision number for 6296 fabric interconnects.
# show fault detail | include F1219, verify this fault code for bootflash corruption
# show iom health status, displays health of IOM
# show server status, verify the status of server.
# scope monitoring; # scope sysdebug; # show cores , verify if there are any core files.
# scope security; # scope keyring default; #show detail, verify details for default keyring, expiry etc.
# connect nxos; # show int br | grep -v down | wc –l, verify the number of active Ethernet interfaces.
# scope security; # show authentication, review the authentication type.
# connect nxos; # show flogi database, review the flogi database.
版本 | 发布日期 | 备注 |
---|---|---|
3.0 |
28-Mar-2023 |
地址为PII。
已更新标题、简介、可选文字、机器翻译、样式要求、简档和格式。 |
2.0 |
20-Dec-2021 |
添加了有关工具使用的附加说明。 |
1.0 |
16-Dec-2021 |
初始版本 |