简介
本文档介绍用于成功运行HyperFlex集群升级过程的最佳实践。
s
先决条件
要求
建议掌握下列主题的相关知识:
- 统一计算系统管理器(UCSM)
- 思科集成管理控制器(CIMC)
- HyperFlex
- 集成Elastic Sky X(ESXi)
- vCenter
- Intersight
使用的组件
- HyperFlex Connect 4.5(2e)
- UCSM 4.2.(1f)
- Intersight
- vCenter 7.0 U3
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。
升级前步骤
版本选择
对所选目标版本的决策取决于HyperFlex环境需求。其目的是改进、修复和利用旧版软件中的新软件。
阅读HyperFlex版本说明,了解新功能、新支持的硬件、组件之间的互操作性、指南、限制、安全修复以及已解决警告等信息。
要检查版本说明信息,请单击此处。
兼容性
在运行Hyperflex集群升级之前,请确认所有版本都是兼容的。思科建议:
- 验证HyperFlex、统一计算系统(UCS)和ESXi/vCenter版本的互操作性。
- 检查目标HyperFlex目标版本支持的所有硬件型号。
- 您可以在此处找到思科HyperFlex软件要求和建议。
- 此处列出的所有UCS和VMware版本均由思科提出建议并经过严格测试。
- 思科建议使用一些更可靠且经过严格测试的HyperFlex版本。
- 建议的HyperFlex版本可通过金星号找到,请查看此处。
升级指南
查看提供要执行的逐步说明的Cisco HyperFlex升级指南。
这些指南提供有关不同场景类型的信息,例如:
- 组合升级。涉及升级所有HyperFlex集群组件
- 单独升级。涉及升级其中一个HyperFlex群集组件
- 离线升级。是否需要关闭HyperFlex集群。
- 根据群集类型(标准、流、边缘)升级工作流程
- 升级指南可在此处找到。
- 如果群集是使用Cisco Intersight部署的,请使用Intersight。在此处查看指南部。
考虑事项
- 思科建议在低工作流量时段或维护时段执行在线升级。
- 完成升级所需的时间是群集大小的相关性。
- 请考虑离线升级要求所有来宾虚拟机(VM)离线。
- 思科建议监控新可用版本的HyperFlex版本说明,以避免当前版本被用作寿命终止(EOL)。
- 在此处查看Cisco HyperFlex版本说明指南。
升级前工具
在HyperFlex升级运行之前执行运行状况检查,以更正潜在故障并避免在升级期间出现意外行为。
执行运行状况检查有两种方法。
超级检查
此工具是在HyperFlex系统上执行主动自检以确保其稳定性和恢复能力的实用程序。
可以在此处找到超级检查指南信息。
Intersight运行状况检查
这是建议的预检查方法。它会定期更新,以包括新的故障排除功能,这些功能可以轻松检测潜在的错误配置。
它不断发现新发现的在升级过程中存在不便的警告。Intersight HealthCheck指南信息可在此处找到。
Intersight运行状况检查演示
步骤1.登录到Intersight 并导航到Infrastructure Service,然后选择HyperFlex Clusters,然后选择Cluster。
示例显示了名为San_Jose的集群。在Actions下拉菜单中,选择Run Health Check。

注意:此示例显示对单个集群执行的运行状况检查。您可以同时选择和执行多个群集的运行状况检查。
确认集群并点击下一步。

如果需要,工作流程允许您跳过某些检查。
步骤2.单击开始启动预检查。

检查进度条,并等待HealthCheck任务完成。

步骤3.完成HealthCheck任务后,可以在几个位置检查结果。
Health Check选项卡显示常规结果。该示例被过滤为no-show Passed和Not Run结果。

步骤4.单击Affected Nodes验证相关节点。

从Overview选项卡选中Events:警报、请求和建议。
展开每个事件以了解详细信息。
示例显示Requests已展开,请单击Run Selected Hypercheck Health Checks Failed。

它显示所有成功和失败的检查。
步骤5.单击Show Additional Details的切换。

每个Invoke Check都可以展开,提供已检查内容的精细视图。
它以JSON格式提供日志、输入和输出的详细信息。

教学视频
仔细检查视频。
Intersight运行状况检查视频。
注意:某些修复需要技术支持中心(TAC)的干预。如有必要,请打开案例。
重要验证
删除UCSM上未使用的包
UCS Manager固件管理器需要将UCS固件包下载到交换矩阵互联引导闪存分区。检查并删除组件上不再使用的旧固件包,以避免将不必要的文件填充到交换矩阵互联引导闪存分区中。
验证交换矩阵互联空间。
步骤1.导航到设备,选择交换矩阵互联,然后选择交换矩阵互联。示例显示交换矩阵互联A(主)。
步骤2.在常规面板上,选择Local Storage Information并展开它。

检验上游交换机上是否已启用生成树端口(STP)PortFast
如果上游交换机支持STP PortFast命令,强烈建议启用该命令。启用PortFast功能会导致交换机或中继端口立即或连接事件时进入STP转发状态,从而绕过侦听和学习状态。
PortFast功能在端口级别启用,并且此端口可以是物理端口或逻辑端口。
交换矩阵互联端口或适配器上的物理端口错误
在UCSM上验证与上行链路或服务器端口上的端口错误相关的任何故障,以避免发生意外故障切换。
步骤1.登录到UCSM并导航到Equipment选项卡,展开Rack-Mounts,然后展开Servers。示例显示服务器1。
步骤2.展开Adapters,然后展开NIC。
步骤3.检验每个网络接口卡(NIC)是否干净。

在标准集群和扩展集群的上游配置存储数据VLAN
需要在上游设备上配置存储数据VAN,以确保交换矩阵互联B关闭时完成故障切换。
确保在HyperFlex安装指南中列出了所有要求。
MTU和故障转移
确保虚拟机网络接口卡(vmnic)上两条路径的网络连接流。
使用本指南确认已根据UCS策略正确配置了正确的NIC组。
在基础架构升级期间,请等待ESXi上行链路启动,然后再重新启动其他交换矩阵互联。
执行测试升级资格
从Cisco HyperFlex版本4.0(2a)开始,“升级”(Upgrade)页面将显示最后一个集群升级资格测试结果和UCS服务器、HX数据平台和/或ESXi的上次测试版本。
要执行升级资格测试,请登录HX Connect:
步骤1.选择Upgrade > Test Upgrade Eligibility。
步骤2.选中UCS Server Firmware复选框以测试UCS服务器固件的升级资格。
步骤3.输入Cisco UCS Manager完全限定域名(FQDN)或IP地址、用户名和密码。在Current Version字段中,点击Discover以选择升级前需要验证的UCS固件包版本。
步骤4.选中HX Data Platform复选框以测试HyperFlex数据平台的升级资格。
步骤5.输入vCenter用户名和密码。上传升级前需要验证的Cisco HyperFlex数据平台升级捆绑包。
步骤6.选中ESXi复选框以测试ESXi的升级资格。
步骤7.输入vCenter Administrator用户名和密码。上传升级前需要验证的Cisco HyperFlex自定义映像脱机捆绑包
步骤8.点击验证(Validate)。
步骤9.显示升级资格测试的进度。
验证用户和密码
检验口令 对于:
- vCenter管理员
- ESXi根
- 存储控制器虚拟机(SCVM)管理员和根
验证进入维护模式
确保在维护模式运行期间,主机上运行的虚拟机可以迁移到另一台主机。如果VM无法迁移,则需要关闭其电源。 如果VM不会自动迁移,但可以手动迁移,请检查是否存在与DRS相关的问题。
检验DRS是否已启用并设置为完全自动化(如果许可用于DRS)。如果DRS处于禁用状态,则当升级过程提示时,需要手动干预来手动移动VM。
有关详细信息,请查看VMware 指南。
验证vMotion配置
确认vMotion已正确配置,以避免无法完成的维护模式任务。
有关vMotion故障排除的更多信息,请在此处查看。
验证群集上是否已启用EVC(增强的VMotion兼容性)。
步骤1.登录到VMware vCenter,然后导航到Home and Clusters。
步骤2.点击vCenter集群。此示例显示名为San_Jose的群集。
第3步:选择Configure,在Configuration下单击VMware EVC,然后选择EDIT。

步骤4.确保将所用相应处理器的EVC模式更改为Enabled。

验证虚拟机(VM)中的关联规则
验证是否在访客VM上创建了任何关联规则。
步骤1.从VMware vCenter转至集群。
步骤2.导航到Home and Clusters。此示例显示名为San_Jose的群集。
步骤3.选择Configure。在Configuration下,选择VM/Host Rules,然后验证是否已创建任何规则。

ESXi代理管理器(EAM)
从HXDP 5.0(x)及更高版本开始,ESXi主机上不再使用EAM来管理SCVM网络和Datastore。
从HXDP 5.0(x)和早期版本开始,网络和Datastore需要具有SCVM信息。
验证ESXi Agent Manager(EAM)运行是否正常。
步骤1.登录到VMware vCenter。
步骤2.导航到Home and Clusters,然后导航到每个ESXi节点。
第3步:在VMware vCenter群集上,导航到配置,从虚拟机中选择代理VM设置。
示例显示空格,因为HyperFlex集群示例在5.0(2c)上

如果使用EAM,请确认vCenter上未显示任何证书错误。
您可以在此处找到更多EAM信息
vCenter和ESXi许可证
如果从6.x升级到7.0,请确保您在升级之前拥有新的许可证。
升级后,您只有60天处于评估模式。

SSH建议
HXUSER锁定
登录失败可能会导致ESXi用户被锁定。
验证hxuser或root用户状态
步骤1.在ESXi节点中打开作为根的SSH会话。
步骤2.运行pam_tally2 —user hxuser(或root user)。
步骤3.确保hxuser或root已被锁定。
[root@esxi1:~] pam_tally2 --user hxuser
Login Failures Latest failure From
hxuser 0
[root@esxi1:~] pam_tally2 --user root
Login Failures Latest failure From
root 0
[root@esxi1:~]
要解锁提及的ESXi用户:
步骤1.运行pam_tally2 —user hxuser —reset(或根用户)。
步骤2.确保“故障”计数减少至0。
[root@esxi1:~] pam_tally2 --user hxuser --reset
Login Failures Latest failure From
hxuser 0
[root@esxi1:~] pam_tally2 --user root --reset
Login Failures Latest failure From
root 0
锁定模式或停止
增加ESXi主机的安全性需要启用锁定模式。此配置会阻止HyperFlex升级,因为对于HyperFlex集群升级必须禁用锁定模式。
要禁用ESXi锁定模式,请执行以下操作:
步骤1.将SSH作为根目录直接运行到ESXi主机中。
步骤2.按F2进行初始设置。
步骤3.输入根凭证以打开DUCI设置。
步骤4.转到Configure Lockdown模式设置并将其更改为disabled。
要从vCenter禁用锁定模式,
步骤1.浏览到vSphere Web客户端清单中的主机。
步骤2.点击Managetab,然后点击Settings。(对于6.7,请点击Configure(配置)选项卡)。
步骤3.在System下,选择Security Profile。
步骤4.在“锁定模式”面板中,单击“编辑”。
步骤5.单击锁定模式,然后选择锁定模式选项之一。
有关锁定模式的详细信息,请访问此处
复制
如果已配置并启用复制,则需要在升级前暂停复制。
使用run stcli dp schedule pause命令暂停复制,然后在升级后使用stcli dp schedule resume命令启用复制。
驱动器故障
驱动器故障导致HyperFlex群集升级失败。要检查HyperFlex Connect GUI中是否有“阻止列表”或“忽略”磁盘,请执行以下操作:
步骤1.打开HyperFlex连接GUI,转到https://<HyperFlex-virtual-ip-address or fqdn>。
步骤2.转至系统信息,然后选择系统概述选项卡。
步骤3.检查是否有任何磁盘错误。

磁盘问题需要由Cisco TAC修复。
先前的主板更换、重新部署和节点删除
主板更换导致也使用新的ID更换以前的主机UID,如果在更换任务期间出现一些问题,UID不匹配可能会导致HyperFlex升级失败。
注意:Intersight HealtCheck建议ID不匹配,强烈建议将HyperFlex群集连接到Intersight并运行HyperFlex群集运行状况检查。
对于主板更换,请比较ESXi CLI中的stNode UUID,以确保UUID信息与Hyperflex群集中的UUID匹配。
收集UID:
步骤1.以根用户身份打开到ESXi节点的SSH会话。
步骤2.运行此命令:hostsvc/hostsumm | grep -i uuid | grep -v inst.
步骤3.收集UUID信息。
[root@esxi2:~] vim-cmd hostsvc/hostsumm | grep -i uuid | grep -v inst
uuid = "1f82077d-6702-214d-8814-e776ffc0f53c", <----- ESXi2 ID
[root@esxi2:~]
[root@esxi2:~]
要获取HyperFlex群集节点上的UUID信息,请执行以下操作:
步骤1.对HyperFlex集群IP地址运行SSH。
步骤2.运行命令stcli cluster info |more。
步骤3.收集stNodes ID。
hxshell:~$ stcli cluster info | more
stNodes:
----------------------------------------
id: c4a24480-e935-6942-93ee-987dc8e9b5d9
type: node
name: esxi1
----------------------------------------
id: 1f82077d-6702-214d-8814-e776ffc0f53c <----- ID for ESXi2
type: node
name: esxi2
----------------------------------------
id: 50a5dc5d-c419-9c48-8914-d91a98d43fe7
type: node
name: esxi3
----------------------------------------
确保stcli cluster info ID与ESXi节点上显示的信息匹配。
HX和vCenter不匹配
验证vCenter信息(如HyperFlex群集上的数据中心、群集和数据存储名称)是否与vCenter匹配。信息不匹配导致HyperFlex集群升级失败。
要获取最新信息,请执行以下操作:
步骤1.以管理员身份对HyperFlex集群IP运行SSH。
步骤2.运行stcli cluster info | grep -i vcenter。
步骤3.收集群集中已注册的vCenter信息。
hxshell:~$ stcli cluster info | grep -i vcenter
vCenterClusterName: vcenter-cluster
vCenterDatacenter: hx-cluster-name
vCenterURL: https://vcenter-url
vCenterDatacenterId: datacenter-name
vCenterClusterId: domain-c5124
vCenterUrl: https://vcenter-url
vCenterVersion: 7.0.2 Build-18455184
HyperFlex vCenter重新注册
请考虑名称区分大小写。如果之前输出的名称和vCenter信息不匹配,则需要重新注册vCenter。
要将vCenter重新注册到Hyperflex集群,请在此处检查vCenter注册视频
要重新注册Vcenter,请执行以下操作:
步骤1.以管理员身份运行到集群IP地址的SSH。
步骤2.运行stcli cluster reregister命令。
stcli cluster reregister [-h] --vcenter-datacenter NEWDATACENTER --vcenter-cluster NEWVCENTERCLUSTER --vcenter-url NEWVCENTERURLIP [--vcenter-sso-url NEWVCENTERSSOURL] --vcenter-user NEWVCENTERUSER
hxshell:~$ stcli cluster reregister --vcenter-datacenter MyData-Center --vcenter-cluster Cluster-Name --vcenter-url https://vcenter1-url --vcenter-user
Reregister StorFS cluster with a new vCenter ...
Enter NEW vCenter Administrator password:
Cluster reregistration with new vCenter succeeded
hxshell:~$
相关信息