简介
本文档介绍用于成功运行HyperFlex集群升级过程的最佳实践。
s
先决条件
要求
建议掌握下列主题的相关知识:
- 统一计算系统管理器(UCSM)
- 思科集成管理控制器(CIMC)
- HyperFlex
- 集成Elastic Sky X(ESXi)
- vCenter
- Intersight
使用的组件
- HyperFlex Connect 4.5(2e)
- UCSM 4.2.(1f)
- Intersight
- vCenter 7.0 U3
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。
升级前步骤
版本选择
对所选目标版本的决策取决于HyperFlex环境需求。其目的是改进、修复和利用旧版软件中的新软件。
阅读HyperFlex版本说明,了解新功能、新支持的硬件、组件之间的互操作性、指南、限制、安全修复以及已解决警告等信息。
要检查版本说明信息,请单击 这里。
兼容性
在运行Hyperflex集群升级之前,请确认所有版本都是兼容的。思科建议:
- 验证HyperFlex、统一计算系统(UCS)和ESXi/vCenter版本的互操作性。
- 检查目标HyperFlex目标版本支持的所有硬件型号。
- 您可以在此处找到思科HyperFlex软件要求和建议。
- 此处列出的所有UCS和VMware版本均由思科提出建议并经过严格测试。
- 思科建议使用一些更可靠且经过严格测试的HyperFlex版本。
- 建议的HyperFlex版本可通过金星号找到,请查看此处.
升级指南
查看提供要执行的逐步说明的Cisco HyperFlex升级指南。
这些指南提供有关不同场景类型的信息,例如:
- 组合升级。涉及升级所有HyperFlex集群组件
- 单独升级。 涉及升级HyperFlex群集组件之一
- 离线升级。是否需要关闭HyperFlex集群。
- 根据群集类型(标准、流、边缘)升级工作流程
- 可以找到升级指南 这里。
- 如果群集是使用Cisco Intersight部署的,请使用Intersight。检查指南 这里。
考虑事项
- 思科建议在低工作流量时段或维护时段执行在线升级。
- 完成升级所需的时间是群集大小的相关性。
- 请考虑离线升级要求所有来宾虚拟机(VM)离线。
- 思科建议监控新可用版本的HyperFlex版本说明,以避免当前版本被用作寿命终止(EOL)。
- 在此处查看Cisco HyperFlex版本说明指南。
升级前工具
在HyperFlex升级运行之前执行运行状况检查,以更正潜在故障并避免在升级期间出现意外行为。
执行运行状况检查有两种方法。
超级检查
此工具是在HyperFlex系统上执行主动自检以确保其稳定性和恢复能力的实用程序。
可以在此处找到超级检查指南信息。
Intersight运行状况检查
这是建议的预检查方法。它会定期更新,以包括新的故障排除功能,这些功能可以轻松检测潜在的错误配置。
它不断发现新发现的在升级过程中存在不便的警告。可以找到Intersight HealthCheck指南信息 这里。
Intersight运行状况检查演示
第 1 步:登录到Intersight 并导航到Infrastructure Service,然后选择HyperFlex Clusters,然后选择Cluster。
示例显示了名为San_Jose的集群。在Actions下拉菜单中,选择Run Health Check。
注意:此示例显示对单个集群执行的运行状况检查。您可以同时选择和执行多个群集的运行状况检查。
确认集群并点击 下一步.
如果需要,工作流程允许您跳过某些检查。
第二步:点击 开始 启动预检查。
检查进度条,并等待HealthCheck任务完成。
第三步: 完成HealthCheck任务后,可以在几个位置检查结果。
Health Check选项卡显示常规结果。该示例被过滤为no-show Passed和Not Run结果。
第四步:点击 受影响的节点 检验有问题的节点。
在Overview选项卡中,选中Events: Alarms、Requests和Advisories。
展开每个事件以了解详细信息。
示例显示Requests已展开,请单击Run Selected Hypercheck Health Checks Failed。
它显示所有成功和失败的检查。
第五步:单击Show Additional Details的切换。
每个Invoke Check都可以展开,提供已检查内容的精细视图。
它以JSON格式提供日志、输入和输出的详细信息。
教学视频
仔细检查视频。
Intersight运行状况检查视频。
注意:某些修复需要技术支持中心(TAC)的干预。如有必要,请打开案例。
重要验证
删除UCSM上未使用的包
UCS Manager固件管理器需要将UCS固件包下载到交换矩阵互联引导闪存分区。 检查并删除组件上不再使用的旧固件包,以避免将不必要的文件填充到交换矩阵互联引导闪存分区。
验证交换矩阵互联空间。
步骤1:导航到设备,选择交换矩阵互联,然后选择交换矩阵互联。示例显示交换矩阵互联A(主)。
第二步:在常规面板上,选择Local Storage Information并展开它。
检验上游交换机上是否已启用生成树端口(STP)PortFast
如果上游交换机支持STP PortFast命令,则强烈建议启用该命令。 启用PortFast功能会导致交换机或中继端口立即或连接事件时进入STP转发状态,从而绕过侦听和学习状态。
PortFast功能在端口级别启用,并且此端口可以是物理端口或逻辑端口。
交换矩阵互联端口或适配器上的物理端口错误
在UCSM上验证与上行链路或服务器端口上的端口错误相关的任何故障,以避免发生意外故障切换。
步骤1:登录到UCSM,导航到Equipment选项卡,展开Rack-Mounts,然后展开Servers。示例显示服务器1。
第二步:展开Adapters,然后展开NIC。
第三步:验证每个网络接口卡(NIC)是否干净。
在标准集群和扩展集群的上游配置存储数据VLAN
需要在上游设备上配置存储数据VAN,以确保交换矩阵互联B关闭时完成故障切换。
确保在HyperFlex安装指南中列出了所有要求。
MTU和故障转移
确保虚拟机网络接口卡(vmnic)上两条路径的网络连接流。
使用本指南确认已根据UCS策略正确配置了正确的NIC组。
在基础架构升级期间,请等待ESXi上行链路进入工作状态,然后再重新启动其他交换矩阵互联。
执行测试升级资格
从Cisco HyperFlex版本4.0(2a)开始,“升级”(Upgrade)页面将显示最后一个集群升级资格测试结果和UCS服务器、HX数据平台和/或ESXi的上次测试版本。
要执行升级资格测试,请登录HX Connect:
步骤1:选择升级>测试升级资格。
第二步:选中UCS Server Firmware复选框以测试UCS服务器固件的升级资格。
第三步:输入Cisco UCS Manager完全限定域名(FQDN)或IP地址、用户名和密码。在Current Version字段中,点击Discover以选择升级前需要验证的UCS固件包版本。
第四步:选中HX Data Platform复选框以测试HyperFlex数据平台的升级资格。
第五步:输入vCenter用户名和密码。上传升级前需要验证的Cisco HyperFlex数据平台升级捆绑包。
第六步:选中ESXi复选框以测试ESXi的升级资格。
步骤 7.输入vCenter Administrator用户名和密码。上传升级前需要验证的Cisco HyperFlex自定义映像脱机捆绑包
步骤 8点击Validate。
步骤 9将显示升级资格测试的进度。
验证用户和密码
检验口令 对于:
- vCenter管理员
- ESXi根
- 存储控制器虚拟机(SCVM)管理员和根
验证进入维护模式
确保在维护模式运行期间,主机上运行的虚拟机可以迁移到另一台主机。如果VM无法迁移,则需要关闭其电源。 如果VM不会自动迁移,但可以手动迁移,请检查是否存在与DRS相关的问题。
检验DRS是否已启用并设置为完全自动化(如果许可用于DRS)。如果DRS处于禁用状态,则当升级过程提示时,需要手动干预来手动移动VM。
有关详细信息,请查看VMware 指南。
验证vMotion 配置
确认vMotion已正确配置,以避免无法完成的维护模式任务。
有关vMotion故障排除的详细信息,请查看 这里。
验证群集上是否已启用EVC(增强的VMotion兼容性)。
步骤1:登录到VMware vCenter,然后导航到Home and Clusters。
第二步:点击vCenter集群。此示例显示名为San_Jose的群集。
第三步:选择Configure,在Configuration下单击VMware EVC,然后选择EDIT。
第四步:确保将EVC模式更改为Enabled,适用于使用的相应处理器。
验证虚拟机(VM)中的关联规则
验证是否在访客VM上创建了任何关联规则。
步骤1:从VMware vCenter转至集群。
第二步:导航到Home and Clusters。此示例显示名为San_Jose的群集。
第三步:选择Configure。在Configuration下,选择VM/Host Rules,然后验证是否已创建任何规则。
ESXi代理管理器(EAM)
从HXDP 5.0(x)及更高版本开始,ESXi主机上不再使用EAM来管理SCVM网络和Datastore。
从HXDP 5.0(x)和早期版本开始,网络和Datastore需要具有SCVM信息。
验证ESXi Agent Manager(EAM)运行是否正常。
步骤1:登录到VMware vCenter。
第二步:导航到Home and Clusters,然后导航到每个ESXi节点。
第三步:在VMware vCenter群集上,导航至配置,然后在虚拟机中选择代理VM设置。
示例显示空格,因为HyperFlex集群示例在5.0(2c)上
如果使用EAM,请确认vCenter上未显示任何证书错误。
您可以在此处找到更多EAM信息
vCenter和ESXi许可证
如果从6.x升级到7.0,请确保您在升级之前拥有新的许可证。
升级后,您只有60天处于评估模式。
SSH建议
HXUSER锁定
登录失败可能会导致ESXi用户被锁定。
验证hxuser或root用户状态
步骤1:在ESXi节点中以root身份打开SSH会话。
第二步:运行pam_tally2 —user hxuser(或root user)。
第三步:确保hxuser或root已被锁定。
[root@esxi1:~] pam_tally2 --user hxuser
Login Failures Latest failure From
hxuser 0
[root@esxi1:~] pam_tally2 --user root
Login Failures Latest failure From
root 0
[root@esxi1:~]
要解锁提及的ESXi用户:
步骤1:运行pam_tally2 —user hxuser —reset(或root user).
第二步:确保“Failures(失败)”计数减少为0。
[root@esxi1:~] pam_tally2 --user hxuser --reset
Login Failures Latest failure From
hxuser 0
[root@esxi1:~] pam_tally2 --user root --reset
Login Failures Latest failure From
root 0
锁定模式或停止
增加ESXi主机的安全性需要启用锁定模式。此配置会阻止HyperFlex升级,因为必须为HyperFlex集群升级禁用的Ockdown模式。
要禁用ESXi锁定模式,请执行以下操作:
步骤1:将SSH作为根目录直接运行到ESXi主机中。
第二步:按F2键入Initial Setup。
第三步:输入根凭证以打开DUCI设置。
第四步:转至Configure Lockdown Modesetting并将其更改为disabled。
要从vCenter禁用锁定模式,
步骤1:浏览到vSphere Web客户端清单中的主机。
第二步:单击管理选项卡并单击设置.(对于6.7,请单击配置选项卡)。
第三步:在System下,选择安全性配置文件.
第四步:在“锁定模式”面板中,单击编辑.
第五步:点击锁定模式并选择一个锁定模式选项。
有关锁定模式的详细信息,请访问此处
复制
如果已配置并启用复制,则需要在升级前暂停复制。
使用运行暂停复制 stcli dp schedule pause 命令,并在升级后使用 stcli dp计划恢复 命令。
驱动器故障
驱动器故障导致HyperFlex群集升级失败。要检查HyperFlex Connect GUI中是否有“阻止列表”或“忽略”磁盘,请执行以下操作:
步骤1:打开HyperFlex连接GUI,转到https://<HyperFlex-virtual-ip-address or fqdn>。
第二步:转至System Information,然后选择System Overview Tab。
第三步:检查是否有任何磁盘错误。
磁盘问题需要由Cisco TAC修复。
先前的主板更换、重新部署和节点删除
主板更换导致也使用新的ID更换以前的主机UID,如果在更换任务期间出现一些问题,UID不匹配可能会导致HyperFlex升级失败。
注意:Intersight HealtCheck建议ID不匹配,强烈建议将HyperFlex群集连接到Intersight并运行HyperFlex群集运行状况检查。
对于主板更换,请比较以下位置的stNode UUID: ESXi CLI,确保UUID信息与Hyperflex集群中的UUID匹配。
收集UID:
步骤1:以根用户身份打开与ESXi节点的SSH会话。
第二步:运行此指令: hostsvc/hostsumm | grep -i uuid | grep -v inst.
第三步:收集UUID信息。
[root@esxi2:~] vim-cmd hostsvc/hostsumm | grep -i uuid | grep -v inst
uuid = "1f82077d-6702-214d-8814-e776ffc0f53c", <----- ESXi2 ID
[root@esxi2:~]
[root@esxi2:~]
要获取HyperFlex群集节点上的UUID信息,请执行以下操作:
步骤1:对HyperFlex集群IP地址运行SSH。
第二步:运行命令stcli cluster info | 更多 .
第三步:收集stNodes ID。
hxshell:~$ stcli cluster info | more
stNodes:
----------------------------------------
id: c4a24480-e935-6942-93ee-987dc8e9b5d9
type: node
name: esxi1
----------------------------------------
id: 1f82077d-6702-214d-8814-e776ffc0f53c <----- ID for ESXi2
type: node
name: esxi2
----------------------------------------
id: 50a5dc5d-c419-9c48-8914-d91a98d43fe7
type: node
name: esxi3
----------------------------------------
确保stcli cluster info ID与ESXi节点上显示的信息匹配。
HX和vCenter不匹配
验证vCenter信息(如HyperFlex群集上的数据中心、群集和数据存储名称)是否与vCenter匹配。信息不匹配导致HyperFlex集群升级失败。
要获取最新信息,请执行以下操作:
步骤1:运行 以管理员身份通过SSH连接到HyperFlex集群IP。
第二步:运行stcli集群信息 | grep -i vcenter。
第三步:收集群集中已注册的vCenter信息。
hxshell:~$ stcli cluster info | grep -i vcenter
vCenterClusterName: vcenter-cluster
vCenterDatacenter: hx-cluster-name
vCenterURL: https://vcenter-url
vCenterDatacenterId: datacenter-name
vCenterClusterId: domain-c5124
vCenterUrl: https://vcenter-url
vCenterVersion: 7.0.2 Build-18455184
HyperFlex vCenter重新注册
请考虑名称区分大小写。如果之前输出的名称和vCenter信息不匹配,则需要重新注册vCenter。
要将vCenter重新注册到Hyperflex集群,请在此处检查vCenter注册视频
要重新注册Vcenter,请执行以下操作:
步骤1:以管理员身份对集群IP地址运行SSH。
第二步:运行stcli cluster reregister命令。
stcli cluster reregister [-h] --vcenter-datacenter NEWDATACENTER --vcenter-cluster NEWVCENTERCLUSTER --vcenter-url NEWVCENTERURLIP [--vcenter-sso-url NEWVCENTERSSOURL] --vcenter-user NEWVCENTERUSER
hxshell:~$ stcli cluster reregister --vcenter-datacenter MyData-Center --vcenter-cluster Cluster-Name --vcenter-url https://vcenter1-url --vcenter-user
Reregister StorFS cluster with a new vCenter ... Enter NEW vCenter Administrator password: Cluster reregistration with new vCenter succeeded hxshell:~$
相关信息