簡介
本文檔介紹用於成功運行HyperFlex群集升級過程的最佳實踐。
s
必要條件
需求
思科建議瞭解以下主題:
- 整合運算系統管理員(UCSM)
- 思科整合式管理控制器(CIMC)
- HyperFlex
- 整合Elastic Sky X(ESXi)
- vCenter
- Intersight
採用元件
- HyperFlex連線4.5(2e)
- UCSM 4.2.(1f)
- Intersight
- vCenter 7.0 U3
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路運作中,請確保您瞭解任何指令可能造成的影響。
升級前步驟
版本選擇
所選目標版本的決策基於HyperFlex環境需求。其目的是改進、修復和利用舊版軟體中的新軟體。
閱讀HyperFlex版本說明以識別資訊,例如新功能、新支援的硬體、元件之間的互操作性、准則、限制、安全修復以及已解決的警告。
要檢查發行說明資訊,請單擊此處。
相容性
運行Hyperflex集群升級之前,請確認所有版本都是相容的。思科建議:
- 驗證HyperFlex、統一計算系統(UCS)和ESXi/vCenter版本的互操作性。
- 檢查目標HyperFlex目標版本支援的所有硬體型號。
- 您可以在此處找到思科HyperFlex軟體要求和建議。
- 此處列出的所有UCS和VMware版本均由思科提出建議並經過嚴格測試。
- 思科建議使用一些更可靠且經過嚴格測試的HyperFlex版本。
- 建議的HyperFlex版本可以使用金星顯示,請檢視此處。
特色指南
檢視提供要執行的逐步說明的Cisco HyperFlex升級指南。
這些指南提供有關不同型別方案的資訊,例如:
- 組合升級。涉及升級所有HyperFlex群集元件
- 單獨升級。涉及升級其中一個HyperFlex群集元件
- 離線升級。是否需要關閉HyperFlex群集。
- 根據群集型別(標準、流、邊緣)升級工作流程
- 升級指南可在此處找到。
- 如果群集是使用Cisco Intersight部署的,請使用Intersight。在此處檢視指南線。
注意事項
- 思科建議在工作流程流量較低的時段或維護時段執行線上升級。
- 完成升級所需的時間是群集大小的相關性。
- 請考慮離線升級要求所有來賓虛擬機器(VM)離線。
- 思科建議對新可用版本監控HyperFlex版本說明,以避免當前版本被用作壽命終止(EOL)。
- 在此處檢視思科HyperFlex版本說明指南。
升級前工具
在HyperFlex升級運行前執行運行狀況檢查,以更正潛在故障並避免升級期間的意外行為。
有兩種方法可以執行這些運行狀況檢查。
超級檢查
此工具是一個實用程式,用於對HyperFlex系統執行主動自檢,以確保其穩定性和恢復能力。
在此處找到超級檢查指南資訊。
Intersight運行狀況檢查
這是預檢查的建議方法。它會定期更新,以包括新的故障排除功能,這些功能可以輕鬆檢測潛在的配置錯誤。
它不斷發現新發現的警告,這些警告在升級過程中會造成不便。Intersight HealthCheck指南資訊可在此處找到。
Intersight運行狀況檢查演示
步驟1.登入Intersight 並導航到Infrastructure Service,然後選擇HyperFlex Clusters,然後選擇Cluster。
示例顯示了名為San_Jose的群集。在「操作」下拉選單中,選擇「運行運行狀況檢查」。

附註:此示例顯示對單個群集執行的運行狀況檢查。可以同時選擇多個群集並執行運行狀況檢查。
確認您的集群,然後按一下下一步。

如果需要,此工作流程允許您跳過某些檢查。
步驟2.按一下Start以開始預檢查。

檢查進度條,並等待HealthCheck任務完成。

步驟3.完成HealthCheck任務後,可以在幾個位置檢查結果。
Health Check頁籤顯示常規結果。該示例被過濾為不顯示Passed和Not Run結果。

步驟4.按一下Affected Nodes以驗證相關節點。

在Overview頁籤中,選中Events:Alarms、Requests和Advisories。
展開每個事件以瞭解詳細資訊。
示例顯示Requests已展開,請按一下Run Selected Hypercheck Health Checks Failed。

它顯示所有成功和失敗的檢查。
步驟5.按一下Show Additional Details的按鈕。

每個呼叫檢查都可以展開,從而提供已檢查內容的精細檢視。
它以JSON格式提供日誌、輸入和輸出的詳細資訊。

教學影片
檢查影片。
Intersight運行狀況檢查影片。
附註:某些修復需要技術支援中心(TAC)的干預。如有必要,請建立案例。
重要驗證
刪除UCSM上未使用的包
UCS Manager韌體管理器要求將UCS韌體包下載到交換矩陣互聯引導快閃記憶體分割槽。檢查並刪除元件上不再使用的舊韌體包,以避免將不必要的檔案填充到交換矩陣互聯引導快閃記憶體分割槽中。
驗證交換矩陣互連空間。
步驟1。導覽至Equipment,選擇Fabric Interconnections,然後選擇交換矩陣互聯。示例顯示了交換矩陣互聯A(主)。
步驟2.在常規面板上,選擇Local Storage Information並展開它。

驗證上游交換機上已啟用生成樹埠(STP)PortFast
如果上游交換機支援STP PortFast命令,則強烈建議啟用該命令。啟用PortFast功能會導致交換機或中繼埠立即或連線事件時進入STP轉發狀態,從而繞過偵聽和學習狀態。
PortFast功能在埠級別啟用,並且此埠可以是物理埠或邏輯埠。
交換矩陣互聯埠或介面卡上的物理埠錯誤
在UCSM上驗證與上行鏈路或伺服器埠上的埠錯誤相關的任何故障,以避免發生意外故障切換。
步驟1.登入到UCSM並導航到Equipment頁籤,展開Rack-Mounts,然後展開Servers。示例顯示了伺服器1。
步驟2.展開Adapters,然後展開NIC。
步驟3.檢驗每個網路介面卡(NIC)是否清潔。

在標準集群和擴展集群的上游配置儲存資料VLAN
需要在上游裝置上配置儲存資料VLAN,以確保在交換矩陣互聯B發生故障時完成故障切換。
確保在HyperFlex安裝指南中列出了所有要求。
MTU和容錯移轉
確保虛擬機器網路介面卡(vmnic)上兩條路徑的網路連線流。
通過本指南,確認已根據UCS策略正確配置了正確的NIC組。
在基礎架構升級期間,請等待ESXi上行鏈路啟動,然後再重新啟動另一個交換矩陣互聯。
執行測試升級資格
從Cisco HyperFlex版本4.0(2a)開始,「升級」頁面將顯示上次群集升級資格測試結果,以及UCS伺服器、HX資料平台和/或ESXi的上次測試版本。
要執行升級資格測試,請登入到HX Connect:
步驟1.選擇Upgrade > Test Upgrade Eligibility。
步驟2.選中UCS Server Firmware覈取方塊以測試UCS伺服器韌體的升級資格。
步驟3.輸入Cisco UCS Manager完全限定域名(FQDN)或IP地址、使用者名稱和密碼。在「Current Version」欄位中,按一下「Discover」,選擇升級前需要驗證的UCS韌體包版本。
步驟4.選中HX Data Platform覈取方塊以測試HyperFlex資料平台的升級資格。
步驟5.輸入vCenter使用者名稱和密碼。上傳升級前需要驗證的Cisco HyperFlex資料平台升級捆綁包。
步驟6.選中ESXi覈取方塊以測試ESXi的升級資格。
步驟7.輸入vCenter管理員使用者名稱和密碼。上傳升級前需要驗證的Cisco HyperFlex自定義映像離線捆綁包
步驟8.按一下Validate。
步驟9.顯示升級資格測試的進度。
驗證使用者和密碼
驗證密碼 用於:
- vCenter管理員
- ESXi根
- 儲存控制器虛擬機器(SCVM)管理員和根
驗證是否進入維護模式
確保在維護模式操作期間,主機上運行的虛擬機器可以遷移到另一台主機。如果VM無法遷移,則需要關閉電源。 如果VM不能自動遷移,但可以手動遷移,請檢查是否存在與DRS相關的問題。
驗證DRS是否已啟用,並設定為完全自動(如果已獲得DRS許可)。如果DRS處於禁用狀態,則在升級過程提示時,需要手動干預,手動啟動VM。
有關詳細資訊,請檢視VMware 指南。
驗證vMotion配置
確認vMotion已正確配置,以避免無法完成的維護模式任務。
有關vMotion故障排除的更多資訊,請在此查閱它。
驗證EVC(增強型VMotion相容性)在群集上是否已啟用。
步驟1.登入到VMware vCenter,然後導航到Home and Clusters。
步驟2.按一下vCenter集群。此示例顯示一個名為San_Jose的群集。
步驟3.選擇Configure,在Configuration下按一下VMware EVC,然後選擇EDIT。

步驟4.確保將所用處理器的EVC模式更改為Enabled。

驗證虛擬機器(VM)中的關聯規則
驗證在訪客VM上是否建立了任何關聯規則。
步驟1.從VMware vCenter轉到群集。
步驟2.導覽至Home and Clusters。此示例顯示一個名為San_Jose的群集。
步驟3.選擇Configure。在Configuration下,選擇VM/Host Rules,然後驗證是否已建立任何規則。

ESXi代理管理器(EAM)
從HXDP 5.0(x)及更高版本開始,ESXi主機上不再使用EAM來管理SCVM的網路和資料儲存。
從HXDP 5.0(x)和早期版本開始,網路和資料儲存需要具有SCVM資訊。
驗證ESXi Agent Manager(EAM)運行狀況是否正常。
步驟1.登入到VMware vCenter。
步驟2.導航到Home和Clusters,然後導航到每個ESXi節點。
步驟3.在VMware vCenter群集上,導航到Configure,然後在Virtual Machines中選擇Agent VM Settings。
此示例顯示空格,因為HyperFlex群集示例在5.0(2c)上

如果使用EAM,請確認vCenter上未顯示任何證書錯誤。
更多EAM資訊可在此處找到
vCenter和ESXi許可證
如果從6.x升級到7.0,請確保在升級之前擁有新的許可證。
升級後,您只有60天處於評估模式。

SSH建議
HXUSER鎖定
登入嘗試失敗可能會導致ESXi使用者被鎖定。
驗證hxuser或root使用者狀態
步驟1.在ESXi節點中以root使用者身份開啟SSH會話。
步驟2.運行pam_tally2 —user hxuser(或root使用者)。
步驟3.確保hxuser或root已被鎖定。
[root@esxi1:~] pam_tally2 --user hxuser
Login Failures Latest failure From
hxuser 0
[root@esxi1:~] pam_tally2 --user root
Login Failures Latest failure From
root 0
[root@esxi1:~]
要解鎖提及的ESXi使用者,請執行以下操作:
步驟1.運行pam_tally2 —user hxuser —reset(或root使用者)。
步驟2.確保「Failures(失敗)」計數降低到0。
[root@esxi1:~] pam_tally2 --user hxuser --reset
Login Failures Latest failure From
hxuser 0
[root@esxi1:~] pam_tally2 --user root --reset
Login Failures Latest failure From
root 0
鎖定模式或已停止
提高ESXi主機的安全性需要您啟用鎖定模式。此配置會阻止HyperFlex升級,因為對於HyperFlex群集升級必須禁用鎖定模式。
要禁用ESXi鎖定模式,請執行以下操作:
步驟1.將SSH作為根目錄直接運行到ESXi主機中。
步驟2. 按F2鍵進行初始設定。
步驟3.輸入根憑證以開啟DUCI安裝程式。
步驟4.轉到Configure Lockdown Modesetting並將其更改為disabled。
要從vCenter禁用鎖定模式,
步驟1.瀏覽到vSphere Web客戶端清單中的主機。
步驟2.按一下Management選項卡,然後按一下Settings。(對於6.7,按一下「配置」(Configure)頁籤)。
步驟3.在System下,選擇Security Profile。
步驟4.在「鎖定模式」面板中,單擊「編輯」。
步驟5.按一下鎖定模式,然後選擇鎖定模式選項之一。
有關鎖定模式的詳細資訊,請訪問此處
複製
如果已配置並啟用複製,則需要在升級前暫停複製。
使用run stcli dp schedule pause命令暫停複製,並在升級後使用stcli dp schedule resume命令啟用複製。
驅動器故障
驅動器故障導致HyperFlex群集升級失敗。要檢查HyperFlex Connect GUI以查詢已阻止或忽略的磁碟,請執行以下操作:
步驟1.開啟HyperFlex連線GUI,轉到https://<HyperFlex-virtual-ip-address or fqdn>。
步驟2.轉至System Information,然後選擇System Overview Tab。
步驟3.檢查是否有任何磁碟錯誤。

磁碟問題需要由Cisco TAC修復。
先前的主機板更換、重新部署和節點移除
主機板更換導致用新ID替換以前的主機UID,如果在更換任務過程中出現一些問題,UID不匹配可能會導致HyperFlex升級失敗。
附註:Intersight HealtCheck建議ID不匹配,強烈建議將HyperFlex群集連線到Intersight並運行HyperFlex群集運行狀況檢查。
要更換主機板,請比較ESXi CLI中的stNode UUID,以確保UUID資訊與Hyperflex群集中的UUID匹配。
收集UID:
步驟1.以根使用者身份開啟到ESXi節點的SSH會話。
步驟2.運行此命令:hostsvc/hostsumm | grep -i uuid | grep -v inst.
步驟3.收集UUID資訊。
[root@esxi2:~] vim-cmd hostsvc/hostsumm | grep -i uuid | grep -v inst
uuid = "1f82077d-6702-214d-8814-e776ffc0f53c", <----- ESXi2 ID
[root@esxi2:~]
[root@esxi2:~]
要獲取HyperFlex群集節點上的UUID資訊,請執行以下操作:
步驟1.對HyperFlex群集IP地址運行SSH。
步驟2.運行命令stcli cluster info |更多資訊。
步驟3.收集stNodes ID。
hxshell:~$ stcli cluster info | more
stNodes:
----------------------------------------
id: c4a24480-e935-6942-93ee-987dc8e9b5d9
type: node
name: esxi1
----------------------------------------
id: 1f82077d-6702-214d-8814-e776ffc0f53c <----- ID for ESXi2
type: node
name: esxi2
----------------------------------------
id: 50a5dc5d-c419-9c48-8914-d91a98d43fe7
type: node
name: esxi3
----------------------------------------
確保stcli cluster info ID與ESXi節點上顯示的資訊匹配。
HX和vCenter中的不匹配
驗證HyperFlex群集上的vCenter資訊(如資料中心、群集和資料儲存名稱)是否與vCenter匹配。資訊不匹配導致HyperFlex群集升級失敗。
要獲取最新資訊,請執行以下操作:
步驟1.以管理員身份向HyperFlex群集IP運行SSH。
步驟2.運行stcli群集資訊 | grep -i vcenter。
步驟3.收集群集中已註冊的vCenter資訊。
hxshell:~$ stcli cluster info | grep -i vcenter
vCenterClusterName: vcenter-cluster
vCenterDatacenter: hx-cluster-name
vCenterURL: https://vcenter-url
vCenterDatacenterId: datacenter-name
vCenterClusterId: domain-c5124
vCenterUrl: https://vcenter-url
vCenterVersion: 7.0.2 Build-18455184
HyperFlex vCenter重新註冊
請考慮名稱區分大小寫。如果先前輸出的名稱和vCenter資訊不匹配,則需要重新註冊vCenter。
要將vCenter重新註冊到Hyperflex群集,請在此處檢查vCenter註冊視頻
要重新註冊Vcenter:
步驟1.以管理員身份運行SSH進入群集IP地址。
步驟2.運行stcli cluster reregister命令。
stcli cluster reregister [-h] --vcenter-datacenter NEWDATACENTER --vcenter-cluster NEWVCENTERCLUSTER --vcenter-url NEWVCENTERURLIP [--vcenter-sso-url NEWVCENTERSSOURL] --vcenter-user NEWVCENTERUSER
hxshell:~$ stcli cluster reregister --vcenter-datacenter MyData-Center --vcenter-cluster Cluster-Name --vcenter-url https://vcenter1-url --vcenter-user
Reregister StorFS cluster with a new vCenter ...
Enter NEW vCenter Administrator password:
Cluster reregistration with new vCenter succeeded
hxshell:~$
相關資訊