簡介
本文介紹了驗證Secure Workload群集運行狀況的步驟,並著重介紹了在運行狀況檢查過程中需要檢查的關鍵方面。
背景資訊
其主要重點是健康核查;但是,如果您發現任何問題或異常行為,您必須收集快照並與Cisco Tetration解決方案支援TAC團隊聯絡以獲得幫助。安全工作負載群集由分佈在多個UCS C220伺服器上的多個虛擬機器上的數百個進程組成。
評估集群運行狀況的兩個主要工具是「集群狀態」和「服務狀態」頁,本文檔中將對這兩頁進行說明。通常,使用這些頁面是確認群集整體運行狀況的最有效方式。
何時檢查集群的運行狀況
在大多數情況下,不需要驗證群集的運行狀況。不過,在有些情況下,這是一個好主意:
·根據您對事物正常工作的經驗,如果您發現使用者介面(UI)中有任何異常或意外的情況。一些常見示例列在「操作顯示引數」部分中。
·如果您希望在UI中看到某些資料(如來自軟體或硬體感測器的流資料),但即使選擇了正確的範圍和時間範圍,這些資料仍會丟失。
·在對群集進行任何計畫維護、升級或重大更改之前和之後。最佳做法是在這些活動之前和之後對群集的狀態拍攝快照。如果您需要聯絡TAC支援,擁有這些快照有助於快速確定更改內容。
驗證安全工作負載群集運行狀況的不同選項
群集狀態
安全工作負載群集由6台伺服器(8RU)或36台伺服器(39RU)組成,具體取決於群集型別。「群集狀態」頁提供伺服器的狀態以及裸機伺服器資訊。
附註:具有物理群集的站點管理員或客戶支援角色的使用者可以訪問「群集狀態」頁。兩個角色都能夠在「集群狀態」頁上檢視並執行操作。
在導航窗格中,選擇Troubleshoot > Cluster Status。
群集狀態顯示Cisco Secure Workload機架中所有伺服器的狀態。正常運行的伺服器可以顯示「已委託」狀態和「活動」狀態,如下圖所示。

注意:如果您在群集狀態頁面上發現任何標籤為非活動的節點,請生成CIMC快照並提出TAC案例(包括快照)。
如果狀態顯示為「Inactive」,則通常意味著伺服器已關閉或可能由於硬體、電纜或連線問題而關閉。
按一下清單中的伺服器時,您會看到更多詳細資訊,例如
·在該物理伺服器上運行的虛擬機器(例項)
·群集內伺服器的專用IP地址
· CIMC(管理)IP地址
· BIOS、CIMC、VIC卡、LOM卡和RAID控制器的當前韌體版本

服務狀態
「服務狀態」頁面位於 > 下的左側導航窗格中。
態」頁顯示CiscoSecure Workloadcluster中使用的所有服務的運行狀況及其依賴項。
圖形檢視顯示服務的運行狀況,圖形中的每個節點顯示服務的運行狀況,一個邊表示對其他服務的依賴性。服務不可用時,不健康的服務會標籤為紅色;服務降級但可用時,服務會標籤為橙色。綠色或天藍色表示服務正常。有關這些節點的更多調試資訊,請使用包含Expand按鈕的樹檢視來顯示依賴關係樹中的所有子節點。Down、表示服務未正常工作;Unhealth、表示服務未完全正常工作。

附註:從補丁版本3.10.2.11開始,服務狀態頁面以天藍色顯示。綠色或天藍色表示服務正常。

預設情況下,「服務狀態」(Service Status)頁面以圖形檢視顯示集群功能和依賴性。如果圖示全部為綠色或天藍色,則不會檢測到任何錯誤。
如果某個服務顯示為紅色或橙色,則樹檢視顯示服務清單,並允許您深入檢視該服務的依存關係以及服務狀態功能檢測到的其他詳細資訊。使用TAC開啟案例時,此依賴項錯誤資訊尤為重要須予附註和擷取。
注意:如果您發現任何服務不健康且顯示為紅色,請聯絡技術支援中心(TAC)獲取解決這些問題的支援。快速與TAC接洽有助於恢復全部功能。

霍克耶(圖表)
Hawkeye儀表板提供對安全工作負載群集運行狀況的可視性,以及幫助進行故障排除的度量和見解
「鷹眼(圖表)」頁面位於 >「鷹眼(圖表)」下的左側導航窗格中
按一下「鷹眼(圖表)」後,將自動開啟一個新的瀏覽器頁籤,顯示「鷹眼」儀表板,如下圖所示。

在Hawkeye控制面板中,按一下Spark Pipeline Current頁籤以監視安全工作負載群集的運行狀況。
在Spark Pipeline的「當前」頁上,驗證端到端延遲、服務層延遲、主管道延遲和活動流延遲值都在10分鐘以內。
此外,請確認運行時值小於1分鐘,以秒為單位顯示,並且HDFS狀態為「良好」,如下圖所示。

注意:如果您觀察到任何延遲值(包括端到端延遲或服務層延遲)超過6小時,但未顯示逐漸減少,請諮詢技術支援中心(TAC)。
升級預檢查
在維護任務之前和之後,使用升級預檢查運行群集運行狀況檢查;此過程可確保服務、配置和硬體元件均按正確的工作順序運行
-
導覽至Upgrade Precheck。 導航到TetrationUI並執行以下步驟:
請等待幾分鐘,等待升級預檢查的輸出。如果所有操作都成功(如圖所示),則您可以繼續執行群集維護活動的下一步操作。

注意:如果任何升級預檢查失敗,請聯絡技術支援中心(TAC)尋求幫助。
|