简介
本文档介绍验证安全工作负载群集运行状况的步骤,并重点介绍在运行状况检查过程中需要检查的关键方面。
背景信息
其主要重点是健康核查;但是,如果您发现任何问题或异常行为,您必须收集快照并联系思科Tetration解决方案支持TAC团队寻求帮助。安全工作负载集群由分布在多台UCS C220服务器上的多个虚拟机上的数百个进程组成。
评估集群运行状况的两个主要工具是“集群状态”和“服务状态”页,本文档中对这些工具进行了说明。通常,使用这些页面是确认集群整体运行状况的最有效方式。
何时检查集群的运行状况
在大多数情况下,不需要验证集群的运行状况。然而,在某些情况下这是一个好主意:
·根据您对事物正常工作的体验,如果您注意到用户界面(UI)中有任何异常或意外情况。“操作显示参数”部分中列出了一些常见示例。
·如果您希望在UI中看到某些数据(例如来自软件或硬件传感器的流数据),但即使选择了正确的范围和时间范围,这些数据仍会丢失。
·在对群集进行任何计划维护、升级或重大更改之前和之后。最佳做法是在这些活动之前和之后拍摄集群状态的快照。如果您需要联系TAC支持,拥有这些快照可帮助快速确定发生哪些更改。
您必须验证安全工作负载集群运行状况的不同选项
集群状态
安全工作负载群集包括6台服务器(8RU)或36台服务器(39RU),具体取决于群集类型。Cluster Status页面提供服务器的状态以及裸机服务器信息。
注意:对于物理群集,具有站点管理员或客户支持角色的用户可访问“群集状态”页面。两个角色都能够在Cluster Status页面上查看并执行操作。
从导航窗格中,选择故障排除 > 集群状态。
集群状态显示Cisco Secure Workload机架中所有服务器的状态。正常运行的服务器可以显示“已委托”状态和“活动”状态,如下所示。

警告:如果您在集群状态页面上发现任何标记为非活动的节点,请生成CIMC快照并提交TAC支持请求,包括快照。
如果状态显示为“非活动”,则通常意味着服务器已关闭或可能由于硬件、电缆或连接问题而关闭。
单击列表中的服务器时,您会看到更多详细信息,例如
·在该物理服务器上运行的虚拟机(实例)
·集群中的服务器专用IP地址
· CIMC(管理)IP地址
·BIOS、CIMC、VIC卡、LOM卡和RAID控制器的当前固件版本

服务状态
Service Status页面位于 > 下的左侧导航窗格中。
态”页面显示CiscoSecure Workloadcluster中使用的所有服务的运行状况及其依赖关系。
图形视图显示服务的运行状况,图形中的每个节点显示服务的运行状况,边缘表示对其他服务的依赖性。服务不可用时,不健康服务会标记为红色;服务降级但可用时,会标记为橙色。绿色或天蓝色表示服务正常。有关这些节点的更多调试信息,请使用具有Expand按钮的树视图来显示依赖关系树中的所有子节点。Down,表示服务未正常工作;Unhealth,表示服务未完全正常工作。

注意:从补丁版本3.10.2.11开始,服务状态页面以天蓝色显示。绿色或天蓝色表示服务正常。

默认情况下,“服务状态”(Service Status)页面以图形视图显示集群功能和依赖关系。如果图标全部为绿色或天蓝,则未检测到任何错误。
如果某个服务显示为红色或橙色,则树视图显示服务列表,并允许您深入了解该服务的依赖项以及服务状态功能检测到的其他详细信息。在与TAC建立案例时,此依赖性错误信息对于注意和捕获尤为重要。
警告:如果您发现任何服务都不正常且颜色为红色,请联系技术支持中心(TAC),获取解决这些问题的支持。快速与TAC接洽有助于恢复全部功能。

霍克耶(图表)
Hawkeye控制面板提供对安全工作负载集群运行状况的可视性,以及有助于故障排除的指标和见解
Hawkeye(图表)页位于左侧导航窗格中的 > Hawkeye(图表)下
单击“鹰眼(图表)”(Hawkeye(Charts))时,将自动打开一个新的浏览器选项卡,显示“鹰眼”控制面板,如下所示。

在Hawkeye控制面板中,单击Spark Pipeline Current选项卡以监控安全工作负载集群的运行状况。
在Spark Pipeline Current页面上,验证End-to-End Lag、Serving Lag、Main Pipeline Latency和Active Flow Latency值均在10分钟以内。
此外,请确认运行时值小于1分钟,以秒为单位显示,并且HDFS状态为“良好”,如下图所示。

警告:如果您观察到任何延迟值(包括端到端延迟或服务层延迟)超过6小时而未显示逐渐减少,请咨询技术支持中心(TAC)。
升级预检查
在维护任务之前和之后,使用升级预检查运行集群运行状况检查;此过程可确保服务、配置和硬件组件均按正确的工作顺序运行
-
导航到升级预检查。 导航到TetrationUI并按照以下步骤操作:
等待几分钟,等待升级预检查的输出。如果所有操作都成功(如图所示),则您可以继续执行集群维护活动的后续操作。

警告:如果任何升级预检查失败,请联系技术支持中心(TAC)寻求帮助。
|