简介
本文档介绍如何在AppDynamics中配置代理可用性警报并排除问题。
先决条件
要求
- 向控制器报告可用性指标的Java/Machine/Database Agent。
- 创建HeathRule和Policies的权限。
- AppDynamics控制器(SaaS或内部部署)。
使用的组件
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。
背景信息
在数字优先的形势下,不间断的应用性能至关重要 — 不仅是为了用户满意度,也是为了业务连续性和声誉。AppDynamics通过从堆栈的每个角落收集关键遥测数据,提供强大的可观测性。但是,当负责这种可视性的代理程序变暗时,会发生什么情况呢?如果不能及时检测到座席停机,您的可观察性会受到影响,从而使您对出现的故障和潜在停机的情况一无所知。
问题陈述
当AppDynamics代理(App Agent或Machine Agent)停止报告时,您将无法实时洞察应用程序运行状况、性能和基础设施状态。此盲点可能是由代理崩溃、配置不当、网络故障或资源耗尽造成的。后果是巨大的:
- 丧失可观察性:监控数据的漏洞使您无法主动检测、诊断和解决性能或可用性问题,从而给您的环境留下关键盲点。
- 事件响应速度较慢:如果没有及时的警报,中断或降级情况可能会一直存在,而不会被注意到,直到它们影响到最终用户,导致更长的停机时间和平均解决时间。
- 合规性和审核漏洞:不完整的监控记录可能会破坏合规性,并难以证明审核就绪性,使组织面临潜在的处罚。
- 业务和客户影响:未检测到的中断或性能问题可能会降低用户体验、降低信任度、对组织声誉造成负面影响,并导致直接收入损失。
座席可视性的重要性
1.保持端到端可视性:
代理可用性警报确保当代理停止报告时立即通知您,从而允许您在出现严重间隙之前恢复监控。这是跨分布式系统保持端到端可观测性的基础。
2.主动事件管理:
自动警报使团队能够应对监控差距,避免其升级为影响业务的中断。早期检测意味着更快的补救和最小的停机时间。
3.支持合规和治理:
合规性通常要求持续监控。代理可用性警报帮助您维护完整的监控记录并证明对操作标准的遵守。
4.放心扩展:
随着环境规模和复杂程度的增加,手动代理检查变得不切实际。自动化的座席可用性警报可确保大规模的可观察性,标记所有节点和服务之间的差距。
5.减少误报:
AppDynamics允许您微调运行状况规则并使用限定符(如SUM或某个时间段内的值)来避免因暂时断开连接或短暂网络问题导致的不必要警报。这可以确保仅在可观察性出现实际差距时才发出警报。
配置
在AppDynamics中设置代理可用性警报包括三个主要步骤:创建运行状况规则、定义操作并将它们与策略关联。
步骤 1:创建运行状况规则
- 转到AppDynamics控制器用户界面。
- 导航到Alert & Respond并选择Health Rules。
- 单击+按钮以添加新的运行状况规则。
- 为规则命名(例如Agent Down Alert - BookHouzeService):

- 在受影响的实体部分中,选择要监控的节点或层:

- 在关键条件部分中,设置度量路径:
- 对于应用代理:代理|应用|可用性
- 对于计算机代理:硬件资源|计算机|可用性
- 对于数据库代理:DB|KPI|数据库可用性
(使用指标浏览器来探索和验证这些路径)
- 设置值小于1(< 1)时触发的条件。 这意味着如果代理未报告,则会触发警报。
- 确保将Evaluate to true on no data选项选为Critical,以捕获代理完全停止发送指标的情况。

提示:如果您的应用程序遇到空闲时段(无流量),则代理可能会卸载并显示为关闭。请考虑调整应用程序空闲超时设置,或微调运行状况规则评估窗口以避免误报。
步骤 2:创建操作
- 转至Alert & Response > Actions。
- 创建操作,例如发送电子邮件通知或调用Webhook。
- 指定警报的收件人或集成终端。


步骤 3:创建策略
- 转至Alert & Response > Policies。
- 创建新策略并选择您创建的运行状况规则:

- 将操作分配给此策略:

现在,只要座席停止报告,AppDynamics就会自动通知您的团队,从而允许进行快速调查和补救。
验证
步骤 1:检查运行状况规则评估状态
- 导航至Health Rules:
转到AppDynamics控制器中的警报和响应>运行状况规则。
- 查找您的规则:
在列表中查找您的座席可用性运行状况规则。
- 状态指示器:
查找规则旁边的状态图标或评估摘要。绿色复选标记或OK状态表示正在对其进行评估;警告或错误表示存在配置问题。

步骤 2:使用度量浏览器
- 打开度量浏览器:
转至Monitor > Metric Browser。
- 查找可用性度量:
向下钻取到目标节点或层的Agent|App|Availability或Agent|Machine|Availability。
步骤 3:模拟代理关闭场景
- 停止代理:
在测试节点上临时停止AppDynamics代理服务。
- 等待评估:
留出足够的时间让运行状况规则评估窗口通过。

- 检查警报:
查看运行状况规则违规是否显示在UI中,以及是否触发了配置的操作(如电子邮件、Webhook)。 
步骤 4:查看警报和响应控制面板
- 导航到Alert & Respond > Actions and Policies:
确认链接到运行状况规则的操作和策略显示最近的活动或触发日志。

步骤 5:检查通知传送
- 验证电子邮件/Webhook:
确保在收件箱或终端中收到警报。
- 查看警报内容:
警报消息必须引用正确的运行状况规则和受影响的节点/层。

验证核对表:
√运行状况规则状态为OK或正在评估。
√最近的运行状况规则评估和(如果适用)违规在UI中可见。
√ Metric Browser显示可用性指标的实时数据。
√模拟的代理关闭方案会触发运行状况规则违规和警报。
√通过配置的通知通道收到警报。
这些验证步骤有助于确保您的座席可用性警报不仅配置正确,而且受到主动监控,在座席离线时随时通知您。此简单的例程可以防止意外监控盲点并加强整体可观察性策略。
故障排除
即使采用最佳设置,有时警报也不会在您预期时触发。下面是一个实用核对表,可帮助您在代理可用性警报未在AppDynamics中工作时进行故障排除:
分类 |
故障排除步骤 |
检查运行状况规则配置
|
- 度量路径:仔细检查是否使用了正确的度量路径(Agent|App|Availability或Agent|Machine|Availability)。
- 条件逻辑:确保在值小于1(< 1)时触发警报条件。
- 评估窗口:如果您的评估窗口过短或过长,可能会导致漏报或延迟警报。根据需要进行调整。
- 在没有数据时评估为true:确保启用此选项,以便即使代理完全停止发送数据,规则也会触发。
|
验证操作和策略
|
- 操作配置:确认您的操作(如电子邮件、Webhook)已正确设置并指向正确的收件人或终端。
- 策略链接:确保您的运行状况规则通过策略实际链接到操作。
- Policy Status:检查策略是否处于启用状态,以及是否处于暂停或禁用状态。
|
端到端测试警报
|
- Simulate an Agent Down(模拟代理关闭):停止或断开代理以查看运行状况规则是否触发并发送警报。
- 检查通知通道:验证您的电子邮件、短信或Webhook终端是否工作正常,并且未被垃圾邮件过滤器或防火墙阻止。
|
查看AppDynamics日志和控制面板
|
- 控制器日志:在AppDynamics控制器日志中查找与警报或运行状况规则相关的错误或警告。
- 警报和响应控制面板:使用AppDynamics UI查看最近触发的运行状况规则违规和操作。
|
检查代理和网络运行状况
|
- 座席状态:确保座席实际上已关闭或未报告。有时代理正在运行,但由于网络问题而无法发送数据。
- 网络连接:确保代理和控制器之间没有网络分区或防火墙阻止通信。
|
常见陷阱
|
- 应用程序池空闲超时:对于Web应用程序,空闲超时可能导致代理卸载。调整设置或扩展评估窗口以避免漏报。
- 多个控制器:如果您有多个AppDynamics控制器,请验证您正在检查正确的控制器。
|
专业提示:将测试运行状况规则和策略保存在非生产环境中,这样您就可以在任何配置更改或升级后安全地试验和验证警报行为。
这些故障排除步骤可帮助您快速确定和解决AppDynamics中的代理可用性警报的大多数问题,从而确保您的监控保持可靠且您的团队在出现故障之前保持警惕。
结论
代理可用性警报是AppDynamics中可靠可观察性的基石。通过主动检测和响应代理中断,您可以保持连续的可视性、加快事件响应速度,并保护您的企业免受未检测到的中断风险。在每秒钟停机时间都十分重要的当今世界,这些警报使团队能够在停机前保持领先地位,并提供用户期望的恢复力强的数字体验。
需要进一步的帮助
如果您遇到问题或遇到问题,请联系AppDynamics支持并添加详细信息(如错误消息、配置信息或相关日志),以帮助加快故障排除速度。
相关信息