智能体运维 (AgenticOps) 是什么?

AgenticOps 是一种智能体优先的全新 IT 运维模式,可以让系统在监督下自主执行操作,融合专家经验与机器学习能力。

从 AI 到智能体:发展过程

传统的基于 AI 的 IT 运维 (AIOps) 方法仅止步于提供告警和建议,而 AgenticOps 则与之不同,这种新方法会更进一步,利用 AI 智能体来分析问题并秒速采取行动。在整个过程中,运营人员始终处于核心环节,而非置身局外。通过统一的共享工作空间,运营人员能与智能体并肩协作,告别在多个管理界面间反复切换的繁琐。这意味着一种全新的跨域运维模式,可以有效预防问题或加快问题解决,从而减少工单数量,并确保 IT 能够实时做出调整。多年来,AIOps 确实带来更智能的 IT 运维,但主要体现在告警优化和改善控制面板方面,虽然有用,却仍停留在被动层面。这种方法仅止步于问题检测,将真正的解决工作留给了人工团队。

发展过程:

  • 规则和脚本(1980-1990 年代):基于 if/then 逻辑的自动化,适用于重复性任务。
  • 机器学习(2000-2010 年代):异常检测算法和模式识别算法。
  • 生成式 AI(2020 年代初期):利用模型来生成表达流畅的解释、摘要和答案,但仍属于被动模式,而且仅限于单轮对话。
  • 智能体 AI(2020 年代中期):AI 系统作为智能体运行。智能体是一种自主实体,能够逐步进行推理、对任务排序、访问工具和数据,并通过与其他智能体或人类合作来达成某一目标。

AI 智能体是什么?

AI 智能体是一种自主软件实体,不仅能响应各种请求,还能主动做出决策并付诸行动。与仅提供信息的聊天机器人或智能控制面板不同,智能体可以理解人类分配的目标和上下文信息、自动规划和执行任务、适应各种情况,并持续学习优化。

可靠的企业级智能体应具备以下五个特征:

  • 理解身份和上下文信息:拥有明确的角色、目的和工作范围。
  • 具备推理能力:可以分解复杂问题,权衡替代方案,并根据上下文信息做出选择。
  • 易于扩展:能够跨多个不间断的系统持续运行。
  • 安全可靠:行动受策略、权限和审计追踪约束。
  • 提高运维效率:将推理能力与自动化功能相结合,减少手动操作并更快实现目标。

具备这些特质的智能体将不再只是“助理”,而是“协作者”:它们能与其他智能体及人类合作,共同推动运维模式的持续提升。

智能体层和协调层 

智能体并不是孤立运行的。在某些场景下,智能体之间能够直接进行任务流转,例如:监控智能体将数据传递给诊断智能体,或者由修复智能体将执行结果反馈给学习智能体。这些交互过程清晰直观,且职责范围明确。

但是,如果涉及更复杂的工作流程,就需要使用智能体层来专门管理多个智能体之间的协作,这类事务包括:拆分任务、并行工作、协调互相冲突的结果,以及保存共享的上下文信息。智能体层依托各类模型(包括基础模型、微调模型及特定领域模型),赋能智能体实现任务的智能拆解与推理协同。

在智能体层之上,是协调层。它能确保所有行动按正确的顺序进行,并且遵循明确的策略防护措施,例如:在开始诊断之前,先收集遥测数据;或者在执行修复之前,先验证修复方法。虽然协调是由工作流程驱动的,但也可以使用模型来解释运维人员的意图、验证执行步骤,并生成推理过程信息。

在协调层中,将这一切串联在一起的是模型上下文协议 (MCP)。MCP 与传统 API 不同。API 在每次用于集成时,都必须进行定制和限制;而 MCP 则为智能体如何连接模型、工具和数据提供了统一的标准。它确保协调过程中,所有智能体都能以一致的方式安全地发现、访问和使用所需资源。与单独的点对点集成方法相比,这种新方法可以让互动拥有更高的灵活性、可扩展性和可管理性。

智能体层与协调层相辅相成,共同构筑了稳健的架构基石,确保自主作业具备高可靠性、可解释性与可重复性。

为什么现在应迁移到 AgenticOps?

现代 IT 环境高度复杂、瞬息万变且过度分散,仅靠人力难以应对。AIOps 虽然提升了运维可视性,但其能力往往止步于告警与建议。所以,我们需要从 AIOps 迁移到更智能的 AgenticOps。

AgenticOps 与 AIOps 的对比

特性AgenticOps传统 AIOps
自动化智能体跨系统执行推理、制定规划并做出行动仅提供告警和建议,需要人工跟进
工作流程以自适应方式端到端执行任务提供静态的行动指南和控制面板
领域专长使用基于上下文信息和运营数据训练的模型使用通用机器学习 (ML) 模型,感知能力有限
推理将问题分解为多个步骤,权衡替代方案,并实时做出调整报告异常,由人工进行分析推理
扩展永远在线,秒速运行受人员处理能力和周期限制
身份智能体拥有明确的角色和职责没有固定的身份,孤立地履行其职能
安全性行动受策略、权限和审计追踪约束受现有系统控制措施约束
运营效率自主解决问题,减少手动操作主要优势在于加快检测速度和提高可视性
决策能力根据推理过程建立可审核的自适应工作流程利用 Runbook 定义固定的回答
确定性非确定性推理:根据上下文信息进行自适应选择确定性输出:响应始终一致

 

结论:AIOps 帮助 IT 团队更快发现问题;AgenticOps 赋能 IT 团队以现代环境所需的速度和规模快速解决问题。

思科的方法

思科的 AgenticOps 方法是将遥测、智能和协作功能集成到一个统一的框架中。我们的目标是打造具有企业级可靠性的智能体,不仅能根据上下文信息进行推理,还能安全地采取行动,并与运维人员无缝协作。

  • 理解身份和上下文信息:在 Cisco AI Canvas 中,每一个智能体都拥有明确定义的角色(例如监控、诊断、修复或学习),从而确保工作流程既能被跟踪和审核,又能支持协作。
  • 具备推理能力:Cisco Deep Network Model 通过思科 40 多年的运营数据(包括 CCIE 专业知识、生产遥测数据和思科洞察)进行训练,可让智能体以常规模型无法企及的准确性和深度进行推理。
  • 易于扩展:思科平台全面涵盖园区、分支机构、云和边缘。智能体能够秒速使用 Meraki、ThousandEyes 和 Splunk 等思科生态系统中的遥测数据。此外,随着 MCP 服务器在思科全线产品中的部署,智能体能够以标准化、可扩展的方式,高效调用所需的工具与数据。
  • 安全可靠:任何行动都会受到加密访问、透明架构和推理过程等机制的约束。运维人员可以在任何时间点验证、批准或覆盖这些行动,行使监督职责。
  • 提高运维效率:Cisco AI Assistant 与 AI Canvas 相结合,构成了一个基于自然语言的工作空间,让人类能够与智能体进行实时协作,并获得始终如一的体验。与使用多个管理界面相比,效率大大提升。

基于思科的这些核心能力,AgenticOps 能够原生支持多种数据源,打通了 NetOps 与 SecOps 的跨领域协作,并由专用模型提供支持——为您带来真正可信赖的自主运维体验。

实际应用

假设分支机构遇到性能下降问题,接下来会发生什么?

  • 监控智能体在 ThousandEyes 遥测数据中检测到异常情况。
  • 诊断智能体将这些发现结果与 Meraki 无线网络日志和 Splunk 洞察进行关联分析。
  • 对于这种较为复杂的工作流程,智能体层会在多个智能体之间进行协调,包括拆分任务、并行运行路径跟踪,以及协调所有结果。
  • 此时,智能体可以通过 Cisco Deep Network Model 利用特定领域的专业知识进行推理,找出通用模型无法发现的模式和根本原因。
  • 协调层使用 MCP,按照“先验证数据,再实施修复”的原则确定后续步骤的顺序。
  • 经分析,根本原因为:某冗余路径上的一台路由器存在配置错误。
  • 修复智能体提出经过验证的修复方案。工程师通过 Cisco AI Assistant 审核和批准修复方案,再由智能体自动执行。
  • 学习智能体记录工作流程并更新推理过程,以便系统下次更好地做出应对。

以上所有步骤都会显示在 AI Canvas 中,涵盖遥测数据、推理过程、执行操作及验证结果,为您提供一站式的统一交互体验。Cisco Deep Network Model 负责提供智能,智能体负责执行琐碎工作,而运营人员则负责掌控全局。

结果:无需费时讨论、盲目排查与响应延迟,实现机器级的极速修复,让运维全程可信、透明。

风险和责任

智能体做出行动只需要一瞬间,但是信任无法一蹴而就。因此,思科确保每一项操作都具备可解释性、透明度与可逆性,让自主运维安全无忧。在现阶段,一切仍由您掌控。随着时间的推移,您对智能体建立了信任,就能让 AI 执行更多任务。毕竟,我们从一开始就将信任融入了自主能力的设计之中。

思科采用三管齐下的方法:

  • 通过透明架构、加密访问和审计追踪确保问责机制的落实。
  • 通过 Cisco Deep Network Model 提供特定领域的专家级洞察。
  • 通过 MCP 服务器确保智能体以标准化方式安全地连接各种工具和数据。

有了这三重保障,AgenticOps 就不会是无法控制的自动化系统,而是值得信赖的自主框架。

对未来的展望

我们对 AgenticOps 的定位不仅仅是加快问题修复,而是成为面向未来 IT 的操作系统。它能利用数字孪生、偏差检测和持续学习技术,帮助您从被动的“救火式”运维模式转变为主动的“预防式”运营模式。随着信任的积累,智能体将承担更多职责,从人工监督下的操作演进为自主式的问题解决——且始终确保过程的可解释性、透明度与合规性。

思科从设计之初就已为此打好基础。通过跨网络和云实现安全的统一遥测、推理和协作,我们不断为打造值得信赖的大规模自主系统而努力。

未来清晰可见:AIOps 已经帮助您发现了问题,就让 AgenticOps 来帮助您解决这些问题吧!

资源

AIOps 是什么?

基于人工智能的 IT 运维 (AIOps) 旨在利用人工智能 (AI) 来提高 IT 运维的效率和成效。

生成式 AI 是什么?

作为人工智能 (AI) 技术的一个分支,生成式 AI 能够效仿人类的创造力,根据用户请求生成原创内容。

边缘 AI 是什么?

边缘人工智能 (AI) 能够在网络边缘本地处理数据,以便更快从数据中获得洞察,帮助更好地做出实时决策。

AI 在网络领域有哪些应用?

AI 网络技术旨在帮助企业通过自动化来解决复杂问题。

AI 在制造业有哪些应用?

了解 AI 如何凭借其在自动化、质量控制和预测性维护方面的优势,推动制造业转型。

负责任 AI

了解负责任 AI 原则,即在技术开发过程中需恪守道德、保持透明,并且敢于承担责任。

思科 AI 博客

深入了解思科如何在行业中一马当先,积极推动 AI 基础设施相关创新,并将基于 AI 的功能集成到所有产品和客户服务产品组合。