20260506-OpsAgent调研

4 阅读3分钟
  • 让Gemini deep research了下目前企业中的SRE Agent是什么样的,能实现什么样的功能
  • 对于IT较落后的制造业公司,对应的运维Agent能做什么,可以怎么做
  • 最后思考下,我能在我现有的上下文中做出什么样的Agent

一般企业中的OpsAgent

仅从报告上看,企业中OpsAgent都是mutli-agent,不同的agent各司其职,同时又可以互相协作

另外构建关联清晰的知识图谱或拓扑图,能够让agent准确分析定位问题

基于观测数据的

如datadog,splunk这种的,基于收集云上的各种数据,在收到警告问题时,能快速基于数据并结合知识图谱分析问题来源和原因 并快速解决

基于因果推断的

  • 因果AI,基于严格的拓扑图或知识图谱
  • 预测AI,用于预测容器的资源容量等
  • 生成式AI,仅用于和人对话和任务编排

用于协调的

整合多种工具实现自动化 多agent,比如专门用于在slack或通讯工具上做会议纪要;通过计划预测和编排值班计划;依据知识库处理简单问题和巡检;长期监控并生成报告;这些内容每个内容对应一个agent并进行协同合作

制造业OpsAgent

痛点

  • 服务器部署
  • 日志分散在服务器文件系统上,下载日志文件要通过sftp
  • 访问服务器、数据库资源需要通过跳板机/堡垒机
  • 操作需要通过rdp协议的图形化界面
  • 手工部署,发版

能做什么

资源访问

一些跳板机工具支持用私有令牌(Private Token)或访问密钥(Access Key)来绕过交互式登录界面。可以使用Paramiko库实现服务器、数据库资源的访问,sftp文件的下载等

日志分析

避免将冗长的日志直接喂给模型,这样容易导致幻觉。

  • 自动压缩:类似记忆管理的压缩上下文
  • map-reduce模式:将日志分块喂给不同的模型,生成结构化jsonl,然后统一分析

利用处理过的工单等知识构建知识库给模型参考

操作

  • computer-use agent:需要搭载高级视觉模型,成本较高,且不知道是否开源。速度也会比较慢。但其实在我理解是最能够解决落后IT系统的运维agent的重要技术
  • RPA:依赖DOM,图形界面不能轻易变化

CI/CD

  • agent可以拉取git仓库,通过对比代码差异,自动分析部署模块,生成部署脚本
  • 如果想让agent执行shell,需要从安全角度考虑,做:
    • 临时沙箱和计算隔离:agent思考和预演的过程不能在生产环境进行
    • 零信任网关:过滤掉注入等安全风险
    • MCP标准工具:通过结构化的yaml jsonl限制tool的执行规则,让agent确定性的执行命令

我能做什么

  1. 将RPA脚本封装为mcp server的tool或者skill,用于完成巡检、日志下载、服务器登录等任务
  2. 构建运维知识库(obsidian还是RAG?)
  3. 在系统中的配置操作,做一个类似brower use的web agent
  4. agent的基础框架,记忆管理,会话管理,安全,prompt,tool use
  5. multi-agent协同