- 让Gemini deep research了下目前企业中的SRE Agent是什么样的,能实现什么样的功能
- 对于IT较落后的制造业公司,对应的运维Agent能做什么,可以怎么做
- 最后思考下,我能在我现有的上下文中做出什么样的Agent
一般企业中的OpsAgent
仅从报告上看,企业中OpsAgent都是mutli-agent,不同的agent各司其职,同时又可以互相协作
另外构建关联清晰的知识图谱或拓扑图,能够让agent准确分析定位问题
基于观测数据的
如datadog,splunk这种的,基于收集云上的各种数据,在收到警告问题时,能快速基于数据并结合知识图谱分析问题来源和原因 并快速解决
基于因果推断的
- 因果AI,基于严格的拓扑图或知识图谱
- 预测AI,用于预测容器的资源容量等
- 生成式AI,仅用于和人对话和任务编排
用于协调的
整合多种工具实现自动化 多agent,比如专门用于在slack或通讯工具上做会议纪要;通过计划预测和编排值班计划;依据知识库处理简单问题和巡检;长期监控并生成报告;这些内容每个内容对应一个agent并进行协同合作
制造业OpsAgent
痛点
- 服务器部署
- 日志分散在服务器文件系统上,下载日志文件要通过sftp
- 访问服务器、数据库资源需要通过跳板机/堡垒机
- 操作需要通过rdp协议的图形化界面
- 手工部署,发版
能做什么
资源访问
一些跳板机工具支持用私有令牌(Private Token)或访问密钥(Access Key)来绕过交互式登录界面。可以使用Paramiko库实现服务器、数据库资源的访问,sftp文件的下载等
日志分析
避免将冗长的日志直接喂给模型,这样容易导致幻觉。
- 自动压缩:类似记忆管理的压缩上下文
- map-reduce模式:将日志分块喂给不同的模型,生成结构化jsonl,然后统一分析
利用处理过的工单等知识构建知识库给模型参考
操作
- computer-use agent:需要搭载高级视觉模型,成本较高,且不知道是否开源。速度也会比较慢。但其实在我理解是最能够解决落后IT系统的运维agent的重要技术
- RPA:依赖DOM,图形界面不能轻易变化
CI/CD
- agent可以拉取git仓库,通过对比代码差异,自动分析部署模块,生成部署脚本
- 如果想让agent执行shell,需要从安全角度考虑,做:
- 临时沙箱和计算隔离:agent思考和预演的过程不能在生产环境进行
- 零信任网关:过滤掉注入等安全风险
- MCP标准工具:通过结构化的yaml jsonl限制tool的执行规则,让agent确定性的执行命令
我能做什么
- 将RPA脚本封装为mcp server的tool或者skill,用于完成巡检、日志下载、服务器登录等任务
- 构建运维知识库(obsidian还是RAG?)
- 在系统中的配置操作,做一个类似brower use的web agent
- agent的基础框架,记忆管理,会话管理,安全,prompt,tool use
- multi-agent协同