20260506-OpsAgent调研运维agent的一些想法和调研。包括一般企业的运维智能体是什么样，能做什么。制造业

让Gemini deep research了下目前企业中的SRE Agent是什么样的，能实现什么样的功能

对于IT较落后的制造业公司，对应的运维Agent能做什么，可以怎么做

最后思考下，我能在我现有的上下文中做出什么样的Agent

一般企业中的OpsAgent

仅从报告上看，企业中OpsAgent都是mutli-agent，不同的agent各司其职，同时又可以互相协作

另外构建关联清晰的知识图谱或拓扑图，能够让agent准确分析定位问题

如datadog，splunk这种的，基于收集云上的各种数据，在收到警告问题时，能快速基于数据并结合知识图谱分析问题来源和原因并快速解决

整合多种工具实现自动化多agent，比如专门用于在slack或通讯工具上做会议纪要；通过计划预测和编排值班计划；依据知识库处理简单问题和巡检；长期监控并生成报告；这些内容每个内容对应一个agent并进行协同合作

资源访问

一些跳板机工具支持用私有令牌（Private Token）或访问密钥（Access Key）来绕过交互式登录界面。可以使用Paramiko库实现服务器、数据库资源的访问，sftp文件的下载等

日志分析

避免将冗长的日志直接喂给模型，这样容易导致幻觉。

利用处理过的工单等知识构建知识库给模型参考

操作

computer-use agent：需要搭载高级视觉模型，成本较高，且不知道是否开源。速度也会比较慢。但其实在我理解是最能够解决落后IT系统的运维agent的重要技术
RPA：依赖DOM，图形界面不能轻易变化

CI/CD

agent可以拉取git仓库，通过对比代码差异，自动分析部署模块，生成部署脚本
如果想让agent执行shell，需要从安全角度考虑，做：
- 临时沙箱和计算隔离：agent思考和预演的过程不能在生产环境进行
- 零信任网关：过滤掉注入等安全风险
- MCP标准工具：通过结构化的yaml jsonl限制tool的执行规则，让agent确定性的执行命令