背景
最近刷到一份 Agent 工程师的岗位 JD,跟以前的前端岗位完全不一样了。我心想:这大概就是现在以及接下来几年的方向了。
JD 里写的东西包括:
- TypeScript 做 Agent 轨迹可视化
- Python / Rust 对接 RL 训练框架
- Docker / Kubernetes 管理 Agent 容器
- MCP、Function Calling、Agent Scaffold
- Claude Code、Cursor 二次开发
看完我意识到一件事:现在 AI Agent 领域真正缺的,不是 “谁会调 Prompt” ,而是谁有能力把 Agent 工程化落地。
说实话,现在很多人已经能做:
- ChatBot
- Workflow
- LangChain 的 Demo
- 各种 AI 自动化脚本
但真正难的是怎么让 Agent:
- 可运行
- 可调试
- 可观测
- 可训练
- 可评测
- 可规模化迭代
这份 JD 本质上就是一张 AI Agent 工程师的技能树。
我决定把它彻底拆开,整理成一份完整的学习路线,帮助自己成长(因为我目前也在这条路上走呢),顺便分享给所有想往这个方向走的朋友。不感兴趣的就算了哈.....
一、这样岗位到底要什么样的人?
很多人一看到 Agent 岗位,第一反应是 “写几个 Agent Demo 就行了吧”。其实完全不是。
这个岗位更像 Agent 基建工程师,做的事包括:
- 把外部 Agent 工具和内部的 RL 训练体系打通
- 维护 Agent 容器服务,保证稳定运行
- 搭建评测和调试平台
- 封装统一的 Agent Runtime
- 降低算法团队的接入成本
- 提升整个 Agent 系统的可靠性和扩展性
一句话总结:让 Agent 从“能跑”,变成 “能持续进化”。
二、为什么前端能力反而越来越重要?
以前很多人觉得 Agent 是模型和算法的事。但现在越来越多的团队发现,如果没有:
- Tool Call 的时间轴
- Agent 的 Trace
- Token 消耗的可视化
- 轨迹回放
- 调试分析平台
Agent 根本没法真正迭代。
所以前端正在从“做业务页面”,变成 Agent 的观测层。这也是为什么很多 Agent Infra 岗位会明确要求 JavaScript / TypeScript、前端可视化能力、调试平台开发能力。
未来的 AI 系统,一定要有可观测性。
三、多语言能力:Python + Rust 为什么成了标配?
JD 里同时提到了 Python 和 Rust,这很有代表性。
Python 主要负责 Agent Runtime、LLM 接入、Tool Calling、Workflow 编排、RL 训练链路。
几乎所有的 Agent 框架——LangChain、AutoGen、OpenAI Agents SDK——核心生态都在 Python。
Rust 则越来越多地出现在 Agent Runtime 里。
原因很简单:性能更强、资源占用更低、更安全,特别适合做 CLI / Terminal Runtime。很多 AI Coding 工具的底层已经开始大量用 Rust 了。我猜 Rust 很可能会成为 Agent Infra 的重要底层语言。
四、Docker / Kubernetes 为什么成了标配?
最近我越来越觉得,Agent 本质上就是一个“会思考的服务”。既然是服务,就一定会涉及部署、隔离、调度、日志、扩缩容、资源管理。
所以 Docker 和 Kubernetes 成了 Agent Infra 的核心能力。很多 Agent 系统都采用“一个 Agent 一个容器”的方式运行,这样环境隔离、依赖不打架、安全性高,还能支持并发执行。Agent 正在越来越像 Kubernetes 里的“智能 Pod”。
五、MCP / Function Calling 为什么重要?
MCP、Tool Use、Function Calling 这些概念最近很火,它们真正重要的原因是:Agent 正在从“聊天”变成“调用工具”。
以前 LLM 就是个文本生成器,现在 LLM 更像一个 Tool Dispatcher —— 调数据库、调浏览器、调终端、调 API、调代码执行环境。
MCP 的意义很像 AI 世界的 USB-C,它让 Tool Discovery、资源管理、Prompt 注入、Function 调用开始标准化。未来谁掌握 Tool Ecosystem,谁就更容易掌握 Agent 生态。
六、AI Coding 正在重构软件工程
JD 里还要求熟悉 Claude Code、Cursor、Copilot,甚至做过二次开发。以前 AI Coding 只是代码补全,现在已经越来越像“AI 协作式开发”。
我自己最近在折腾 Ollama 本地模型、Claude Code 接入、CC-Switch 代理、MCP Tool Calling,踩了不少坑。比如有一次接口明明已经通了,Claude Code 却始终返回 404。查了半天发现根本不是接口的问题,而是返回协议格式不对。最后我不得不写了一层 Python 中转代理,才把整条链路真正跑通。
这件事让我觉得,未来程序员之间真正的差距,可能不再是“谁写代码更快”,而是谁更懂如何让 AI 参与软件工程。
七、我整理的 Agent 工程学习路线
如果让我从头开始学 Agent 工程化,我会按这个顺序来:
第一阶段:AI Coding
深度使用 Claude Code、Cursor、Copilot,理解 Context、Tool Use、Workflow、Prompt Engineering。
第二阶段:Agent Framework
学 LangChain、OpenAI Agents SDK、AutoGen、CrewAI。重点不是 API,而是理解 Agent Runtime 怎么工作的。
第三阶段:MCP / Function Calling
重点搞懂 Tool Calling、JSON Schema、Resource、Prompt Injection、Tool Runtime。因为 Agent 的核心就是 Tool 调度。
第四阶段:Docker / Kubernetes
学 Dockerfile、容器隔离、多阶段构建、K8s Deployment、Service、日志管理。未来的 Agent 一定会越来越 Infra 化。
第五阶段:Agent 可观测性
包括 Trace、Timeline、Token Usage、Replay、调试分析平台。这是很多人最容易忽略的,但其实是最关键的部分。
八、为什么要按这份 JD 来规划学习路线?
说实话,我之前折腾 Agent 也有一阵子了,Ollama、Claude Code、MCP、容器化这些都在碰。但学得比较散,今天看到一个有意思的项目就 clone 下来跑跑,明天刷到一篇教程跟着写写 Demo。学了一堆,真让我去搭一套可观测的 Agent 运行环境、接 RL 训练链路、做轨迹可视化平台,我可能还是得从零开始翻文档。
当我看到这份 JD,突然感觉它把 “市场到底需要什么样的 Agent 工程师” 给说清楚了。
不是要你会调 Prompt,也不是要你背 LangChain 的 API,而是要你:
- 能把外部工具接到内部训练框架里
- 能维护 Agent 容器服务
- 能搭评测平台和调试工具
- 能写 TypeScript 做可视化,也能写 Python/Rust 做 Runtime
- 能用好 AI Coding 工具,甚至做二次开发
每一行都是市场上真实存在的缺口。
所以我决定换一种学习方式:不再自己瞎折腾,而是把这份 JD 当成真正的学习地图。它说需要什么,我就去学什么;它写在加分项里的,我就排优先级去补。
后面我会按这个方向去学,做到哪一步就写到哪一步。比如:
- 先试试怎么把一个 Agent 装进容器里跑起来
- 再做一个小白能看懂的前端轨迹回放 demo
- 至于 RL 训练链路、MCP 二次开发这些,我会边学边记录,踩的坑和最终能不能成,都如实写出来
如果最后真的把这些东西啃下来了,那分享出来当然最好。如果某些方向卡住了,我也会把卡住的原因、尝试的过程写出来——我觉得那本身也有价值。
毕竟我不是什么 Agent 专家,只是一个想对着 JD 把个人的技能补齐。如果你也在做类似的事,欢迎一起交流,互相填坑。