Agent 工程师到底需要什么技术，我总结了几十个招聘要求先说清楚一个前提：这里说的不是去训基座模型的人，是拿模型造产品

先说清楚一个前提：这里说的不是去训基座模型的人，是拿模型造产品的人。很多人一听"AI 工程师"就觉得要搞科研，其实不是，Agent（现在逐渐改为叫 Harness）本质上还是个软件工程师，只是工具箱里多了大模型这件武器。

一、你到底要会什么

第一层：先做个合格的程序员

别被"AI 工程师"这个头衔迷惑了。没有扎实的工程基础，你只是个会调 API 的人，造不出能在生产环境里跑的东西。

语言：至少精通 Python，最好还能写点 Go 或 Java。不是会跑 notebook 就行，是能写出可维护的生产代码。
运维：自己的服务能容器化，Docker、K8s 不用精通，但起码服务挂了你知道怎么查。
系统设计：能画出"一个请求进来，经过哪些模块，结果怎么出去"这张图，并且能把它实际落地，不只是停在白板上。

有个简单的自检：让你不用任何 AI 框架，纯手写一个后端服务，你能不能独立搞定？搞不定的话，先补这块。

第二层：真的懂大模型，不是会调 API 就叫懂

不需要你手推 Transformer 公式，但有些东西必须清楚。

模型的本质特性：它会幻觉、会遗漏信息、上下文窗口是有限制的——这些不是 bug，是它的固有特性，你得围绕这些去设计你的系统，而不是等着遇到问题再懵。

Prompt 是工程，不是玄学：Few-shot、CoT、角色设定这些技巧，更重要的是知道它们分别在什么场景下管用，而不是无脑堆砌。

选模型是个工程判断：这个任务是用 GPT-4o 还是本地跑个 7B 就够了？成本和效果怎么取舍？这个判断能力在实际项目里非常值钱。

微调：你不用亲自上手炼丹，但你得知道 LoRA、SFT 是什么，什么场景下才值得微调，能跑通一个 pipeline 就够了。

说到底，你是用武器的人，不是造武器的，但你得知道武器的原理和脾气，不然出了问题根本不知道往哪查。

第三层：能造 Agent——这才是核心竞争力

这是你和普通后端工程师拉开差距的地方。

一个 Agent 说到底就干四件事：

能力	具体是什么意思
理解意图	用户说了句模糊的话，Agent 能听懂他到底想干嘛
做计划	碰到复杂任务，能拆成几步，知道先干啥后干啥
用工具	自己决定该调哪个 API、查哪个数据库、跑哪段代码
有记忆	不是每次对话都像第一次见面，能记住之前聊过什么、做过什么

要真正会造 Agent，你需要：

熟悉主流框架（LangChain、LangGraph、Dify、Coze），但更关键的是，不依赖框架，能用纯代码写出"接收指令 → 思考 → 调工具 → 返回结果"这个循环。框架会过时，原理不会。

Function Calling 和 MCP 协议得懂：怎么把一个普通 API 变成 Agent 能调用的工具？

多 Agent 协作：多个 Agent 怎么分工？谁来统筹，谁来执行，怎么避免它们互相扯皮搞成死循环？

异常处理：Agent 调工具失败了怎么办？生成了一堆胡话怎么办？降级、重试、兜底，这些你都得想清楚——demo 好看没用，生产里稳定才算本事。

第四层：会做 RAG

90% 的 Agent 项目都涉及"让模型基于私有知识回答问题"，这就是 RAG。基本流程得门清：文档切片 → 向量化 → 存进向量数据库 → 用户提问时检索 → 拼进 Prompt → 模型生成答案。

几个容易踩的坑：

Embedding 模型选错了，检索质量差，后面怎么调都没用
Chunk 切太大太小都有问题，得根据实际场景反复试
纯向量检索有时候不够，结合关键词检索（BM25）效果往往好很多
Rerank 重排序这步很多人直接跳过，但它能明显提升最终效果

调 RAG 不是一次性的事，是个反复打磨的过程。

第五层：安全意识

这块很多人忽略，但出事就是大事。

Agent 不是普通聊天机器人，它能操作真实世界——查数据库、发邮件、下单付款。这意味着出问题的代价是真实的。

必须考虑的：

Prompt 注入：用户故意输入恶意指令，你的 Agent 不能被"越狱"
权限最小化：Agent 能调的工具要有白名单，不能给它上帝权限
输出过滤：模型返回的内容要过一遍，不能把敏感信息直接丢给用户
关键操作要有兜底：涉及钱、涉及不可逆操作，必须有人工确认或规则校验，不能完全信任模型

没有安全防护的 Agent 上生产，就像一辆没有刹车的车。

第六层：评测和数据思维

怎么知道你的 Agent 好不好？靠感觉不行。任务完成率、准确率、平均耗时、Token 成本——这些指标你得定义出来，搭评测 pipeline 跑起来。

更重要的是转起数据飞轮：收集用户真实对话 → 挑出 bad case → 优化 Prompt 或微调 → 重新评测 → 上线。这个循环是系统持续进化的引擎。

记住一点：系统上线是开始，不是结束。

二、软素质

把模糊需求变成明确方案。老板说"我要一个智能客服"，你能追问出具体场景和边界条件，写出落地的技术方案，而不是接个需求就开干。

从 0 到 1 的能力。不是等别人把架构搭好你来填代码，是空白项目你能自己起步。

跨界沟通。跟产品经理解释"为什么模型做不到 100% 准确"，跟算法同事讨论"这个场景该不该微调"——两边都能说清楚，这个能力在团队里非常稀缺。

跟上变化的节奏。这个领域三个月就大变样，保持学习不是选项，是必须的。但注意，跟进和焦虑是两回事，要的是有选择地吸收，不是什么新东西出来都去追。

三、学习路线

给没有方向的同学一个参考顺序。

阶段一：打地基（2-4 周）

目标：成为一个能写生产代码的 Python 工程师。

Python 进阶：asyncio 异步编程、类型注解、Pydantic 数据校验、项目结构规范
Web 后端：FastAPI 搭 RESTful API，基本的数据库操作（PostgreSQL / Redis）
工程化：Git 工作流、Docker 基础（写 Dockerfile、docker-compose）、Linux 常用命令

阶段产出：一个能跑的后端 API 服务，Docker 部署。

阶段二：搞懂大模型（3-4 周）

目标：从"会调 API"进化到"懂模型"。

基础概念：看 3Blue1Brown 的 Transformer 可视化视频，搞清楚 Token、上下文窗口、Temperature、Top-P 这些概念
Prompt Engineering：学结构化 Prompt 写法，实操用 Prompt 解决 10 个不同类型的任务
API 调用实操：OpenAI、Claude等 API，流式输出，Function Calling 机制
本地部署：用 Ollama 本地跑一个 7B 模型，了解 vLLM 推理框架，试跑一次 LoRA 微调

阶段产出：一个多轮对话应用 + 一份 Prompt 优化案例集。

阶段三：构建 RAG 系统（3-4 周）

目标：做一个真正可用的知识问答系统。

RAG 基础：理解 Embedding 是干嘛的，学文档解析和切片策略（固定长度 vs 语义切分）
向量数据库：从 Chroma 入手，进阶可以看 Milvus 或 Weaviate
检索优化：Embedding 模型选型（BGE、M3E），混合检索（向量 + BM25），Rerank 重排序
端到端跑通：从文档上传到生成答案完整跑通，处理多轮对话中的指代消解

阶段产出：一个基于自己文档的 RAG 问答系统，能 Demo 展示。

阶段四：构建 Agent（4-6 周，核心）

目标：能从零搭一个会用工具、能规划任务的 Agent。

第一步：用框架快速上手。 LangChain 走一遍官方 Tutorial，LangGraph 理解状态机和图的概念，Dify / Coze 搭一个感受全流程。

第二步：理解底层原理。 不用框架，纯代码实现一个 ReAct Agent——思考 → 决定用什么工具 → 执行 → 观察结果 → 继续思考，用 while 循环实现。自己写一遍比看一百遍文档都管用。

第三步：进阶能力。 多 Agent 协作，LangGraph 实现带分支循环的复杂流程，MCP 协议，异常处理（超时、重试、降级、人工接管）。

第四步：生产化。 日志和可观测性（LangSmith / LangFuse），并发处理，流式输出让用户看到 Agent 的思考过程。

阶段产出：一个完整 Agent 项目，比如能自动查资料、对比价格、生成报告的助手。

阶段五：安全 + 评测 + 上线（2-3 周）

目标：从"能跑"变成"能用"。

安全：常见 Prompt 注入手法，输入过滤 + 输出审查，工具调用权限控制
评测：设计测试集（正常 case + 边界 case + 对抗 case），搭自动化评测 pipeline，LLM-as-Judge
部署：K8s 或云服务，监控告警（Prometheus + Grafana），灰度发布

阶段产出：完整的评测报告 + 生产部署方案。

阶段六：持续进阶（长期）

多模态 Agent（图片、音频、视频）、代码生成 Agent（写代码 + 跑代码 + 自我调试）、RLHF / GRPO 基本思路、读 Paper、逛 GitHub Trending。

一条原则：做项目 > 学知识。每学一个新技术就用它做一个真实项目，学了不做等于没学。

四、学习资源（精选）

类别	资源	说明
入门视频	3Blue1Brown - Transformer	直观理解模型原理，不需要数学基础
Prompt	OpenAI 官方 Prompt 指南	最权威的 Prompt 教程
RAG	LangChain RAG Tutorial	跟着做一遍就懂了
Agent	LangGraph 官方文档	当前最推荐的 Agent 框架
实战课	Andrew Ng 的 AI Agent 系列课	DeepLearning.AI 出品，质量可靠
微调	LLaMA-Factory	中文社区最好用的微调工具
评测	RAGAS / LangSmith	RAG 和 Agent 的评测工具
跟进前沿	GitHub Trending + X (Twitter)	每周花 1 小时浏览即可

五、总结

能力层次从底到顶：合格的程序员 → 懂大模型 → 会做 RAG → 能造 Agent → 安全评测上线 → 持续进阶。

最重要的一件事：别在"学"上花太多时间，在"做"上花时间。每个阶段都有一个具体的产出物，做出来了才算学会了。这个领域变化太快，边做边学是唯一可行的策略。