先说清楚一个前提:这里说的不是去训基座模型的人,是拿模型造产品的人。很多人一听"AI 工程师"就觉得要搞科研,其实不是,Agent(现在逐渐改为叫 Harness)本质上还是个软件工程师,只是工具箱里多了大模型这件武器。
一、你到底要会什么
第一层:先做个合格的程序员
别被"AI 工程师"这个头衔迷惑了。没有扎实的工程基础,你只是个会调 API 的人,造不出能在生产环境里跑的东西。
- 语言:至少精通 Python,最好还能写点 Go 或 Java。不是会跑 notebook 就行,是能写出可维护的生产代码。
- 运维:自己的服务能容器化,Docker、K8s 不用精通,但起码服务挂了你知道怎么查。
- 系统设计:能画出"一个请求进来,经过哪些模块,结果怎么出去"这张图,并且能把它实际落地,不只是停在白板上。
有个简单的自检:让你不用任何 AI 框架,纯手写一个后端服务,你能不能独立搞定?搞不定的话,先补这块。
第二层:真的懂大模型,不是会调 API 就叫懂
不需要你手推 Transformer 公式,但有些东西必须清楚。
模型的本质特性:它会幻觉、会遗漏信息、上下文窗口是有限制的——这些不是 bug,是它的固有特性,你得围绕这些去设计你的系统,而不是等着遇到问题再懵。
Prompt 是工程,不是玄学:Few-shot、CoT、角色设定这些技巧,更重要的是知道它们分别在什么场景下管用,而不是无脑堆砌。
选模型是个工程判断:这个任务是用 GPT-4o 还是本地跑个 7B 就够了?成本和效果怎么取舍?这个判断能力在实际项目里非常值钱。
微调:你不用亲自上手炼丹,但你得知道 LoRA、SFT 是什么,什么场景下才值得微调,能跑通一个 pipeline 就够了。
说到底,你是用武器的人,不是造武器的,但你得知道武器的原理和脾气,不然出了问题根本不知道往哪查。
第三层:能造 Agent——这才是核心竞争力
这是你和普通后端工程师拉开差距的地方。
一个 Agent 说到底就干四件事:
| 能力 | 具体是什么意思 |
|---|---|
| 理解意图 | 用户说了句模糊的话,Agent 能听懂他到底想干嘛 |
| 做计划 | 碰到复杂任务,能拆成几步,知道先干啥后干啥 |
| 用工具 | 自己决定该调哪个 API、查哪个数据库、跑哪段代码 |
| 有记忆 | 不是每次对话都像第一次见面,能记住之前聊过什么、做过什么 |
要真正会造 Agent,你需要:
熟悉主流框架(LangChain、LangGraph、Dify、Coze),但更关键的是,不依赖框架,能用纯代码写出"接收指令 → 思考 → 调工具 → 返回结果"这个循环。框架会过时,原理不会。
Function Calling 和 MCP 协议得懂:怎么把一个普通 API 变成 Agent 能调用的工具?
多 Agent 协作:多个 Agent 怎么分工?谁来统筹,谁来执行,怎么避免它们互相扯皮搞成死循环?
异常处理:Agent 调工具失败了怎么办?生成了一堆胡话怎么办?降级、重试、兜底,这些你都得想清楚——demo 好看没用,生产里稳定才算本事。
第四层:会做 RAG
90% 的 Agent 项目都涉及"让模型基于私有知识回答问题",这就是 RAG。基本流程得门清:文档切片 → 向量化 → 存进向量数据库 → 用户提问时检索 → 拼进 Prompt → 模型生成答案。
几个容易踩的坑:
- Embedding 模型选错了,检索质量差,后面怎么调都没用
- Chunk 切太大太小都有问题,得根据实际场景反复试
- 纯向量检索有时候不够,结合关键词检索(BM25)效果往往好很多
- Rerank 重排序这步很多人直接跳过,但它能明显提升最终效果
调 RAG 不是一次性的事,是个反复打磨的过程。
第五层:安全意识
这块很多人忽略,但出事就是大事。
Agent 不是普通聊天机器人,它能操作真实世界——查数据库、发邮件、下单付款。这意味着出问题的代价是真实的。
必须考虑的:
- Prompt 注入:用户故意输入恶意指令,你的 Agent 不能被"越狱"
- 权限最小化:Agent 能调的工具要有白名单,不能给它上帝权限
- 输出过滤:模型返回的内容要过一遍,不能把敏感信息直接丢给用户
- 关键操作要有兜底:涉及钱、涉及不可逆操作,必须有人工确认或规则校验,不能完全信任模型
没有安全防护的 Agent 上生产,就像一辆没有刹车的车。
第六层:评测和数据思维
怎么知道你的 Agent 好不好?靠感觉不行。任务完成率、准确率、平均耗时、Token 成本——这些指标你得定义出来,搭评测 pipeline 跑起来。
更重要的是转起数据飞轮:收集用户真实对话 → 挑出 bad case → 优化 Prompt 或微调 → 重新评测 → 上线。这个循环是系统持续进化的引擎。
记住一点:系统上线是开始,不是结束。
二、软素质
把模糊需求变成明确方案。老板说"我要一个智能客服",你能追问出具体场景和边界条件,写出落地的技术方案,而不是接个需求就开干。
从 0 到 1 的能力。不是等别人把架构搭好你来填代码,是空白项目你能自己起步。
跨界沟通。跟产品经理解释"为什么模型做不到 100% 准确",跟算法同事讨论"这个场景该不该微调"——两边都能说清楚,这个能力在团队里非常稀缺。
跟上变化的节奏。这个领域三个月就大变样,保持学习不是选项,是必须的。但注意,跟进和焦虑是两回事,要的是有选择地吸收,不是什么新东西出来都去追。
三、学习路线
给没有方向的同学一个参考顺序。
阶段一:打地基(2-4 周)
目标:成为一个能写生产代码的 Python 工程师。
- Python 进阶:asyncio 异步编程、类型注解、Pydantic 数据校验、项目结构规范
- Web 后端:FastAPI 搭 RESTful API,基本的数据库操作(PostgreSQL / Redis)
- 工程化:Git 工作流、Docker 基础(写 Dockerfile、docker-compose)、Linux 常用命令
阶段产出:一个能跑的后端 API 服务,Docker 部署。
阶段二:搞懂大模型(3-4 周)
目标:从"会调 API"进化到"懂模型"。
- 基础概念:看 3Blue1Brown 的 Transformer 可视化视频,搞清楚 Token、上下文窗口、Temperature、Top-P 这些概念
- Prompt Engineering:学结构化 Prompt 写法,实操用 Prompt 解决 10 个不同类型的任务
- API 调用实操:OpenAI、Claude等 API,流式输出,Function Calling 机制
- 本地部署:用 Ollama 本地跑一个 7B 模型,了解 vLLM 推理框架,试跑一次 LoRA 微调
阶段产出:一个多轮对话应用 + 一份 Prompt 优化案例集。
阶段三:构建 RAG 系统(3-4 周)
目标:做一个真正可用的知识问答系统。
- RAG 基础:理解 Embedding 是干嘛的,学文档解析和切片策略(固定长度 vs 语义切分)
- 向量数据库:从 Chroma 入手,进阶可以看 Milvus 或 Weaviate
- 检索优化:Embedding 模型选型(BGE、M3E),混合检索(向量 + BM25),Rerank 重排序
- 端到端跑通:从文档上传到生成答案完整跑通,处理多轮对话中的指代消解
阶段产出:一个基于自己文档的 RAG 问答系统,能 Demo 展示。
阶段四:构建 Agent(4-6 周,核心)
目标:能从零搭一个会用工具、能规划任务的 Agent。
第一步:用框架快速上手。 LangChain 走一遍官方 Tutorial,LangGraph 理解状态机和图的概念,Dify / Coze 搭一个感受全流程。
第二步:理解底层原理。 不用框架,纯代码实现一个 ReAct Agent——思考 → 决定用什么工具 → 执行 → 观察结果 → 继续思考,用 while 循环实现。自己写一遍比看一百遍文档都管用。
第三步:进阶能力。 多 Agent 协作,LangGraph 实现带分支循环的复杂流程,MCP 协议,异常处理(超时、重试、降级、人工接管)。
第四步:生产化。 日志和可观测性(LangSmith / LangFuse),并发处理,流式输出让用户看到 Agent 的思考过程。
阶段产出:一个完整 Agent 项目,比如能自动查资料、对比价格、生成报告的助手。
阶段五:安全 + 评测 + 上线(2-3 周)
目标:从"能跑"变成"能用"。
- 安全:常见 Prompt 注入手法,输入过滤 + 输出审查,工具调用权限控制
- 评测:设计测试集(正常 case + 边界 case + 对抗 case),搭自动化评测 pipeline,LLM-as-Judge
- 部署:K8s 或云服务,监控告警(Prometheus + Grafana),灰度发布
阶段产出:完整的评测报告 + 生产部署方案。
阶段六:持续进阶(长期)
多模态 Agent(图片、音频、视频)、代码生成 Agent(写代码 + 跑代码 + 自我调试)、RLHF / GRPO 基本思路、读 Paper、逛 GitHub Trending。
一条原则:做项目 > 学知识。每学一个新技术就用它做一个真实项目,学了不做等于没学。
四、学习资源(精选)
| 类别 | 资源 | 说明 |
|---|---|---|
| 入门视频 | 3Blue1Brown - Transformer | 直观理解模型原理,不需要数学基础 |
| Prompt | OpenAI 官方 Prompt 指南 | 最权威的 Prompt 教程 |
| RAG | LangChain RAG Tutorial | 跟着做一遍就懂了 |
| Agent | LangGraph 官方文档 | 当前最推荐的 Agent 框架 |
| 实战课 | Andrew Ng 的 AI Agent 系列课 | DeepLearning.AI 出品,质量可靠 |
| 微调 | LLaMA-Factory | 中文社区最好用的微调工具 |
| 评测 | RAGAS / LangSmith | RAG 和 Agent 的评测工具 |
| 跟进前沿 | GitHub Trending + X (Twitter) | 每周花 1 小时浏览即可 |
五、总结
能力层次从底到顶:合格的程序员 → 懂大模型 → 会做 RAG → 能造 Agent → 安全评测上线 → 持续进阶。
最重要的一件事:别在"学"上花太多时间,在"做"上花时间。每个阶段都有一个具体的产出物,做出来了才算学会了。这个领域变化太快,边做边学是唯一可行的策略。