Agent 工程师到底需要什么技术,我总结了几十个招聘要求

6 阅读9分钟

先说清楚一个前提:这里说的不是去训基座模型的人,是拿模型造产品的人。很多人一听"AI 工程师"就觉得要搞科研,其实不是,Agent(现在逐渐改为叫 Harness)本质上还是个软件工程师,只是工具箱里多了大模型这件武器。


一、你到底要会什么

第一层:先做个合格的程序员

别被"AI 工程师"这个头衔迷惑了。没有扎实的工程基础,你只是个会调 API 的人,造不出能在生产环境里跑的东西。

  • 语言:至少精通 Python,最好还能写点 Go 或 Java。不是会跑 notebook 就行,是能写出可维护的生产代码。
  • 运维:自己的服务能容器化,Docker、K8s 不用精通,但起码服务挂了你知道怎么查。
  • 系统设计:能画出"一个请求进来,经过哪些模块,结果怎么出去"这张图,并且能把它实际落地,不只是停在白板上。

有个简单的自检:让你不用任何 AI 框架,纯手写一个后端服务,你能不能独立搞定?搞不定的话,先补这块。

第二层:真的懂大模型,不是会调 API 就叫懂

不需要你手推 Transformer 公式,但有些东西必须清楚。

模型的本质特性:它会幻觉、会遗漏信息、上下文窗口是有限制的——这些不是 bug,是它的固有特性,你得围绕这些去设计你的系统,而不是等着遇到问题再懵。

Prompt 是工程,不是玄学:Few-shot、CoT、角色设定这些技巧,更重要的是知道它们分别在什么场景下管用,而不是无脑堆砌。

选模型是个工程判断:这个任务是用 GPT-4o 还是本地跑个 7B 就够了?成本和效果怎么取舍?这个判断能力在实际项目里非常值钱。

微调:你不用亲自上手炼丹,但你得知道 LoRA、SFT 是什么,什么场景下才值得微调,能跑通一个 pipeline 就够了。

说到底,你是用武器的人,不是造武器的,但你得知道武器的原理和脾气,不然出了问题根本不知道往哪查。

第三层:能造 Agent——这才是核心竞争力

这是你和普通后端工程师拉开差距的地方。

一个 Agent 说到底就干四件事:

能力具体是什么意思
理解意图用户说了句模糊的话,Agent 能听懂他到底想干嘛
做计划碰到复杂任务,能拆成几步,知道先干啥后干啥
用工具自己决定该调哪个 API、查哪个数据库、跑哪段代码
有记忆不是每次对话都像第一次见面,能记住之前聊过什么、做过什么

要真正会造 Agent,你需要:

熟悉主流框架(LangChain、LangGraph、Dify、Coze),但更关键的是,不依赖框架,能用纯代码写出"接收指令 → 思考 → 调工具 → 返回结果"这个循环。框架会过时,原理不会。

Function Calling 和 MCP 协议得懂:怎么把一个普通 API 变成 Agent 能调用的工具?

多 Agent 协作:多个 Agent 怎么分工?谁来统筹,谁来执行,怎么避免它们互相扯皮搞成死循环?

异常处理:Agent 调工具失败了怎么办?生成了一堆胡话怎么办?降级、重试、兜底,这些你都得想清楚——demo 好看没用,生产里稳定才算本事。

第四层:会做 RAG

90% 的 Agent 项目都涉及"让模型基于私有知识回答问题",这就是 RAG。基本流程得门清:文档切片 → 向量化 → 存进向量数据库 → 用户提问时检索 → 拼进 Prompt → 模型生成答案。

几个容易踩的坑:

  • Embedding 模型选错了,检索质量差,后面怎么调都没用
  • Chunk 切太大太小都有问题,得根据实际场景反复试
  • 纯向量检索有时候不够,结合关键词检索(BM25)效果往往好很多
  • Rerank 重排序这步很多人直接跳过,但它能明显提升最终效果

调 RAG 不是一次性的事,是个反复打磨的过程。

第五层:安全意识

这块很多人忽略,但出事就是大事。

Agent 不是普通聊天机器人,它能操作真实世界——查数据库、发邮件、下单付款。这意味着出问题的代价是真实的。

必须考虑的:

  • Prompt 注入:用户故意输入恶意指令,你的 Agent 不能被"越狱"
  • 权限最小化:Agent 能调的工具要有白名单,不能给它上帝权限
  • 输出过滤:模型返回的内容要过一遍,不能把敏感信息直接丢给用户
  • 关键操作要有兜底:涉及钱、涉及不可逆操作,必须有人工确认或规则校验,不能完全信任模型

没有安全防护的 Agent 上生产,就像一辆没有刹车的车。

第六层:评测和数据思维

怎么知道你的 Agent 好不好?靠感觉不行。任务完成率、准确率、平均耗时、Token 成本——这些指标你得定义出来,搭评测 pipeline 跑起来。

更重要的是转起数据飞轮:收集用户真实对话 → 挑出 bad case → 优化 Prompt 或微调 → 重新评测 → 上线。这个循环是系统持续进化的引擎。

记住一点:系统上线是开始,不是结束。


二、软素质

把模糊需求变成明确方案。老板说"我要一个智能客服",你能追问出具体场景和边界条件,写出落地的技术方案,而不是接个需求就开干。

从 0 到 1 的能力。不是等别人把架构搭好你来填代码,是空白项目你能自己起步。

跨界沟通。跟产品经理解释"为什么模型做不到 100% 准确",跟算法同事讨论"这个场景该不该微调"——两边都能说清楚,这个能力在团队里非常稀缺。

跟上变化的节奏。这个领域三个月就大变样,保持学习不是选项,是必须的。但注意,跟进和焦虑是两回事,要的是有选择地吸收,不是什么新东西出来都去追。


三、学习路线

给没有方向的同学一个参考顺序。

阶段一:打地基(2-4 周)

目标:成为一个能写生产代码的 Python 工程师。

  • Python 进阶:asyncio 异步编程、类型注解、Pydantic 数据校验、项目结构规范
  • Web 后端:FastAPI 搭 RESTful API,基本的数据库操作(PostgreSQL / Redis)
  • 工程化:Git 工作流、Docker 基础(写 Dockerfile、docker-compose)、Linux 常用命令

阶段产出:一个能跑的后端 API 服务,Docker 部署。

阶段二:搞懂大模型(3-4 周)

目标:从"会调 API"进化到"懂模型"。

  • 基础概念:看 3Blue1Brown 的 Transformer 可视化视频,搞清楚 Token、上下文窗口、Temperature、Top-P 这些概念
  • Prompt Engineering:学结构化 Prompt 写法,实操用 Prompt 解决 10 个不同类型的任务
  • API 调用实操:OpenAI、Claude等 API,流式输出,Function Calling 机制
  • 本地部署:用 Ollama 本地跑一个 7B 模型,了解 vLLM 推理框架,试跑一次 LoRA 微调

阶段产出:一个多轮对话应用 + 一份 Prompt 优化案例集。

阶段三:构建 RAG 系统(3-4 周)

目标:做一个真正可用的知识问答系统。

  • RAG 基础:理解 Embedding 是干嘛的,学文档解析和切片策略(固定长度 vs 语义切分)
  • 向量数据库:从 Chroma 入手,进阶可以看 Milvus 或 Weaviate
  • 检索优化:Embedding 模型选型(BGE、M3E),混合检索(向量 + BM25),Rerank 重排序
  • 端到端跑通:从文档上传到生成答案完整跑通,处理多轮对话中的指代消解

阶段产出:一个基于自己文档的 RAG 问答系统,能 Demo 展示。

阶段四:构建 Agent(4-6 周,核心)

目标:能从零搭一个会用工具、能规划任务的 Agent。

第一步:用框架快速上手。 LangChain 走一遍官方 Tutorial,LangGraph 理解状态机和图的概念,Dify / Coze 搭一个感受全流程。

第二步:理解底层原理。 不用框架,纯代码实现一个 ReAct Agent——思考 → 决定用什么工具 → 执行 → 观察结果 → 继续思考,用 while 循环实现。自己写一遍比看一百遍文档都管用。

第三步:进阶能力。 多 Agent 协作,LangGraph 实现带分支循环的复杂流程,MCP 协议,异常处理(超时、重试、降级、人工接管)。

第四步:生产化。 日志和可观测性(LangSmith / LangFuse),并发处理,流式输出让用户看到 Agent 的思考过程。

阶段产出:一个完整 Agent 项目,比如能自动查资料、对比价格、生成报告的助手。

阶段五:安全 + 评测 + 上线(2-3 周)

目标:从"能跑"变成"能用"。

  • 安全:常见 Prompt 注入手法,输入过滤 + 输出审查,工具调用权限控制
  • 评测:设计测试集(正常 case + 边界 case + 对抗 case),搭自动化评测 pipeline,LLM-as-Judge
  • 部署:K8s 或云服务,监控告警(Prometheus + Grafana),灰度发布

阶段产出:完整的评测报告 + 生产部署方案。

阶段六:持续进阶(长期)

多模态 Agent(图片、音频、视频)、代码生成 Agent(写代码 + 跑代码 + 自我调试)、RLHF / GRPO 基本思路、读 Paper、逛 GitHub Trending。

一条原则:做项目 > 学知识。每学一个新技术就用它做一个真实项目,学了不做等于没学。


四、学习资源(精选)

类别资源说明
入门视频3Blue1Brown - Transformer直观理解模型原理,不需要数学基础
PromptOpenAI 官方 Prompt 指南最权威的 Prompt 教程
RAGLangChain RAG Tutorial跟着做一遍就懂了
AgentLangGraph 官方文档当前最推荐的 Agent 框架
实战课Andrew Ng 的 AI Agent 系列课DeepLearning.AI 出品,质量可靠
微调LLaMA-Factory中文社区最好用的微调工具
评测RAGAS / LangSmithRAG 和 Agent 的评测工具
跟进前沿GitHub Trending + X (Twitter)每周花 1 小时浏览即可

五、总结

能力层次从底到顶:合格的程序员 → 懂大模型 → 会做 RAG → 能造 Agent → 安全评测上线 → 持续进阶。

最重要的一件事:别在"学"上花太多时间,在"做"上花时间。每个阶段都有一个具体的产出物,做出来了才算学会了。这个领域变化太快,边做边学是唯一可行的策略。