agent学习路线

3 阅读23分钟

如果你现在的目标不是做研究,也不是一上来就啃透 Transformer、微调训练、强化学习,而是想尽快进入大模型应用开发这个方向,最好还能在较短时间内做出项目、投递实习、拿到 offer,那么这篇文章就是写给你的。

这篇路线最核心的特点就一句话:

先以就业为目标,先学最能产出项目的部分,再在实战中逐步补深度。

很多同学一开始学大模型应用开发,最大的误区就是顺序错了。

有人先去啃一堆论文,结果三周过去还不会起一个服务;

有人先追各种“最新框架”和“最新概念”,结果名词懂了很多,却连一个最基础的问答系统都搭不起来;

还有人把目标定得太高,一开始就想做训练、做部署、做底层优化,最后不仅难度太大,而且离“找到一段实习”这个目标越来越远。

如果你的目标很明确,就是尽快进入大模型应用开发岗位,那么更合理的路径其实是:

  1. 先学一门最适合上手大模型开发的语言。
  2. 再补最基础的后端能力。
  3. 然后快速进入 Agent 和 RAG。
  4. 用项目把这些知识串起来。
  5. 最后再逐步深挖框架、协议、训练和底层原理。

下面我就按照这条路线,详细讲一下每一部分该学什么、为什么要学、学到什么程度才算够用、以及它在项目里到底是怎么发挥作用的。

一、第一步先学 Python,而不是 Java

如果你的目标是快速入门大模型应用开发,那第一门语言优先学 Python,这是非常现实的选择。

这并不是说 Java 不重要,也不是说 Java 做不了 AI 应用,而是因为在当前的大模型生态里,Python 的资料、框架、社区、开源项目、教程数量都远远领先。

无论你要学 LangChain、LangGraph、LlamaIndex、AutoGen,还是要接入嵌入模型、向量数据库、推理框架,大多数一手示例、官方文档和社区实践,几乎都是 Python 优先。

对于初学者来说,语言本身并不是最大的门槛,找到最短路径做出结果才是。Python 的语法简洁、样板代码少、框架启动快,能让你把更多精力放在“大模型应用逻辑”上,而不是被繁琐的工程配置拖住节奏。

Python 这一阶段要学到什么程度?

如果你是零基础,不需要一开始就学得特别深,重点掌握这些内容就够了:

  • 基础语法:变量、条件、循环、函数、模块。
  • 常见数据结构:列表、字典、集合、元组。
  • 面向对象基础:类、对象、继承。
  • 文件读写和异常处理。
  • 包管理与虚拟环境,比如 pipvenv
  • 常用第三方库的使用方式。

你完全没必要一开始就去钻特别深的装饰器、元类、协程实现细节。

对于找实习来说,更重要的是能读懂大模型项目代码、能自己改接口、能写服务、能调 API。

为什么 Python 是大模型应用开发的默认入口?

因为你后面会发现,大模型应用开发的绝大部分工作,本质上是下面这些事:

  • 调模型 API。
  • 写 Prompt。
  • 封装工具。
  • 搭后端接口。
  • 处理文档。
  • 管理向量库。
  • 组织工作流。

这些场景都非常适合用 Python 来快速开发。

你可以把 Python 理解成当前 AI 应用开发领域的“通用胶水语言”,它负责把模型、数据库、文件系统、Web 服务、工作流和第三方能力粘在一起。

所以如果你的目标是最快找到大模型应用方向的实习,Python 不是“可选项”,而是效率最高的起点。

二、数据库是后端能力的下限,至少要会 MySQL

很多人一提到大模型,就只盯着模型本身,忽略了应用开发的“应用”二字。

其实大模型应用开发,本质上仍然属于软件开发。只要是软件开发,就离不开数据存储。

你要做用户系统,要存对话记录,要保存任务状态,要管理知识库元数据,要做后台管理,要做日志分析,这些都不可能只靠模型完成。

数据库能力,仍然是支撑你成为“能做项目的工程师”的基本功。

为什么推荐先学 MySQL?

因为 MySQL 是最经典、最通用、最容易找资料的数据库之一。

它非常适合作为初学者的第一站,也足够支撑大多数中小型大模型应用项目。

你在这一阶段,不需要把数据库学成 DBA 水平,但至少要掌握:

  • 基本的建库建表。
  • 增删改查。
  • 条件查询、排序、分页、聚合。
  • 多表关联查询。
  • 索引的基本概念。
  • 事务和基本的数据一致性认知。

这些内容听起来和 AI 没什么关系,但一旦进入真实项目,你就会发现它们非常关键。比如:

  • 用户信息要不要落库?
  • 会话历史怎么存?
  • 工具调用日志怎么记录?
  • 知识库文档元信息怎么管理?
  • 任务执行状态怎么追踪?

这些全都是数据库问题。

大模型应用为什么本质上还是后端项目?

因为大模型只是系统中的一个能力模块,不是系统本身。真正的业务系统一定还包含:

  • 用户请求入口。
  • 数据存储。
  • 状态管理。
  • 权限控制。
  • 日志监控。
  • 缓存和队列。
  • 接口编排。

换句话说,大模型应用开发不是“只会调模型的人”,而是“能把模型接进系统的人”。

所以数据库能力,决定了你是不是只会写 Demo。

三、学会用 FastAPI 搭一个后端服务

当你有了 Python 基础和数据库基础之后,下一步一定要学的是:

如何真正把能力对外提供成服务。

很多同学学了半天,只会在本地 Notebook 里跑脚本,这种方式很难变成可交付项目。

因为企业里不需要你给面试官看一个本地输出结果,而是需要你能把能力封装成接口,接入前端、接入业务系统、接入其他服务。

FastAPI 是当前 Python Web 开发里非常适合初学者和 AI 应用开发者的框架。

原因很简单:

  • 写法简洁。
  • 上手快。
  • 文档自动生成。
  • 非常适合做 REST API。
  • 很适合承接模型调用、Agent 编排和文件处理接口。

FastAPI 这一阶段要掌握什么?

你不需要一上来就做复杂架构,先把最基本的服务能力掌握住:

  • 路由定义。
  • 请求参数和响应模型。
  • Pydantic 数据校验。
  • 文件上传下载。
  • 异常处理。
  • 依赖注入的基础用法。
  • 与数据库集成。
  • 接口分层组织。

这些能力一旦具备,你就已经能搭出一个标准的大模型应用后端了。

为什么大模型应用开发一定要会后端服务?

因为大模型应用的核心不是“调用一次模型”,而是“把模型能力变成稳定可复用的服务能力”。

比如:

  • 一个问答接口,需要接收用户问题、调用知识库、拼装 Prompt、请求模型、返回答案。
  • 一个文档导入接口,需要上传 PDF,解析文本,切片,嵌入,写入向量库。
  • 一个 Agent 执行接口,需要接收任务、选择工具、执行流程、记录状态。

这些都不是脚本,而是服务。

所以学 FastAPI,本质上是在搭建你作为“大模型应用工程师”的工程底座。

四、最快能产出项目的两板斧:Agent 和 RAG

如果说前面三步是在搭基础设施,那么从这一步开始,你才真正进入“大模型应用开发”的核心战场。

为什么路线里会说“两板斧 Agent,RAG”?

因为对于绝大多数初学者来说,这两部分就是最容易做出项目成果、最容易进入面试语境、也最容易和企业需求对接的核心能力。

1. Agent 是什么,为什么它重要?

Agent 可以简单理解为:让大模型不仅会回答,还会思考、规划、调用工具并执行任务。

普通聊天模型更像一个“问答器”,而 Agent 更像一个“会做事的智能助手”。

它不仅能理解你说了什么,还能决定下一步该做什么,比如:

  • 调天气工具查天气。
  • 调数据库查订单。
  • 调搜索接口查资料。
  • 调内部系统创建工单。
  • 调多个工具完成一系列操作。

Agent 的意义在于把模型从“自然语言生成器”升级成“任务执行中枢”。

2. RAG 是什么,为什么它几乎是必学?

RAG 就是检索增强生成。它解决的是大模型在真实业务里最致命的两个问题:

  • 不知道企业私有知识。
  • 容易胡说八道,也就是幻觉。

RAG 的思路非常工程化。先从知识库里检索和问题相关的真实资料,再把资料和问题一起喂给模型,让模型基于依据来回答。

它最大的优势是:

  • 不需要自己训练模型。
  • 能接入企业自己的知识。
  • 能动态更新内容。
  • 能显著降低幻觉风险。

这也是为什么现在几乎所有企业级知识问答、智能客服、内部助手、文档问答系统,都会用到 RAG。

3. 为什么说学到 Agent 和 RAG,再做两个项目,就有机会去找实习?

因为对很多大模型应用开发岗位来说,最低要求往往就是:

  • 能用 Python 做开发。
  • 能写后端服务。
  • 懂数据库。
  • 能做一个基础 Agent。
  • 能做一个基础 RAG。

只要你能把这些串起来,并通过两个像样的项目展示出来,你就已经不再是“只会看教程的人”,而是“有基础交付能力的人”。

当然,这只是最低要求。

入职之后你肯定还要继续补更多工程能力,比如 Git、Redis、消息队列、监控、部署等。

但对于“先拿到一段实习”这个目标来说,前面这些已经是非常高性价比的路径。

五、后端强化部分:Redis 和消息队列最好尽早补上

路线里明确提到两块强化内容:Redis 和消息队列。这一点非常对。

因为很多大模型应用在本地 Demo 里看起来不复杂,但一旦到了真实系统场景,就一定会遇到这些问题:

  • 会话要不要缓存?
  • 高频问答要不要缓存?
  • 文档解析要不要异步?
  • 向量化任务要不要排队?
  • 长任务执行如何解耦?
  • 多个服务之间怎么通信?

这时你就会发现,没有 Redis 和消息队列,很多项目只能停留在单机脚本阶段。

Redis 在大模型应用里常见的作用

  • 存会话状态。
  • 存短期记忆。
  • 做热点问答缓存。
  • 做分布式锁。
  • 存限流计数。
  • 作为任务中间状态缓存。

消息队列在大模型应用里常见的作用

  • 异步处理文档导入。
  • 异步执行嵌入任务。
  • 解耦长耗时工作流。
  • 平滑削峰。
  • 任务失败重试。

如果你想从“能跑 Demo”走向“有工程意识”,这两块内容非常值得补。

六、深入 RAG:真正的核心竞争力往往在这里

如果说 Agent 让系统“会行动”,那 RAG 决定系统“答得靠不靠谱”。

很多企业里的大模型岗位,真正拉开差距的就是 RAG 深度。

因为基础版 RAG 谁都能抄教程做出来,但要把它做得稳定、准确、可扩展,就需要大量工程细节能力。

下面按路线里的 5.1 到 5.8 逐一展开。

1. 文档加载:先解决“知识从哪里来”

RAG 的第一步不是检索,而是数据接入。企业里的知识不会自动变成向量,必须先把各种来源的数据读进来。

常见来源包括:

  • PDF。
  • CSV。
  • PPT。
  • Word。
  • Markdown。
  • 网页。
  • 数据库内容。
  • 内部接口返回结果。

这里真正的难点不是“能不能读”,而是“能不能稳定读”。

因为真实业务文档经常很脏,比如格式混乱、表格复杂、扫描件乱码、目录页噪声很多、图片和文字混排。

你如果不先把加载和清洗做好,后面的切片、嵌入、检索效果都会被拖垮。

2. 文本切割:RAG 准不准,切片影响很大

文档不能直接整篇拿去做嵌入,因为文本太长,语义也太杂。于是就要做切割。

切割不是越碎越好,也不是越长越好。

太短会导致语义不完整,太长会导致检索不精确,还可能浪费上下文窗口。

常见切割方式有:

  • 固定长度切割。
  • 递归切割。
  • 语义切割。

递归切割通常会优先按段落、标题、句子等自然结构去拆,实用性比较强;

语义切割则更进一步,会尽量保证语义完整性,更适合高质量知识库场景。

对于初学者来说,理解切割器的核心目标非常重要:

切出来的 chunk 要尽量做到语义完整、长度适中、便于召回。

3. 嵌入与存储:把文本变成“可被相似度检索”的形式

嵌入模型的作用,是把文本转换成向量。向量本身不是给人看的,而是为了后续做相似度计算。

你需要知道两件事:

  • 嵌入模型决定了文本语义表达能力。
  • 向量数据库决定了向量怎么被存储和高效检索。

常见向量数据库包括:

  • Milvus。
  • Pinecone。
  • Elasticsearch。
  • FAISS。
  • Chroma。

这些工具的适用场景不同。

有的偏本地开发,有的偏企业级部署,有的更适合快速原型,有的更适合大规模检索。

你不需要一开始全会,但至少要知道它们分别是做什么的,以及各自大致的使用定位。

4. 向量索引:为什么数据量上来后不能蛮力检索?

很多教程会跳过索引这一层,导致初学者误以为向量检索就是“算个相似度”这么简单。

事实上,一旦数据量变大,如果没有合理索引,检索性能会迅速崩掉。

像 HNSW 这样的近似最近邻索引,本质上就是在精度和性能之间做平衡,让系统能在海量向量中快速找到相近内容。

倒排索引则更常见于关键词检索体系中。

这一层不要求你一开始深挖算法细节,但你要知道:RAG 不是只有模型,检索系统本身就是一门工程学问。

5. 召回:RAG 的关键不只是“搜到”,而是“搜对”

很多 RAG 项目效果差,并不是模型不够强,而是召回阶段就已经错了。

召回不好,后面拼再好的 Prompt 也救不回来。

所以企业里常见的提升方式会包括:

  • 多路召回。
  • 混合检索。
  • 粗排。
  • 精排。
  • 重排模型。

也就是说,先尽可能把可能相关的内容找出来,再用更细的排序机制筛掉不相关结果。

这个过程其实和搜索推荐系统的思路非常接近。

6. 评估:为什么“感觉效果不错”远远不够?

做 RAG 最怕的一件事就是全靠主观感受。

今天觉得不错,明天换了数据又不行;一个人测着很好,线上用户一用各种出错。

所以一定要建立评估意识。

像 RAGAS 这样的评估框架,就是帮助你从答案相关性、上下文匹配度、忠实度等角度评估系统效果。

评估的意义在于让你能持续迭代,而不是停留在“玄学调参”。

7. 图 RAG 和多模态 RAG:更复杂场景下的扩展方向

当你基础 RAG 学扎实后,可以进一步看图 RAG 和多模态 RAG。

图 RAG 更适合知识之间关系复杂、结构化关联很强的场景,比如企业关系网络、图谱问答、复杂业务实体关系分析。
多模态 RAG 则适合处理图片、表格、图文混合文档等内容,不再局限于纯文本。

这两部分更偏进阶,不是最早期必须掌握的内容,但它们代表了 RAG 的发展方向。

8. LlamaIndex:为什么它很适合做纯 RAG?

如果说 LangChain 更像通用型大模型应用框架,那 LlamaIndex 更偏 RAG 场景友好。

它在文档接入、索引构建、查询链路、检索组织方面做了很多抽象,对以知识问答为核心的项目非常方便。

所以如果你的项目重点是“把 RAG 做好”,那 LlamaIndex 非常值得学。

它能让你更快理解 RAG 的完整链路,而不是只把它当成一个“向量库 + Prompt”的简单拼装。

七、深入 Agent:重点学 LangChain、LangGraph 和 MCP

很多人学 Agent 时很容易陷入一个误区,就是只会跟着教程做一个“工具调用 Demo”,但对 Agent 框架本身的组织方式并不理解。

如果你想在大模型应用开发里走得更稳,Agent 部分最好至少把下面三块啃明白。

1. LangChain:通用能力编排

LangChain 的价值在于把提示词、模型、工具、输出解析、记忆等常见模块统一起来。

它更像一个“构建 Agent 应用的通用工具箱”。

你在学 LangChain 时,重点要理解这些内容:

  • Prompt 是怎么模板化的。
  • 模型调用是怎么封装的。
  • 输出是怎么结构化解析的。
  • 工具是怎么注册和调用的。
  • 记忆是怎么注入的。
  • Agent 执行循环是怎么工作的。

建议尽量学习 1.0 以后的版本,因为新版设计思路和老版本差异比较大,很多旧教程已经不太适合作为长期参考。

2. LangGraph:复杂流程编排

如果你的任务是多步骤、多状态、有判断分支、有中断恢复的,那 LangGraph 的价值会非常明显。

它更接近一种状态图驱动的工作流编排框架,适合处理:

  • 审批流。
  • 复杂问答流程。
  • 多步骤资料整理。
  • 多 Agent 协作。
  • 人工介入节点。

学 LangGraph 的关键不是“会不会写节点”,而是能不能建立状态机思维。

因为一旦进入企业场景,Agent 很少是“问一句答一句”,而更像一个带状态推进的任务系统。

3. MCP:模型和外部能力连接的标准化思路

MCP 可以理解为一种让模型更规范地接入外部工具和上下文资源的方式。

它的重要性在于,随着 Agent 应用越来越复杂,大家都需要一种更统一的协议,来描述模型怎么发现工具、怎么调用资源、怎么访问能力。

对于初学者来说,不一定要立刻深挖实现细节,但最好知道它为什么出现:

  • 因为工具越来越多。
  • 因为上下文来源越来越复杂。
  • 因为需要更标准的连接方式。

你把它理解成“Agent 生态里的标准化接口趋势”会比较容易。

八、新技术和新协议:别急着全学会,但要知道它们在说什么

路线里提到了一些新概念:范式、A2A、Function Calling、Skill、Deep Agent。

这些内容不一定是你找第一段实习时必须深挖的,但它们决定了你后续成长速度。

1. 各种范式

这里通常指的是 Agent 的不同组织方式,比如 ReAct、Plan-and-Execute、Self-Refine、多 Agent 协作等。

范式的意义在于决定 Agent 如何思考、如何执行、如何反思。

如果你理解了范式,就不会把 Agent 只看成“调一个工具”的黑盒,而能真正明白不同框架设计背后的思想。

2. A2A

A2A 可以理解成 Agent 与 Agent 之间的通信或协作模式。

随着多 Agent 逐步流行,单个 Agent 不再是全部,多个智能体如何互相传递任务、共享上下文、协调执行,会成为越来越重要的话题。

3. Function Calling

虽然它前面已经提过,但它值得反复理解。

因为 Function Calling 几乎是 Agent 落地的基础能力。

模型想要真正调用系统能力、完成外部动作,Function Calling 往往是最直接的入口。

4. Skill

Skill 可以理解为一类可复用能力单元。

它强调的不只是“能不能调工具”,而是“能不能把常用能力打包成可复用模块”,让 Agent 在不同场景下重复利用。

5. Deep Agent

这类新框架或新思路的出现,通常是在尝试让 Agent 更具备复杂任务处理能力。

你不需要一开始就全部掌握,但要养成持续关注框架演进的习惯,因为 AI 应用领域变化非常快。

九、了解一点大模型后训练,是很有价值的加分项

如果你只是想尽快找一段应用开发实习,这部分不是必须;

但如果你想让自己的简历更有区分度,或者未来想往更深的模型工程方向靠,这部分很值得建立基本认知。

1. SFT、LoRA、QLoRA

SFT 是监督微调,简单来说就是用标注好的问答数据去进一步训练模型,让它更符合某类任务需求。

LoRA 和 QLoRA 则是在微调效率和资源成本上做优化,让微调不再那么昂贵。

你不一定马上亲手训模型,但至少要知道:

  • 微调在解决什么问题。
  • 为什么 LoRA 这么常见。
  • QLoRA 为什么能降低资源门槛。

2. RLHF、PPO

强化学习用于让模型更符合人类偏好。

RLHF 是非常经典的对齐思路,而 PPO 是常见训练算法之一。

你不需要先啃数学推导,但要知道它们在大模型训练流程中的位置。

3. DPO、GRPO

这些是后续更常见的偏好优化思路。

你只要知道:模型对齐不只有一种训练方式,而且这块一直在快速演进。

4. 大模型部署:vLLM、Unsloth

很多应用岗其实也会接触部署问题,比如自建模型服务、控制推理成本、提升吞吐。

这时候就会接触到 vLLM 这样的推理框架,以及一些帮助训练或部署更轻量的工具。

5. 训练框架:DeepSpeed、LlamaFactory

这类工具更多是让你理解训练和微调如何被工程化。

即便你不亲自做训练,知道这些工具的定位,也能帮助你更完整地理解模型从“预训练”到“可用应用模型”中间经历了什么。

这一部分推荐优先看 Hugging Face 官方文档,因为它在大模型工程学习里是非常重要的一手资料来源。

十、Transformer 理解:不是最早学的,但会决定你的上限

Transformer 是大模型的底层基础。

路线里把它放在最后,其实很合理。

因为如果你一开始就从 Transformer 入手,很容易陷进一堆抽象概念里,既难坚持,也很难快速转化成项目能力。

但一旦你已经能做应用、做服务、做 Agent、做 RAG 了,回过头来理解 Transformer,收获会非常大。

因为这时候你不是为了“考试背原理”,而是为了真正理解:

  • 模型为什么能理解上下文。
  • 注意力机制为什么有效。
  • 长文本处理为什么会受窗口限制。
  • 模型生成为什么会出现幻觉和偏差。

如果你想深入这一块,比较合理的学习方法是:

  1. 看经典论文和高质量讲解视频。
  2. 配合代码复现或阅读实现。
  3. 整理常见面试题并建立自己的表述体系。

当然,到这一步时,你基本已经不能完全绕开深度学习和 NLP 基础知识了

。所以它更像是中后期的“加分项”和“上限项”,而不是最早期的入门项。

十一、如果以找实习为目标,这条路线应该怎么落地?

如果把这篇路线压缩成一个可执行版本,我会建议你这样安排:

第一个阶段,先把 Python、MySQL、FastAPI 学完,能自己写一个最基础的后端服务。
第二个阶段,快速学习 Agent 和 RAG,至少能做出一个知识库问答项目和一个基础 Agent 项目。
第三个阶段,补 Redis、消息队列、Git、项目工程化能力。
第四个阶段,再根据时间去深入 RAG、深入 Agent 框架、了解后训练和 Transformer。

也就是说,最重要的不是你“知道多少高级名词”,而是你能不能尽快形成下面这个能力闭环:

  • 会写 Python。
  • 会写接口。
  • 会存数据。
  • 会接模型。
  • 会做 RAG。
  • 会做 Agent。
  • 会做项目。

只要这个闭环建立起来,你就已经具备了大模型应用开发实习的基础竞争力。

结语

大模型应用开发并不是一个只属于算法岗的方向。相反,它是一个非常适合工程型同学切入的新赛道。尤其对想快速找实习的同学来说,最重要的从来不是“学得最深”,而是“学得足够对、足够快、足够能产出”。

所以这条路线最大的价值,不在于覆盖了多少前沿概念,而在于它给了一条非常现实的顺序:

  • 先学 Python。
  • 再补数据库和后端服务。
  • 然后拿下 Agent 和 RAG 两大核心能力。
  • 接着用项目证明自己。
  • 最后再逐步向 RAG 深水区、Agent 框架、训练和底层原理扩展。

如果你的目标是尽快进入这个行业,这确实是一条非常高性价比的路径。

先跑通最短闭环,再慢慢把深度补上,远比一开始就把自己埋进复杂理论里更容易坚持,也更容易真正拿到结果。