写在前面:为什么你的起点比别人高
很多人学AI大模型是从零开始,而你作为Java后端工程师,已经天然具备以下优势:
- 工程思维成熟:理解系统设计、分布式、高并发,这些在AI工程落地中同样关键
- API调用经验丰富:大模型的核心使用方式就是API调用,你已经轻车熟路
- 数据处理能力强:后端工程师天然擅长数据流、数据库、数据清洗,这是RAG系统的核心
- 调试和排错经验:大模型应用的问题定位需要扎实的工程经验
- 企业级开发经验:你能把AI能力真正落地成可维护、可扩展的生产系统
你需要补的,主要是:AI基础理论、Python生态(工具链主要是Python)、大模型特有的工程范式(Prompt Engineering、RAG、Agent等)。
预计努力程度:每天1.5-2小时,周末可以4-6小时集中学习。
总体学习路线图
第1-2个月:地基期
└── Python快速上手 + AI基础概念 + 大模型API调通
第3-4个月:应用期
└── Prompt Engineering + LangChain + 第一个完整项目
第5-6个月:深化期
└── RAG系统 + 向量数据库 + 知识库构建
第7-8个月:Agent期
└── AI Agent + 工具调用 + 多Agent协作
第9-10个月:工程化期
└── 大模型微调 + 模型部署 + 性能优化
第11-12个月:综合期
└── 完整项目实战 + 面试准备 + 技术影响力建设
第一阶段:地基期(第1-2个月)
第1个月:Python快速上手 + 大模型初体验
学习目标
作为Java工程师,你不需要从零学Python,你需要的是"够用"。目标是一个月内能用Python流畅地调用API、处理数据、写脚本。
第1周:Python语法快速过渡
每日计划(工作日1.5小时,周末4小时)
| 天数 | 内容 | 时长 |
|---|---|---|
| Day 1 | Python环境搭建(Anaconda/pyenv)、基础语法对比Java | 1.5h |
| Day 2 | 数据类型:list、dict、tuple、set,对比Java集合 | 1.5h |
| Day 3 | 函数、lambda、装饰器(对比Java函数式编程) | 1.5h |
| Day 4 | 面向对象:class、继承、魔术方法 | 1.5h |
| Day 5 | 文件IO、JSON处理、异常处理 | 1.5h |
| Day 6-7(周末) | 完成一个Python小项目:爬取网页数据并存储为JSON | 6h |
学习资料
- 《Python for Java Programmers》(Google搜索,多篇博客对比文章)
- Python官方文档:docs.python.org/3/tutorial
- 练习平台:Leetcode(选Easy级别,用Python刷5题)
掌握程度要求:能流畅写出Python脚本,不需要Google基础语法,理解Python的Pythonic风格。
第2周:Python进阶 + 数据处理生态
| 天数 | 内容 | 时长 |
|---|---|---|
| Day 8 | pip包管理、虚拟环境、requirements.txt | 1.5h |
| Day 9 | requests库:HTTP请求、JSON解析 | 1.5h |
| Day 10 | NumPy基础:数组操作(AI框架的基础) | 1.5h |
| Day 11 | Pandas基础:DataFrame,数据清洗 | 1.5h |
| Day 12 | 异步编程:asyncio、async/await(对比Java CompletableFuture) | 1.5h |
| Day 13-14(周末) | 实战:用Python处理CSV数据,做基础统计分析和可视化 | 6h |
学习资料
- NumPy官方文档:numpy.org/doc
- Pandas官方文档:pandas.pydata.org
- 《Python数据科学手册》(Jake VanderPlas)- 前3章
掌握程度要求:能用Pandas处理结构化数据,理解NumPy数组,能写异步Python代码。
第3周:大模型API初体验
这周开始正式接触大模型,目标是把主流API全部调通。
| 天数 | 内容 | 时长 |
|---|---|---|
| Day 15 | OpenAI API:注册、获取Key、第一个对话请求 | 1.5h |
| Day 16 | OpenAI API深入:流式输出、多轮对话、系统提示词 | 1.5h |
| Day 17 | Anthropic Claude API:对比OpenAI的差异 | 1.5h |
| Day 18 | 国内API:通义千问、文心一言、智谱GLM,申请并调通 | 1.5h |
| Day 19 | 理解Token:计费逻辑、上下文窗口限制、如何优化 | 1.5h |
| Day 20-21(周末) | 实战:写一个命令行对话机器人,支持多轮对话和流式输出 | 6h |
学习资料
- OpenAI官方文档:platform.openai.com/docs
- Anthropic文档:docs.anthropic.com
- 通义千问文档:dashscope.aliyuncs.com
掌握程度要求:能独立调用各主流大模型API,理解Token机制,能实现流式输出和多轮对话管理。
第3周代码目标(实际可运行):
# 你需要能写出这样的代码
from openai import AsyncOpenAI
import asyncio
client = AsyncOpenAI(api_key="your-key")
async def chat_with_history(messages: list, user_input: str) -> str:
messages.append({"role": "user", "content": user_input})
stream = await client.chat.completions.create(
model="gpt-4o",
messages=messages,
stream=True
)
response = ""
async for chunk in stream:
if chunk.choices[0].delta.content:
content = chunk.choices[0].delta.content
print(content, end="", flush=True)
response += content
messages.append({"role": "assistant", "content": response})
return response
async def main():
history = [{"role": "system", "content": "你是一个专业的Java技术顾问"}]
while True:
user_input = input("\n你:")
if user_input == "quit":
break
print("AI:", end="")
await chat_with_history(history, user_input)
asyncio.run(main())
第4周:AI基础理论补课
这周补理论,不要跳过,理论是后续深入学习的基础。
| 天数 | 内容 | 时长 |
|---|---|---|
| Day 22 | 神经网络基础概念:感知器、激活函数、反向传播 | 1.5h |
| Day 23 | Transformer架构:Attention机制、Self-Attention(重点) | 2h |
| Day 24 | 大语言模型:GPT系列演进、预训练、微调的概念 | 1.5h |
| Day 25 | Embedding:词向量、语义相似度、余弦相似度 | 1.5h |
| Day 26 | 模型评估:困惑度、BLEU、人工评估的方法 | 1.5h |
| Day 27-28(周末) | 看3Blue1Brown的神经网络系列视频 + 写学习笔记 | 6h |
学习资料
- 3Blue1Brown神经网络系列:YouTube搜索"3Blue1Brown neural network"
- 《Attention Is All You Need》原论文(读懂摘要和架构图即可)
- 李沐精读论文系列:B站搜索"跟李沐学AI"
- 吴恩达Machine Learning Specialization:Coursera(可旁听)
掌握程度要求:能向别人解释什么是Transformer、什么是Attention、什么是Embedding,理解大模型"为什么能说话"的底层逻辑。
第2个月:工程基础 + 开发环境完整搭建
第5周:开发工具链完整配置
| 天数 | 内容 | 时长 |
|---|---|---|
| Day 29 | Jupyter Notebook / JupyterLab:AI开发的标准工具 | 1.5h |
| Day 30 | VS Code配置Python开发环境、GitHub Copilot接入 | 1.5h |
| Day 31 | Docker基础:为AI模型部署做准备(你应该已熟悉) | 1h |
| Day 32 | Git工作流:大模型项目的版本管理最佳实践 | 1h |
| Day 33 | HuggingFace平台:模型仓库、数据集、Space | 1.5h |
| Day 34-35(周末) | 从HuggingFace下载并本地运行一个小型开源模型(如Qwen-1.8B) | 6h |
学习资料
- HuggingFace文档:huggingface.co/docs
- HuggingFace Transformers库文档
掌握程度要求:能在本地运行开源小模型,理解HuggingFace生态,开发环境完整可用。
第6周:HuggingFace Transformers库深入
| 天数 | 内容 | 时长 |
|---|---|---|
| Day 36 | Transformers库核心:pipeline、AutoModel、AutoTokenizer | 2h |
| Day 37 | 文本分类、情感分析、命名实体识别实战 | 1.5h |
| Day 38 | 文本生成:generate方法、采样策略(temperature、top_p) | 1.5h |
| Day 39 | Embedding模型:sentence-transformers使用 | 1.5h |
| Day 40 | 多模态初探:CLIP、图文模型的调用 | 1.5h |
| Day 41-42(周末) | 实战项目:用Transformers库做一个文本分类服务,包装成REST API | 6h |
掌握程度要求:能用HuggingFace Transformers库调用各类预训练模型,能将模型封装成API服务。
第7周:FastAPI + 模型服务化
作为Java后端工程师,这周要把Python的Web框架学会,为后续构建AI服务打基础。
| 天数 | 内容 | 时长 |
|---|---|---|
| Day 43 | FastAPI基础:路由、请求/响应模型、自动文档 | 1.5h |
| Day 44 | FastAPI异步:async端点、后台任务 | 1.5h |
| Day 45 | 把大模型API包装成FastAPI服务 | 1.5h |
| Day 46 | 流式响应:SSE(Server-Sent Events)实现 | 1.5h |
| Day 47 | 中间件:认证、限流、日志(对比Spring框架) | 1.5h |
| Day 48-49(周末) | 实战:构建一个完整的AI对话API服务,包含鉴权、限流、日志 | 6h |
学习资料
- FastAPI官方文档:fastapi.tiangolo.com
- 对比文章:FastAPI vs Spring Boot
掌握程度要求:能用FastAPI构建生产级AI服务,理解异步处理和流式响应。
第8周:第一阶段总结 + 小项目
| 天数 | 内容 |
|---|---|
| Day 50-51 | 复习第1-2个月所有内容,整理笔记 |
| Day 52-56 | 完成第一阶段综合项目 |
第一阶段综合项目:AI客服机器人
功能要求:
- 接受用户输入,调用大模型API生成回复
- 支持多轮对话,维护会话历史
- 流式输出响应
- FastAPI后端服务
- 简单的前端界面(可以用现成的Chat UI库)
- Docker容器化部署
掌握程度自测清单:
- 能流畅写Python,不需要频繁查基础语法
- 能调用OpenAI、Claude、通义千问等主流API
- 理解Transformer架构和Attention机制的基本原理
- 能用HuggingFace运行本地开源模型
- 能用FastAPI构建AI服务
- 完成了AI客服机器人项目
第二阶段:应用期(第3-4个月)
第3个月:Prompt Engineering + LangChain
Prompt Engineering 深度学习(第9-10周)
Prompt Engineering 是大模型应用的核心技能,看似简单,实则有大量技巧和最佳实践。
第9周:Prompt Engineering 系统学习
| 天数 | 内容 | 时长 |
|---|---|---|
| Day 57 | 基础Prompt原则:清晰、具体、结构化 | 1.5h |
| Day 58 | Few-shot Prompting:举例引导模型 | 1.5h |
| Day 59 | Chain-of-Thought(CoT):让模型一步步思考 | 1.5h |
| Day 60 | 角色扮演Prompt:System Prompt设计艺术 | 1.5h |
| Day 61 | 输出格式控制:JSON输出、结构化数据提取 | 1.5h |
| Day 62-63(周末) | 实战:为10个不同场景设计最优Prompt并测试效果 | 6h |
第10周:高级Prompt技术
| 天数 | 内容 | 时长 |
|---|---|---|
| Day 64 | Tree of Thoughts(ToT):树状推理 | 1.5h |
| Day 65 | Self-Consistency:多次采样取最优 | 1.5h |
| Day 66 | Prompt注入攻击与防御:生产系统安全 | 1.5h |
| Day 67 | 评估Prompt效果:A/B测试、自动评估 | 1.5h |
| Day 68 | 针对不同模型的Prompt差异(GPT-4 vs Claude vs Qwen) | 1.5h |
| Day 69-70(周末) | 实战:构建一个Prompt测试框架,自动评估不同Prompt的效果 | 6h |
学习资料
- 吴恩达《ChatGPT Prompt Engineering for Developers》:DeepLearning.AI免费课程
- Anthropic Prompt Engineering 官方指南:docs.anthropic.com/en/docs/build-with-claude/prompt-engineering
- OpenAI Prompt Engineering 指南:platform.openai.com/docs/guides/prompt-engineering
- 《Prompt Engineering Guide》:promptingguide.ai
掌握程度要求:能为复杂业务场景设计高效Prompt,能评估和优化Prompt效果,理解主流模型的Prompt特性差异。
LangChain 深度学习(第11-12周)
LangChain 是目前最主流的大模型应用开发框架,作为后端工程师,你会很快上手。
第11周:LangChain 核心概念
| 天数 | 内容 | 时长 |
|---|---|---|
| Day 71 | LangChain架构:Chain、LLM、Prompt Template | 2h |
| Day 72 | LangChain Expression Language(LCEL):声明式构建链 | 1.5h |
| Day 73 | Memory组件:对话历史管理的多种策略 | 1.5h |
| Day 74 | OutputParser:结构化输出解析 | 1.5h |
| Day 75 | LangChain与Java/Spring的对比:设计模式异同 | 1h |
| Day 76-77(周末) | 实战:用LangChain重构之前的AI客服机器人 | 6h |
第12周:LangChain 进阶
| 天数 | 内容 | 时长 |
|---|---|---|
| Day 78 | Tools & Toolkits:给模型赋予工具能力 | 1.5h |
| Day 79 | LangChain Callbacks:监控和调试 | 1.5h |
| Day 80 | LangSmith:LangChain官方可观测平台 | 1.5h |
| Day 81 | 异步LangChain:高并发场景优化 | 1.5h |
| Day 82 | LangChain最佳实践和常见坑 | 1.5h |
| Day 83-84(周末) | 完成一个使用LangChain的完整应用 | 6h |
学习资料
- LangChain官方文档:python.langchain.com
- LangChain Cookbook:github.com/langchain-ai/langchain/tree/master/cookbook
- 吴恩达《LangChain for LLM Application Development》:DeepLearning.AI
掌握程度要求:能用LangChain构建复杂的LLM应用,理解LCEL,能用LangSmith调试和监控。
第4个月:向量数据库 + 搜索增强
第13-14周:向量数据库核心
第13周:向量数据库原理与选型
| 天数 | 内容 | 时长 |
|---|---|---|
| Day 85 | 向量搜索原理:余弦相似度、欧氏距离、内积 | 1.5h |
| Day 86 | ANN算法:HNSW、IVF、LSH(理解原理,不需要实现) | 1.5h |
| Day 87 | 主流向量数据库对比:Chroma、Milvus、Pinecone、Qdrant、Weaviate | 1.5h |
| Day 88 | Chroma实战:本地向量数据库快速上手 | 1.5h |
| Day 89 | Milvus实战:生产级向量数据库部署和使用 | 1.5h |
| Day 90-91(周末) | 实战:用Milvus构建一个语义搜索服务 | 6h |
第14周:Embedding 模型深入
| 天数 | 内容 | 时长 |
|---|---|---|
| Day 92 | Embedding模型选型:OpenAI Embedding vs 本地模型 | 1.5h |
| Day 93 | 中文Embedding模型:BGE、M3E等国内优质模型 | 1.5h |
| Day 94 | Embedding的工程化:批量处理、缓存策略 | 1.5h |
| Day 95 | 多向量检索:稀疏向量 + 密集向量混合检索 | 1.5h |
| Day 96 | 向量数据库的运维:索引优化、存储优化 | 1.5h |
| Day 97-98(周末) | 实战:构建一个文档语义搜索系统 | 6h |
学习资料
- Milvus官方文档:milvus.io/docs
- Chroma官方文档:docs.trychroma.com
- FAISS文档:faiss.ai
- 论文:《Efficient and robust approximate nearest neighbor search using Hierarchical Navigable Small World graphs》(HNSW原论文,读摘要)
掌握程度要求:能根据业务场景选择合适的向量数据库,能构建完整的语义搜索系统,理解ANN索引的基本原理。
第三阶段:深化期(第5-6个月)—— RAG系统
RAG(Retrieval-Augmented Generation,检索增强生成)是当前企业AI应用的最核心技术。掌握RAG等于掌握了大模型工程落地的关键。
第5个月:RAG系统构建
第15-16周:RAG基础架构
第15周:RAG原理与基础实现
| 天数 | 内容 | 时长 |
|---|---|---|
| Day 99 | RAG架构详解:索引、检索、生成三阶段 | 2h |
| Day 100 | 文档加载:PDF、Word、网页、Markdown的解析 | 1.5h |
| Day 101 | 文本切分策略:固定大小、句子、段落、语义切分 | 1.5h |
| Day 102 | 检索策略:相似度检索、MMR检索、多路召回 | 1.5h |
| Day 103 | 生成优化:上下文压缩、答案引用 | 1.5h |
| Day 104-105(周末) | 实战:用LangChain + Milvus构建基础RAG系统 | 6h |
第16周:RAG工程化优化
| 天数 | 内容 | 时长 |
|---|---|---|
| Day 106 | 切分优化:Parent Document Retriever(父子文档) | 1.5h |
| Day 107 | 查询优化:HyDE(假设性文档嵌入)、查询改写 | 1.5h |
| Day 108 | 重排序(Reranking):Cross-Encoder模型的使用 | 1.5h |
| Day 109 | RAG评估:RAGAS框架,自动评估忠实度和相关性 | 1.5h |
| Day 110 | RAG的常见问题和调优技巧 | 1.5h |
| Day 111-112(周末) | 实战:优化RAG系统,用RAGAS评估并提升指标 | 6h |
学习资料
- 吴恩达《Building and Evaluating Advanced RAG Applications》:DeepLearning.AI
- RAGAS文档:docs.ragas.io
- LlamaIndex文档:docs.llamaindex.ai(RAG框架备选)
- 论文:《RAGAS: Automated Evaluation of Retrieval Augmented Generation》
第17-18周:高级RAG技术
第17周:Advanced RAG
| 天数 | 内容 | 时长 |
|---|---|---|
| Day 113 | Modular RAG:模块化RAG架构设计 | 1.5h |
| Day 114 | 多模态RAG:图片、表格的处理 | 1.5h |
| Day 115 | 结构化数据RAG:Text-to-SQL | 1.5h |
| Day 116 | 图数据库RAG:Graph RAG(微软方案) | 2h |
| Day 117 | 长文档处理:Map-Reduce模式 | 1.5h |
| Day 118-119(周末) | 实战:构建支持多种文档格式的企业知识库系统 | 6h |
第18周:RAG系统生产化
| 天数 | 内容 | 时长 |
|---|---|---|
| Day 120 | RAG系统的缓存策略:语义缓存 | 1.5h |
| Day 121 | 异步RAG:高并发场景下的架构设计 | 1.5h |
| Day 122 | RAG的安全性:Prompt注入防御、数据隔离 | 1.5h |
| Day 123 | RAG与Java Spring集成:Spring AI框架 | 2h |
| Day 124 | 成本优化:Token控制、模型降级策略 | 1.5h |
| Day 125-126(周末) | 完成完整的企业知识库RAG系统,包含评估报告 | 6h |
学习资料
- Spring AI文档:docs.spring.io/spring-ai(Java后端工程师必看)
- 《Building RAG-based LLM Applications for Production》:Anyscale博客
- LlamaIndex高级RAG教程
掌握程度要求:能独立设计和实现完整的RAG系统,能评估RAG效果并针对性优化,能处理多种文档格式,能将RAG系统生产化部署。
第6个月:知识库产品化
第19-20周:完整知识库系统
这个月的目标是把RAG做成一个真正可以给公司用的产品,而不只是Demo。
第19周:知识库系统设计
| 天数 | 内容 | 时长 |
|---|---|---|
| Day 127 | 知识库产品架构设计:用户管理、权限控制、多租户 | 2h |
| Day 128 | 文档管理系统:上传、解析、版本控制、删除 | 1.5h |
| Day 129 | 增量更新:文档变更后如何高效更新向量库 | 1.5h |
| Day 130 | 用户反馈系统:收集对话质量数据 | 1.5h |
| Day 131 | 数据分析:用户问题分析,知识库盲点发现 | 1.5h |
| Day 132-133(周末) | 参考开源知识库产品(Dify、FastGPT)的实现 | 6h |
第20周:知识库系统完善
| 天数 | 内容 | 时长 |
|---|---|---|
| Day 134 | 对话管理:历史记录、会话隔离 | 1.5h |
| Day 135 | 引用溯源:答案来源展示,提升可信度 | 1.5h |
| Day 136 | 知识库运营:内容质量管理、定期更新机制 | 1.5h |
| Day 137 | 监控告警:服务可用性、响应时间、错误率 | 1.5h |
| Day 138 | 性能压测:知识库系统的压力测试 | 1.5h |
| Day 139-140(周末) | 完成完整的企业知识库产品,撰写技术文档 | 6h |
学习资料
- Dify开源代码:github.com/langgenius/dify(学习优秀产品的设计)
- FastGPT开源代码:github.com/labring/FastGPT
- 《Designing Machine Learning Systems》(Chip Huyen著)
掌握程度要求:能设计并实现生产级知识库系统,考虑安全、性能、可用性,能输出完整的技术文档。
第四阶段:Agent期(第7-8个月)
第7个月:AI Agent 基础
AI Agent 是当前最前沿、也是最有商业价值的方向。Agent让大模型从"回答问题"进化到"完成任务"。
第21-22周:Agent 基础
第21周:Agent 核心概念
| 天数 | 内容 | 时长 |
|---|---|---|
| Day 141 | Agent是什么:ReAct框架、思考-行动循环 | 2h |
| Day 142 | Function Calling / Tool Use:让模型使用工具 | 1.5h |
| Day 143 | OpenAI Function Calling实战 | 1.5h |
| Day 144 | Anthropic Tool Use实战 | 1.5h |
| Day 145 | 工具设计原则:如何设计模型容易使用的工具 | 1.5h |
| Day 146-147(周末) | 实战:给Agent接入搜索引擎、计算器、代码执行能力 | 6h |
第22周:LangChain Agent
| 天数 | 内容 | 时长 |
|---|---|---|
| Day 148 | LangChain Agent类型:ReAct、OpenAI Functions、OpenAI Tools | 2h |
| Day 149 | 自定义Tool:把业务API封装成Agent工具 | 1.5h |
| Day 150 | Agent Memory:短期记忆与长期记忆 | 1.5h |
| Day 151 | Agent的错误处理和重试机制 | 1.5h |
| Day 152 | Agent的安全性:防止越权操作 | 1.5h |
| Day 153-154(周末) | 实战:构建一个能查询数据库、发邮件、生成报告的自动化Agent | 6h |
学习资料
- 吴恩达《AI Agents in LangGraph》:DeepLearning.AI
- LangGraph文档:langchain-ai.github.io/langgraph
- ReAct论文:《ReAct: Synergizing Reasoning and Acting in Language Models》
第23-24周:LangGraph 与复杂 Agent
第23周:LangGraph 核心
LangGraph是LangChain推出的图状工作流框架,适合构建复杂的Agent工作流。
| 天数 | 内容 | 时长 |
|---|---|---|
| Day 155 | LangGraph架构:State、Node、Edge的概念 | 2h |
| Day 156 | 条件边:根据状态动态选择下一步 | 1.5h |
| Day 157 | Human-in-the-loop:人工审核和干预 | 1.5h |
| Day 158 | 子图:复杂工作流的模块化 | 1.5h |
| Day 159 | LangGraph的持久化:Checkpointing | 1.5h |
| Day 160-161(周端) | 实战:用LangGraph构建一个复杂的数据分析工作流 | 6h |
第24周:Agent高级模式
| 天数 | 内容 | 时长 |
|---|---|---|
| Day 162 | Plan-and-Execute:规划与执行分离 | 1.5h |
| Day 163 | Reflexion:自我反思和改进 | 1.5h |
| Day 164 | LATS:语言智能体树搜索 | 1.5h |
| Day 165 | 代码生成Agent:让模型写代码并执行 | 1.5h |
| Day 166 | Agent监控:追踪每一步的决策和执行 | 1.5h |
| Day 167-168(周末) | 完成一个完整的Agent应用,能自主完成复杂任务 | 6h |
第8个月:多Agent系统
第25-26周:Multi-Agent 协作
第25周:多Agent框架
| 天数 | 内容 | 时长 |
|---|---|---|
| Day 169 | 多Agent系统设计:为什么需要多Agent | 1.5h |
| Day 170 | AutoGen:微软多Agent框架实战 | 2h |
| Day 171 | CrewAI:角色扮演多Agent框架 | 1.5h |
| Day 172 | LangGraph多Agent:Supervisor模式 | 1.5h |
| Day 173 | Agent通信协议:消息传递、状态共享 | 1.5h |
| Day 174-175(周末) | 实战:用CrewAI构建一个内容创作多Agent系统 | 6h |
第26周:多Agent系统工程化
| 天数 | 内容 | 时长 |
|---|---|---|
| Day 176 | 多Agent的任务分配策略 | 1.5h |
| Day 177 | Agent协作的一致性问题 | 1.5h |
| Day 178 | 多Agent系统的调试技巧 | 1.5h |
| Day 179 | 成本控制:多Agent系统的Token消耗优化 | 1.5h |
| Day 180 | 多Agent系统的评估方法 | 1.5h |
| Day 181-182(周末) | 完整多Agent项目:自动化市场调研系统 | 6h |
学习资料
- AutoGen文档:microsoft.github.io/autogen
- CrewAI文档:docs.crewai.com
- 吴恩达《AI Agentic Design Patterns with AutoGen》:DeepLearning.AI
- 论文:《Agents》(Lilian Weng博客:lilianweng.github.io)
掌握程度要求:能设计和实现单Agent和多Agent系统,理解各主流Agent框架的适用场景,能处理Agent的错误、循环、安全等工程问题。
第五阶段:工程化期(第9-10个月)
第9个月:大模型微调
第27-28周:微调基础
第27周:微调概念与方法
| 天数 | 内容 | 时长 |
|---|---|---|
| Day 183 | 为什么需要微调:微调 vs Prompt Engineering vs RAG | 1.5h |
| Day 184 | 微调的类型:全量微调、LoRA、QLoRA | 2h |
| Day 185 | LoRA原理深入:低秩分解的数学直觉 | 1.5h |
| Day 186 | 数据准备:微调数据集的格式和质量要求 | 1.5h |
| Day 187 | 微调数据生成:用GPT-4生成高质量训练数据 | 1.5h |
| Day 188-189(周末) | 实战:在Colab/AutoDL上用LoRA微调Qwen-7B | 6h |
第28周:微调实战
| 天数 | 内容 | 时长 |
|---|---|---|
| Day 190 | LLaMA-Factory:一站式微调工具使用 | 2h |
| Day 191 | 微调的超参数调优:学习率、批次大小、训练轮数 | 1.5h |
| Day 192 | 微调效果评估:基准测试、人工评估 | 1.5h |
| Day 193 | RLHF基础:什么是人类反馈强化学习 | 1.5h |
| Day 194 | DPO:Direct Preference Optimization实践 | 1.5h |
| Day 195-196(周末) | 完整微调项目:训练一个垂直领域专业模型 | 6h |
学习资料
- 吴恩达《Finetuning Large Language Models》:DeepLearning.AI
- LLaMA-Factory文档:github.com/hiyouga/LLaMA-Factory
- LoRA论文:《LoRA: Low-Rank Adaptation of Large Language Models》
- 实验平台:Colab(免费GPU)/ AutoDL(国内低价GPU租用)
掌握程度要求:能独立完成大模型的LoRA/QLoRA微调,能准备高质量微调数据集,能评估微调效果。
第10个月:模型部署与优化
第29-30周:模型推理优化
第29周:模型推理框架
| 天数 | 内容 | 时长 |
|---|---|---|
| Day 197 | 推理框架对比:vLLM、TGI、Ollama、LMDeploy | 2h |
| Day 198 | vLLM部署实战:PagedAttention原理与使用 | 2h |
| Day 199 | Ollama:本地部署大模型的最简方式 | 1.5h |
| Day 200 | 量化技术:INT4、INT8量化的原理和实践 | 1.5h |
| Day 201 | 推理性能测试:TPS、首Token延迟、并发能力 | 1.5h |
| Day 202-203(周末) | 实战:用vLLM部署一个7B模型,进行性能基准测试 | 6h |
第30周:生产部署最佳实践
| 天数 | 内容 | 时长 |
|---|---|---|
| Day 204 | GPU选型:A100 vs H100 vs 4090,成本效益分析 | 1.5h |
| Day 205 | 模型服务的负载均衡和高可用 | 1.5h |
| Day 206 | 监控体系:模型服务的可观测性 | 1.5h |
| Day 207 | 成本优化:模型路由、缓存、降级策略 | 1.5h |
| Day 208 | 私有化部署方案设计:企业内网大模型 | 2h |
| Day 209-210(周末) | 实战:设计并实现一套完整的大模型私有化部署方案 | 6h |
学习资料
- vLLM文档:docs.vllm.ai
- TGI文档:huggingface.co/docs/text-generation-inference
- Ollama:ollama.com
- 《LLM推理优化技术综述》(知乎搜索)
掌握程度要求:能独立部署开源大模型提供API服务,能进行性能优化,能设计企业级私有化部署方案。
第六阶段:综合期(第11-12个月)
第11个月:综合实战项目
选择一个方向做完整项目
经过前10个月的学习,选择一个你最感兴趣的方向,完成一个可以展示给面试官或者公司领导的完整项目。
项目选项A:企业AI助手平台
功能:
- 多租户企业知识库(RAG核心)
- 智能问答 + 引用溯源
- 文档自动总结
- 会议记录智能处理
- 与企业系统(OA、CRM)的集成
- 完整的用户管理和权限系统
- 监控和分析Dashboard
技术栈:Spring Boot(Java)+ Python FastAPI + Milvus + LangChain + React
项目选项B:AI代码助手
功能:
- 代码理解和解释
- Bug自动定位和修复建议
- 代码审查(Code Review)
- 文档自动生成
- 单元测试自动生成
- 支持IDE插件(VS Code Extension)
技术栈:Python + LangChain + RAG(代码库索引)+ TreeSitter(代码解析)
项目选项C:智能数据分析平台
功能:
- 自然语言转SQL(Text-to-SQL)
- 数据可视化自动生成
- 异常检测和告警
- 数据报告自动生成
- 支持多种数据源
技术栈:Python + LangChain + LangGraph + Pandas + 各种数据库连接器
第11个月计划
| 周次 | 内容 |
|---|---|
| 第31周 | 项目设计:架构设计、技术选型、数据库设计、API设计 |
| 第32周 | 核心功能开发:AI能力模块 |
| 第33周 | 工程化:鉴权、日志、监控、测试 |
| 第34周 | 打磨和文档:性能优化、README、技术博客 |
第12个月:技术影响力 + 求职准备
第35-36周:建立技术影响力
| 内容 | 时长/篇数 |
|---|---|
| 整理一年学习笔记,发布到技术博客(掘金/CSDN/个人博客) | 每周2篇 |
| GitHub整理:所有项目代码整理,写好README | 全月持续 |
| 技术分享:在公司内部做AI技术分享 | 1-2次 |
| 开源贡献:给常用项目提PR或Issue | 1-2个 |
第37-38周:求职准备(如果需要)
简历亮点梳理:
- Java 资深工程师 + AI大模型工程能力的复合背景
- 完整的RAG系统设计和实现经验
- Agent系统开发经验
- 大模型微调和私有化部署经验
- 有真实完整的项目案例
常见面试题准备:
技术类:
- RAG的完整流程是什么?如何评估和优化RAG效果?
- 向量数据库和传统数据库的区别?HNSW的原理?
- LoRA微调的原理?为什么比全量微调高效?
- Agent的ReAct框架是什么?如何处理Agent的无限循环问题?
- 如何设计一个高并发的大模型服务架构?
- Token的计费逻辑?如何在保证效果的前提下控制成本?
- Prompt注入攻击是什么?如何防御?
- 向量检索的召回率和精确率如何权衡?
架构设计类:
- 设计一个支持10万用户的企业知识库系统
- 设计一个大模型私有化部署方案
- 如何实现大模型服务的高可用?
重要学习资源汇总
必学课程(按优先级)
| 优先级 | 课程 | 平台 | 费用 |
|---|---|---|---|
| ⭐⭐⭐ | ChatGPT Prompt Engineering for Developers | DeepLearning.AI | 免费 |
| ⭐⭐⭐ | LangChain for LLM Application Development | DeepLearning.AI | 免费 |
| ⭐⭐⭐ | Building Systems with the ChatGPT API | DeepLearning.AI | 免费 |
| ⭐⭐⭐ | Building and Evaluating Advanced RAG | DeepLearning.AI | 免费 |
| ⭐⭐⭐ | AI Agents in LangGraph | DeepLearning.AI | 免费 |
| ⭐⭐ | Finetuning Large Language Models | DeepLearning.AI | 免费 |
| ⭐⭐ | Machine Learning Specialization | Coursera/吴恩达 | 旁听免费 |
| ⭐⭐ | 李沐《动手学深度学习》 | B站 | 免费 |
| ⭐ | Fast.ai Practical Deep Learning | fast.ai | 免费 |
必读书籍
| 书名 | 重要程度 | 说明 |
|---|---|---|
| 《Building LLM Powered Applications》 | ⭐⭐⭐ | LLM应用开发实战 |
| 《Designing Machine Learning Systems》 | ⭐⭐⭐ | ML系统设计,Chip Huyen著 |
| 《Natural Language Processing with Transformers》 | ⭐⭐ | HuggingFace官方书籍 |
| 《Python for Data Analysis》 | ⭐⭐ | Pandas作者著 |
| 《动手学深度学习》 | ⭐⭐ | 李沐著,中文,免费在线阅读 |
必关注的技术博客/社区
| 资源 | 内容 | 网址 |
|---|---|---|
| Lilian Weng博客 | 深度AI技术文章 | lilianweng.github.io |
| Sebastian Raschka | ML技术文章 | magazine.sebastianraschka.com |
| Simon Willison | LLM应用实践 | simonwillison.net |
| 量子位 | 中文AI资讯 | qbitai.com |
| 机器之心 | 中文AI技术 | jiqizhixin.com |
实验平台
| 平台 | 用途 | 费用 |
|---|---|---|
| Google Colab | 免费GPU实验 | 免费(Pro版35元/月) |
| AutoDL | 国内GPU租用 | 按小时计费,经济实惠 |
| HuggingFace Space | 模型部署和展示 | 免费 |
| Replicate | 模型API调用 | 按使用量计费 |
费用预算参考
| 项目 | 月均费用 | 年费用 |
|---|---|---|
| OpenAI API(学习用) | 100-200元 | 1200-2400元 |
| GPU租用(微调实验) | 0-500元(按需) | 0-2000元 |
| 国内大模型API(备选) | 50-100元 | 600-1200元 |
| 书籍 | 100-200元 | 500-1000元 |
| 向量数据库云服务(可用免费版) | 0-100元 | 0-1000元 |
| 合计 | 约300-1000元/月 | 约3000-7000元 |
提示:可以优先用国内大模型API(通义千问、文心一言、智谱GLM),价格是OpenAI的1/5到1/10。很多实验用免费额度就够了。
能力水平里程碑
3个月后(初级AI工程师)
- 能调用各主流大模型API构建应用
- 能写高质量Prompt
- 能用LangChain搭建基础AI应用
- 能构建简单的RAG系统
6个月后(中级AI工程师)
- 能独立设计和实现完整RAG系统
- 能评估和优化RAG效果
- 能构建向量搜索服务
- 具备AI系统的工程化能力
9个月后(高级AI工程师)
- 能设计和实现Agent系统
- 能做大模型微调
- 能进行模型私有化部署
- 具备完整的AI系统架构能力
12个月后(AI架构师候选)
- 能独立承担公司AI基础设施建设
- 能带团队做AI应用开发
- 具备技术选型和架构决策能力
- 有完整的项目案例可以展示
给自己的一句话
你已经有了最难得的东西——工程经验和独立解决问题的能力。
AI大模型技术日新月异,但工程的本质没变:把事情做成、做好、做稳。
把这份计划打印出来,贴在桌子旁边。
一年后,你会是另一个人。