大模型应用开发工程师 · 学习路线(完整技术栈版)

2 阅读15分钟

从零到就业,每个阶段需要掌握的具体技术/工具/框架

整理日期:2026-04-25


🗺️ 全局路线图

flowchart TB
    subgraph P1["阶段一:基础筑基(4-6周)"]
        P1A["Python 工程能力"] --> P1B["ML/DL 基础"]
        P1B --> P1C["NLP 基础"]
    end
    subgraph P2["阶段二:LLM 核心(6-8周)"]
        P2A["Transformer 原理"] --> P2B["模型生态"]
        P2B --> P2C["Prompt 工程"]
    end
    subgraph P3["阶段三:应用开发(8-10周)"]
        P3A["RAG 系统"] --> P3B["Agent 开发"]
        P3B --> P3C["模型微调"]
        P3C --> P3D["多模态"]
    end
    subgraph P4["阶段四:工程落地(6-8周)"]
        P4A["推理部署"] --> P4B["系统架构"]
        P4B --> P4C["评估监控"]
        P4C --> P4D["安全合规"]
    end
    subgraph P5["阶段五:进阶(持续)"]
        P5A["前沿追踪"] --> P5B["项目实战"]
    end
    P1 --> P2 --> P3 --> P4 --> P5

阶段一:基础筑基(4-6 周)

目标

具备 Python 工程能力、ML/DL 基础、NLP 入门,为 LLM 学习打地基。

1.1 Python 工程能力(1-2 周)

flowchart LR
    subgraph 语言核心
        Py1["异步 asyncio/aiohttp"]
        Py2["类型提示 typing"]
        Py3["数据校验 Pydantic v2"]
        Py4["装饰器/上下文管理器"]
    end
    subgraph Web框架
        FW1["FastAPI ★首选"]
        FW2["Flask"]
    end
    subgraph 数据处理
        DP1["pandas"]
        DP2["numpy"]
        DP3["json/jsonlines"]
    end
    subgraph 工具链
        TL1["Git + GitHub"]
        TL2["Docker 基础"]
        TL3["Linux 命令行"]
        TL4["uv / pip 包管理"]
    end
必学技术说明优先级
FastAPILLM 应用首选 Web 框架,支持 async、流式、WebSocket⭐⭐⭐⭐⭐
Pydantic v2数据验证和 Schema 定义,LangChain/LlamaIndex 底层依赖⭐⭐⭐⭐⭐
asyncio / aiohttp异步编程,LLM API 并发调用必备⭐⭐⭐⭐
typing类型提示,提升代码可维护性⭐⭐⭐⭐
Git版本控制,代码/Prompt/配置管理⭐⭐⭐⭐⭐
Docker容器化部署,LLM 服务标准交付方式⭐⭐⭐⭐
Linux 命令行服务器操作必备⭐⭐⭐⭐
pandas / numpy数据处理和分析⭐⭐⭐
httpx异步 HTTP 客户端,调 LLM API 用⭐⭐⭐⭐
rich / loguru终端美化 / 日志,开发体验提升⭐⭐⭐

学习清单

  • FastAPI:路由、中间件、WebSocket、流式响应(SSE)
  • Pydantic v2:BaseModel、Field、Validator
  • asyncio:async/await、Task、Semaphore 控制并发
  • Docker:Dockerfile 编写、docker-compose
  • Git:分支管理、PR 流程、.gitignore
  • Linux:文件操作、进程管理、网络调试

1.2 机器学习基础(1 周)

必学技术说明优先级
Scikit-learn传统 ML 算法,理解评估指标⭐⭐⭐
评估指标准确率/精确率/召回率/F1/AUC⭐⭐⭐⭐

学习清单

  • 监督学习:分类、回归基本概念
  • 常见算法原理(不用手写,理解思想即可)
  • 模型评估指标和交叉验证
  • 过拟合/欠拟合的理解

1.3 深度学习基础(1-2 周)

必学技术说明优先级
PyTorch ★必学LLM 生态的事实标准,HuggingFace 底层⭐⭐⭐⭐⭐
HuggingFace Transformers预训练模型库,LLM 开发核心工具⭐⭐⭐⭐⭐
HuggingFace Tokenizers分词器,理解 BPE/WordPiece⭐⭐⭐⭐
CUDA 基础GPU 计算概念、device 管理⭐⭐⭐

PyTorch 必学清单

  • Tensor 操作:创建、索引、变形、广播
  • 自动微分:autograd、backward
  • nn.Module:自定义模型、参数管理
  • 训练循环:DataLoader、Optimizer、Loss
  • GPU 管理:.to(device)、cuda()、混合精度
  • 模型保存/加载:state_dict、torch.save

Transformers 必学清单

  • pipeline:快速推理
  • AutoModel / AutoTokenizer:加载模型和分词器
  • Trainer API:训练流程
  • 模型配置:AutoConfig
  • 生成配置:GenerationConfig

1.4 NLP 基础(1 周)

必学技术说明优先级
分词jieba(中文)、Tokenizers(子词)⭐⭐⭐
EmbeddingWord2Vec、Sentence-BERT⭐⭐⭐⭐
HuggingFace Datasets数据集加载和处理⭐⭐⭐⭐

学习清单

  • 中文分词:jieba
  • 子词分词:BPE 算法原理
  • 词向量:Word2Vec → Sentence Embedding
  • Seq2Seq 和 Attention 机制入门

阶段二:LLM 核心知识(6-8 周)

目标

深入理解 Transformer、预训练/后训练、Prompt Engineering,熟悉主流模型和 API。

2.1 Transformer 架构深入(2 周)

flowchart TB
    subgraph 核心组件
        SA["Self-Attention<br/>Q/K/V 计算"]
        MHA["Multi-Head Attention"]
        FFN["FFN + SwiGLU"]
        PE["位置编码<br/>RoPE / ALiBi"]
        LN["LayerNorm / RMSNorm"]
        RC["残差连接"]
    end
    subgraph 架构变体
        Dec["Decoder-only (GPT/LLaMA)"]
        Enc["Encoder-only (BERT)"]
        ED["Enc-Dec (T5/BART)"]
    end
    subgraph 关键机制
        KV["KV Cache"]
        GQA["GQA / MQA"]
        FA["Flash Attention"]
        MOE["MoE 混合专家"]
    end

必须掌握的概念(能画图 + 能推导 + 能讲清楚):

  • Self-Attention 完整计算流程(Q/K/V、缩放、Softmax)
  • Multi-Head Attention 的作用和实现
  • 位置编码:正弦 → RoPE → ALiBi 的演进
  • Decoder-only 的 Causal Mask 机制
  • KV Cache 原理和内存计算
  • GQA vs MHA vs MQA 的区别和取舍
  • FFN 层的作用(知识存储)
  • Pre-Norm vs Post-Norm
  • 残差连接和 LayerNorm/RMSNorm
  • Flash Attention 的 IO 感知优化思想
  • MoE 混合专家的路由机制
  • Transformer 参数量计算(12Ld² 近似公式)

动手实践

  • 用 PyTorch 手写一个 MiniGPT(2-4 层,小规模)
  • 实现 Self-Attention(不用 nn.MultiheadAttention)
  • 实现 KV Cache 的推理逻辑
  • 用 Transformers 加载 LLaMA,观察模型结构

2.2 预训练与后训练(2 周)

必学概念说明优先级
CLM(因果语言模型)GPT 系列的训练目标⭐⭐⭐⭐⭐
Scaling Laws参数量/数据量/计算量的幂律关系⭐⭐⭐⭐
SFT 监督微调指令微调的核心流程⭐⭐⭐⭐⭐
RLHF奖励模型 + PPO 优化⭐⭐⭐⭐
DPO直接偏好优化,绕过 RM⭐⭐⭐⭐⭐
TokenizationBPE / SentencePiece⭐⭐⭐⭐

学习清单

  • 预训练目标:CLM(GPT)、MLM(BERT)、Span Corruption(T5)
  • Scaling Laws:理解 loss 与 N/D/C 的关系
  • Chinchilla 最优比例:tokens ≈ 20 × 参数量
  • SFT 流程:数据格式、只计算 response 的 loss
  • RLHF 三阶段:SFT → RM 训练 → PPO 优化
  • DPO 原理:Bradley-Terry 模型、偏好数据
  • BPE 分词算法:迭代合并最高频字符对
  • SentencePiece:语言无关的分词

必读论文

  • Attention Is All You Need (2017)
  • Scaling Laws for Neural Language Models (2020)
  • Training language models to follow instructions with human feedback (2022)
  • Direct Preference Optimization (2023)
  • LLaMA: Open and Efficient Foundation Language Models (2023)

2.3 Prompt Engineering(2 周)

flowchart LR
    subgraph 基础技巧
        PE1["Zero-Shot"]
        PE2["Few-Shot"]
        PE3["角色设定 Role"]
        PE4["输出格式 JSON/Markdown"]
    end
    subgraph 推理增强
        RE1["Chain-of-Thought ★"]
        RE2["Self-Consistency"]
        RE3["Tree of Thoughts"]
        RE4["Least-to-Most"]
    end
    subgraph Agent模式
        AM1["ReAct ★"]
        AM2["Function Calling ★"]
        AM3["Plan-and-Execute"]
    end
    subgraph 安全防护
        SP1["Prompt Injection 防御"]
        SP2["输出验证"]
        SP3["Guardrails"]
    end
必学技术说明优先级
OpenAI APIChat Completions、Function Calling、流式⭐⭐⭐⭐⭐
Anthropic APIClaude API、Tool Use⭐⭐⭐⭐
CoT 推理一步步思考,提升推理能力⭐⭐⭐⭐⭐
Function Calling工具调用的标准接口⭐⭐⭐⭐⭐
JSON Mode / Structured Output结构化输出⭐⭐⭐⭐
Prompt Injection 防御安全必修⭐⭐⭐⭐

学习清单

  • OpenAI Python SDK(openai 库):Chat Completions、Streaming、Function Calling
  • Anthropic Python SDK(anthropic 库)
  • 通用 LLM 调用模式:httpx 直接调 API
  • Prompt 模板设计:角色、任务、约束、格式、示例
  • CoT / Zero-Shot CoT / Few-Shot CoT
  • Self-Consistency(多次采样投票)
  • ReAct 框架的 Prompt 设计
  • Function Calling 的参数定义和调用流程
  • JSON Mode 和 Structured Output
  • Prompt Injection 的攻击方式和防御策略
  • Prompt 版本管理(Git / Prompt Registry)

2.4 主流模型生态(1 周)

flowchart TB
    subgraph 闭源API
        OAI["OpenAI<br/>GPT-4o / o1 / o3"]
        ANT["Anthropic<br/>Claude 3.5/4"]
        GEM["Google<br/>Gemini 2.0"]
    end
    subgraph 开源模型
        LLAMA["Meta LLaMA 3/4"]
        QWEN["阿里 Qwen 2.5/3"]
        DS["DeepSeek V3/R1"]
        MISTRAL["Mistral / Mixtral"]
    end
    subgraph 中国模型
        ZHIPU["智谱 GLM-4"]
        BAIDU["百度 文心"]
        MINIMAX["MiniMax"]
        MOON["月之暗面 Kimi"]
    end

必学清单

  • 各模型的 API 调用方式和参数差异
  • 各模型的能力对比(推理、代码、多语言、多模态)
  • 各模型的定价模型(按 token、按请求)
  • 各模型的上下文长度(4K/32K/128K/1M)
  • 开源模型的本地部署方式(Ollama/vLLM)
  • 模型选型决策树:任务类型 → 能力需求 → 成本约束

阶段三:应用开发实战(8-10 周)

目标

掌握 RAG、Agent、微调、多模态四大方向,能独立开发完整的 LLM 应用。

3.1 RAG 系统开发(3 周)

flowchart TB
    subgraph 文档处理层
        DL["文档加载<br/>LangChain DocumentLoader"]
        TS["文档切分<br/>RecursiveCharacterTextSplitter"]
        OCR["OCR 识别<br/>PaddleOCR / Tesseract"]
    end
    subgraph 索引层
        EM["Embedding 模型<br/>BGE-M3 / GTE-Qwen / OpenAI"]
        VDB["向量数据库<br/>Milvus / Qdrant / Chroma / FAISS"]
        BM25["关键词索引<br/>BM25 / Elasticsearch"]
    end
    subgraph 检索层
        VS["向量搜索"]
        KS["关键词搜索"]
        HY["混合搜索 + RRF"]
        RR["Rerank 重排序<br/>BGE-Reranker / Cohere"]
    end
    subgraph 生成层
        QT["Query 改写 / HyDE"]
        PC["Prompt 构建"]
        LLM["LLM 生成"]
        CIT["引用标注"]
    end
    subgraph 评估层
        RAGAS["RAGAS 评估"]
        TRU["TruLens"]
        LS["LangSmith 追踪"]
    end

必学框架

框架/工具用途优先级说明
LangChainRAG Pipeline 编排⭐⭐⭐⭐⭐生态最大,组件最多
LlamaIndexRAG 专用框架⭐⭐⭐⭐⭐RAG 更深入,Query Engine 更强
LangSmith追踪和评估⭐⭐⭐⭐LangChain 官方,调试必备
RAGASRAG 评估框架⭐⭐⭐⭐Faithfulness/Relevancy 等指标

必学组件——文档处理

技术说明优先级
LangChain DocumentLoaderPDF/Word/网页/Markdown 加载⭐⭐⭐⭐⭐
Unstructured复杂文档解析(PDF/图片/表格)⭐⭐⭐⭐
PaddleOCR / TesseractOCR 文字识别⭐⭐⭐⭐
PyMuPDF / PDFPlumberPDF 文本提取⭐⭐⭐⭐
Trafilatura / BeautifulSoup网页正文提取⭐⭐⭐
python-docxWord 文档解析⭐⭐⭐
python-pptxPPT 解析⭐⭐

文档切分

切分器说明优先级
RecursiveCharacterTextSplitterLangChain 默认,递归按段落→句子→字符⭐⭐⭐⭐⭐
MarkdownHeaderTextSplitter按 Markdown 标题层级切分⭐⭐⭐⭐
TokenTextSplitter按 token 数切分⭐⭐⭐
SemanticChunker按语义相似度变化点切分⭐⭐⭐⭐
LateChunking先 Embedding 再切分,保留上下文⭐⭐⭐

必学组件——Embedding 模型

模型维度中文说明优先级
BGE-M31024✓✓多语言,多功能,开源首选⭐⭐⭐⭐⭐
GTE-Qwen21536✓✓效果顶级⭐⭐⭐⭐⭐
OpenAI text-embedding-33072API 调用,效果好⭐⭐⭐⭐
Jina-embeddings-v31024多语言,速度快⭐⭐⭐
nomic-embed-text768轻量,本地部署⭐⭐⭐

必学组件——向量数据库

数据库类型适用场景优先级
Chroma嵌入式原型开发、本地实验⭐⭐⭐⭐
Milvus分布式生产环境、大规模⭐⭐⭐⭐⭐
Qdrant独立服务生产环境、高性能⭐⭐⭐⭐
FAISS纯内存、高性能⭐⭐⭐⭐
Weaviate独立服务内置混合搜索⭐⭐⭐
pgvectorPG 扩展已有 PG 基础设施⭐⭐⭐
Pinecone云服务全托管、省运维⭐⭐⭐

必学组件——检索优化

技术说明优先级
向量搜索余弦相似度 / 内积 / 欧氏距离⭐⭐⭐⭐⭐
BM25关键词精确匹配⭐⭐⭐⭐
混合搜索 + RRF向量 + BM25 结果融合⭐⭐⭐⭐⭐
RerankCross-Encoder 精排(BGE-Reranker、Cohere Rerank)⭐⭐⭐⭐⭐
HyDE用 LLM 生成假设答案再检索⭐⭐⭐⭐
Query 改写同义改写 / 子问题分解 / Step-back⭐⭐⭐⭐
Parent-Child Chunking小 Chunk 检索,大 Chunk 送 LLM⭐⭐⭐⭐
Contextual RetrievalChunk 前加上下文说明(Anthropic)⭐⭐⭐

必学组件——评估

工具说明优先级
RAGASRAG 评估框架(Faithfulness/Relevancy/Precision/Recall)⭐⭐⭐⭐⭐
TruLensRAG 可观测和评估⭐⭐⭐⭐
LangSmithLangChain 追踪、调试、评估⭐⭐⭐⭐⭐
Phoenix (Arize)LLM 可观测性⭐⭐⭐

RAG 学习清单

第1周:基础 RAG

  • LangChain 安装和基本使用
  • DocumentLoader:加载 PDF、Markdown、网页
  • TextSplitter:RecursiveCharacterTextSplitter 使用和调参
  • Embedding:用 OpenAI / BGE-M3 生成向量
  • Chroma:本地向量数据库的增删改查
  • 构建最基础的 RAG Chain:加载 → 切分 → 索引 → 检索 → 生成

第2周:进阶 RAG

  • 混合搜索:向量 + BM25 + RRF
  • Rerank:BGE-Reranker / Cohere Rerank 集成
  • Query 改写:让 LLM 改写查询 / HyDE
  • Parent-Child Chunking:小块检索 + 大块送入
  • RAGAS 评估:搭建评估 Pipeline
  • LangSmith 追踪:查看每一步的输入输出

第3周:生产级 RAG

  • 权限控制:元数据过滤实现文档级权限
  • 增量索引:新文档追加,不全量重建
  • 多模态 RAG:图片+文本的检索和生成
  • Graph RAG:知识图谱辅助检索
  • 性能优化:缓存、批量处理、异步
  • 部署:FastAPI + Docker 打包 RAG 服务

RAG 实战项目

项目技术栈说明
个人知识库问答LangChain + Chroma + OpenAI入门级
企业文档问答LlamaIndex + Milvus + BGE-M3 + BGE-Reranker生产级
多模态文档问答Unstructured + Qwen-VL + Qdrant进阶级
网页知识库Trafilatura + FAISS + Rerank实用级

3.2 Agent 智能体开发(3 周)

flowchart TB
    subgraph 工具层
        FC["Function Calling"]
        TOOL["@tool 装饰器"]
        MCP["MCP 协议"]
    end
    subgraph 框架层
        LC["LangChain Agent"]
        LG["LangGraph ★"]
        CA["CrewAI"]
        OA["OpenAI Assistants API"]
    end
    subgraph 能力层
        REACT["ReAct 推理"]
        PLAN["Plan-and-Execute"]
        MEM["记忆系统"]
        MULTI["Multi-Agent"]
    end
    subgraph 工具集成
        SEARCH["搜索 API<br/>Tavily/Bing/Google"]
        CODE["代码执行<br/>E2B/沙箱"]
        DB["数据库<br/>SQL/NoSQL"]
        API["外部 API<br/>天气/邮件/日历"]
        FILE["文件系统<br/>读写/管理"]
    end
    subgraph 生产层
        HITL["Human-in-the-Loop"]
        SAFE["安全边界"]
        EVAL["Agent 评估"]
    end

必学框架

框架/工具用途优先级说明
LangChain AgentAgent 基础框架⭐⭐⭐⭐入门用
LangGraph ★核心图编排框架,支持循环/分支/状态⭐⭐⭐⭐⭐生产首选
CrewAIMulti-Agent 协作框架⭐⭐⭐⭐多 Agent 场景
OpenAI Assistants API官方 Agent API⭐⭐⭐⭐快速原型
AutoGen (微软)Multi-Agent 对话框架⭐⭐⭐多 Agent 研究
MCP (Anthropic)模型上下文协议,标准化工具连接⭐⭐⭐⭐⭐新标准,必学
Toolhouse工具市场,开箱即用的工具⭐⭐⭐快速集成

必学组件——工具调用

技术说明优先级
OpenAI Function Calling工具调用的事实标准⭐⭐⭐⭐⭐
Anthropic Tool UseClaude 的工具调用⭐⭐⭐⭐
LangChain @tool工具定义装饰器⭐⭐⭐⭐⭐
MCP Server/Client标准化工具协议⭐⭐⭐⭐⭐
MCP 工具生态文件系统、数据库、搜索等 MCP Server⭐⭐⭐⭐

必学组件——工具集成

工具类型具体技术优先级
搜索Tavily API、Bing Search API、SerpAPI、DuckDuckGo⭐⭐⭐⭐⭐
代码执行E2B、Jupyter Kernel、Docker 沙箱⭐⭐⭐⭐
数据库SQLDatabase (LangChain)、Text-to-SQL⭐⭐⭐⭐
文件系统LangChain DirectoryLoader、MCP Filesystem⭐⭐⭐⭐
API 调用requests/httpx、LangChain RequestsTool⭐⭐⭐⭐
网页浏览Playwright、Selenium、Browser Use⭐⭐⭐⭐
邮件/日历Gmail API、Google Calendar API⭐⭐⭐

必学组件——记忆系统

技术说明优先级
ConversationBufferMemory完整对话历史⭐⭐⭐⭐
ConversationSummaryMemory对话摘要压缩⭐⭐⭐⭐
向量记忆历史对话存入向量库检索⭐⭐⭐⭐
LangGraph State图状态管理⭐⭐⭐⭐⭐

必学组件——多 Agent

框架模式优先级
LangGraph图编排,Supervisor/Handoff⭐⭐⭐⭐⭐
CrewAI角色分工,顺序/并行/层级⭐⭐⭐⭐
AutoGen多 Agent 对话⭐⭐⭐

Agent 学习清单

第1周:基础 Agent

  • OpenAI Function Calling:定义工具、解析调用、返回结果
  • LangChain Tool:@tool 装饰器、StructuredTool
  • LangChain Agent:create_react_agent、AgentExecutor
  • ReAct 模式:Thought → Action → Observation 循环
  • 常用工具集成:搜索(Tavily)、计算器、文件操作
  • 构建第一个 Agent:能搜索 + 能计算 + 能回答

第2周:进阶 Agent

  • LangGraph 核心概念:State、Node、Edge、Conditional Edge
  • LangGraph 构建 ReAct Agent(手动实现,不用内置)
  • LangGraph 的 Human-in-the-Loop:interrupt_before / interrupt_after
  • LangGraph 的持久化:Checkpointer、线程管理
  • Multi-Agent:Supervisor 模式、Handoff 模式
  • 记忆系统:短期(State)+ 长期(向量库)
  • MCP 协议:理解 Server/Client 架构,使用现有 MCP Server

第3周:生产 Agent

  • Agent 安全:工具权限控制、沙箱执行
  • Agent 评估:任务完成率、步骤效率、工具调用准确率
  • 错误处理:重试、降级、超时、最大步骤限制
  • 流式输出:Agent 思考过程的流式展示
  • Agent 可观测性:LangSmith 追踪每一步
  • 部署:FastAPI 封装 Agent API

Agent 实战项目

项目技术栈说明
搜索问答 AgentLangChain + Tavily + OpenAI入门级
数据分析 AgentLangGraph + SQL + Matplotlib进阶级
研究助手 AgentCrewAI + 搜索 + RAG多 Agent
自动化运维 AgentLangGraph + Shell + 监控 API生产级
浏览器 AgentPlaywright + Vision + Function Calling前沿级

3.3 模型微调(2 周)

flowchart TB
    subgraph 数据准备
        FMT["数据格式<br/>Alpaca/ShareGPT/JSONL"]
        CLEAN["数据清洗<br/>去重/去噪/修正"]
        AUG["数据增强<br/>Evol-Instruct/Self-Instruct"]
    end
    subgraph 微调方法
        FULL["全参数微调<br/>Full Fine-tuning"]
        LORA["LoRA ★最常用"]
        QLORA["QLoRA<br/>4-bit + LoRA"]
        DORA["DoRA<br/>方向+幅度分解"]
    end
    subgraph 工具框架
        LLF["LLaMA-Factory ★一站式"]
        UNS["Unsloth ★高性能"]
        AXO["Axolotl ★灵活"]
        HFTRL["HuggingFace TRL"]
        PEFT["PEFT (LoRA库)"]
    end
    subgraph 对齐训练
        SFT["SFT 监督微调"]
        DPO["DPO 偏好对齐"]
        ORPO["ORPO 单阶段对齐"]
        KTO["KTO 单标签对齐"]
    end
    subgraph 评估部署
        EVAL["评估<br/>MMLU/HumanEval/人工"]
        MERGE["模型合并<br/>mergekit"]
        DEPLOY["部署<br/>vLLM/Ollama"]
    end

必学框架

框架/工具用途优先级说明
LLaMA-Factory ★一站式微调平台⭐⭐⭐⭐⭐Web UI,支持 100+ 模型,最易上手
Unsloth高性能微调⭐⭐⭐⭐⭐速度 2x,内存 -60%
HuggingFace TRL训练 RLHF/DPO⭐⭐⭐⭐SFT/RLHF/DPO 训练器
PEFTLoRA/QLoRA 实现⭐⭐⭐⭐⭐HuggingFace 官方 LoRA 库
Axolotl灵活微调框架⭐⭐⭐⭐配置驱动,支持多种方法
DeepSpeed分布式训练⭐⭐⭐⭐ZeRO 1/2/3,大模型必备
mergekit模型合并工具⭐⭐⭐SLERP/TIES/DARE 合并

必学组件——数据准备

技术说明优先级
Alpaca 格式instruction/input/output⭐⭐⭐⭐⭐
ShareGPT 格式conversations 多轮对话⭐⭐⭐⭐⭐
JSONL 格式逐行 JSON,通用格式⭐⭐⭐⭐⭐
Evol-Instruct迭代增加指令复杂度⭐⭐⭐⭐
Self-Instruct用 LLM 生成训练数据⭐⭐⭐⭐
数据清洗去重、去低质量、格式修正⭐⭐⭐⭐⭐
数据配比领域:通用 = 8:2 或 9:1⭐⭐⭐⭐

必学组件——LoRA 系列

方法说明优先级
LoRA低秩分解 ΔW = AB⭐⭐⭐⭐⭐
QLoRA4-bit NF4 量化 + LoRA⭐⭐⭐⭐⭐
DoRA方向+幅度分解⭐⭐⭐⭐
AdaLoRA自适应分配各层 rank⭐⭐⭐
LoRA+A/B 不同学习率⭐⭐⭐
rsLoRA缩放因子 α/√r⭐⭐⭐

必学组件——对齐训练

方法说明优先级
SFT监督微调,基础⭐⭐⭐⭐⭐
DPO直接偏好优化,主流⭐⭐⭐⭐⭐
ORPOSFT+对齐单阶段⭐⭐⭐⭐
KTO单标签优化⭐⭐⭐
RLHF (PPO)强化学习,复杂但强大⭐⭐⭐⭐

微调学习清单

第1周:SFT 微调

  • LLaMA-Factory 安装和使用(Web UI)
  • 数据格式:Alpaca 格式和 ShareGPT 格式
  • 数据准备:清洗、格式化、划分
  • LoRA 配置:rank、alpha、target_modules 选择
  • QLoRA:4-bit 量化 + LoRA 在单卡上微调 7B
  • 训练监控:loss 曲线、学习率调度
  • Unsloth 使用:加速训练
  • 评估:用 lm-evaluation-harness 测试

第2周:对齐训练 + 实战

  • DPO 数据格式:chosen/rejected 对
  • DPO 训练:用 TRL 的 DPOTrainer
  • ORPO 训练:单阶段对齐
  • 模型合并:mergekit 的 SLERP/TIES
  • 数据合成:用强模型生成微调数据
  • Evol-Instruct:迭代增加数据复杂度
  • 部署微调模型:vLLM / Ollama

微调实战项目

项目技术栈说明
客服领域微调LLaMA-Factory + Qwen-7B + Alpaca 格式入门级
代码助手微调Unsloth + DeepSeek-Coder + QLoRA进阶级
对齐训练TRL + DPO + 自构造偏好数据进阶级
多任务微调Axolotl + DeepSpeed + 多数据源生产级

3.4 多模态应用(1-2 周)

flowchart TB
    subgraph 模型
        QV["Qwen-VL / Qwen2.5-VL ★"]
        LV["LLaVA / LLaVA-NeXT"]
        GPT4V["GPT-4o / GPT-4V"]
        INTERN["InternVL"]
    end
    subgraph 视觉编码
        CLIP["CLIP / SigLIP"]
        VIT["ViT 视觉 Transformer"]
    end
    subgraph 应用
        OCR["OCR 文字识别"]
        VQA["视觉问答"]
        DOC["文档理解"]
        VID["视频分析"]
    end
    subgraph 语音
        WHISPER["Whisper 语音识别"]
        TTS["TTS 语音合成"]
    end
必学技术说明优先级
Qwen-VL / Qwen2.5-VL中文最强多模态模型⭐⭐⭐⭐⭐
GPT-4o API最强闭源多模态⭐⭐⭐⭐⭐
LLaVA开源多模态经典⭐⭐⭐⭐
CLIP图文对齐基础模型⭐⭐⭐⭐
WhisperOpenAI 语音识别⭐⭐⭐⭐
PaddleOCR / TesseractOCR 文字识别⭐⭐⭐⭐
Unstructured多模态文档解析⭐⭐⭐⭐

阶段四:工程落地(6-8 周)

目标

掌握推理部署、系统架构、评估监控和安全合规,能将应用推向生产。

4.1 推理部署(2 周)

flowchart TB
    subgraph 量化工具
        GPTQ["GPTQ<br/>训练后量化"]
        AWQ["AWQ<br/>激活感知量化"]
        GGUF["GGUF<br/>llama.cpp 格式"]
        BNB["BitsAndBytes<br/>训练时量化"]
        FP8["FP8<br/>H100 原生"]
    end
    subgraph 推理引擎
        VLLM["vLLM ★首选<br/>PagedAttention"]
        TRT["TensorRT-LLM<br/>NVIDIA 优化"]
        SGL["SGLang<br/>结构化生成"]
        LLACPP["llama.cpp<br/>CPU 推理"]
        OLLAMA["Ollama<br/>本地运行"]
    end
    subgraph 部署工具
        DOCKER["Docker"]
        K8S["Kubernetes"]
        TRITON["Triton Inference Server"]
        NGINX["Nginx 负载均衡"]
    end
    subgraph 优化技术
        FA["Flash Attention"]
        GQA2["GQA/MQA"]
        KVQ["KV Cache 量化"]
        SPEC["Speculative Decoding"]
        PC["Prefix Caching"]
        CB["Continuous Batching"]
    end

必学工具

工具用途优先级说明
vLLM ★高性能推理引擎⭐⭐⭐⭐⭐PagedAttention,生产首选
Ollama本地运行 LLM⭐⭐⭐⭐⭐最简单,一键运行
llama.cppCPU 推理⭐⭐⭐⭐消费级设备、边缘部署
TensorRT-LLMNVIDIA 优化⭐⭐⭐⭐最快,但绑定 NVIDIA
SGLang结构化生成优化⭐⭐⭐⭐JSON 输出、Agent 场景
GGUF 格式量化模型格式⭐⭐⭐⭐llama.cpp 使用
GPTQ / AWQ量化方法⭐⭐⭐⭐模型压缩
Docker容器化部署⭐⭐⭐⭐⭐标准交付方式
Kubernetes容器编排⭐⭐⭐⭐大规模部署
Triton推理服务器⭐⭐⭐NVIDIA 官方

推理部署学习清单

  • Ollama:本地运行 LLaMA/Qwen/DeepSeek
  • vLLM:部署 OpenAI 兼容 API 服务
  • vLLM 配置:TP、PP、GPU 利用率、最大序列长度
  • GGUF 量化:用 llama.cpp 量化模型
  • GPTQ/AWQ:GPU 推理的量化方案
  • Continuous Batching 理解和配置
  • Prefix Caching 配置
  • Docker 打包 LLM 服务
  • Docker Compose 多服务编排
  • 流式输出:SSE 实现
  • 负载均衡:Nginx / Traefik

4.2 系统架构(2 周)

必学技术说明优先级
FastAPILLM 服务 API 框架⭐⭐⭐⭐⭐
Redis缓存、会话存储⭐⭐⭐⭐
RabbitMQ / Kafka消息队列、异步处理⭐⭐⭐⭐
PostgreSQL + pgvector结构化数据 + 向量存储⭐⭐⭐⭐
Nginx / Traefik反向代理、负载均衡⭐⭐⭐⭐
Prometheus + Grafana监控和可视化⭐⭐⭐⭐
LangSmith / PhoenixLLM 可观测性⭐⭐⭐⭐⭐
Celery异步任务队列⭐⭐⭐

4.3 评估与监控(1-2 周)

必学技术说明优先级
RAGASRAG 评估⭐⭐⭐⭐⭐
lm-evaluation-harness模型评估基准⭐⭐⭐⭐
LangSmith追踪、评估、监控⭐⭐⭐⭐⭐
Phoenix (Arize)LLM 可观测性⭐⭐⭐⭐
MT-Bench / Arena对话评估⭐⭐⭐⭐
LLM-as-Judge用 GPT-4 评估⭐⭐⭐⭐

4.4 安全与合规(1 周)

必学技术说明优先级
NeMo Guardrails (NVIDIA)对话安全框架⭐⭐⭐⭐
Guardrails AI输出验证框架⭐⭐⭐⭐
Llama Guard安全分类模型⭐⭐⭐⭐
RebuffPrompt Injection 检测⭐⭐⭐
Prompt 注入检测关键词 + 分类器 + LLM 判断⭐⭐⭐⭐

阶段五:进阶提升(持续)

5.1 前沿技术追踪

方向必学内容优先级
推理模型o1/o3、DeepSeek-R1、Test-Time Compute⭐⭐⭐⭐⭐
高效架构Mamba、RWKV、RetNet、Jamba⭐⭐⭐⭐
长上下文100K-1M tokens,YaRN、LongRoPE⭐⭐⭐⭐
MoE 进阶DeepSeek-V3 的 MoE 设计⭐⭐⭐⭐
多模态原生GPT-4o、Gemini 2.0 原生多模态⭐⭐⭐⭐⭐
Agent 框架MCP 协议生态、Computer Use⭐⭐⭐⭐⭐
合成数据Evol-Instruct、Self-Play⭐⭐⭐⭐
模型合并SLERP、TIES、DARE⭐⭐⭐

5.2 开源项目参与

项目方向推荐参与方式
LangChain / LangGraphAgent 框架提 Issue、修 Bug、写文档
LlamaIndexRAG 框架贡献组件、写教程
vLLM推理引擎性能优化、新特性
LLaMA-Factory微调工具支持新模型、新方法
HuggingFace Transformers模型库支持新模型
Milvus / Qdrant向量数据库性能优化
llama.cppCPU 推理量化优化
OpenCLAWAgent 平台工具开发

5.3 完整技术栈速查表

flowchart TB
    subgraph 编程语言
        PY["Python ★核心"]
        TS["TypeScript(前端/Node)"]
        RS["Rust(高性能组件)"]
    end
    subgraph LLM调用
        OAI_SDK["openai SDK"]
        ANT_SDK["anthropic SDK"]
        HTTPX["httpx 异步调用"]
    end
    subgraph 应用框架
        LC2["LangChain"]
        LI["LlamaIndex"]
        LG2["LangGraph ★"]
        CREW["CrewAI"]
    end
    subgraph 数据层
        MIL["Milvus"]
        QD["Qdrant"]
        CH["Chroma"]
        PG["PostgreSQL + pgvector"]
        REDIS["Redis"]
    end
    subgraph 模型层
        HF["HuggingFace Transformers"]
        PEFT2["PEFT (LoRA)"]
        TRL["TRL (RLHF/DPO)"]
        LLF2["LLaMA-Factory"]
    end
    subgraph 推理层
        VLLM2["vLLM"]
        OLL["Ollama"]
        LLCPP["llama.cpp"]
    end
    subgraph 部署层
        DOCK["Docker"]
        K8S2["Kubernetes"]
        NGINX2["Nginx"]
        PROM["Prometheus + Grafana"]
    end
    subgraph 评估层
        RAGAS2["RAGAS"]
        LS2["LangSmith"]
        LME["lm-evaluation-harness"]
    end
    subgraph 安全层
        NEMO["NeMo Guardrails"]
        LG3["Llama Guard"]
        GA["Guardrails AI"]
    end

📋 完整技术栈 Checklist

阶段一 Checklist

  • Python 异步编程(asyncio)
  • FastAPI Web 框架
  • Pydantic 数据验证
  • Docker 基础
  • Git 版本控制
  • PyTorch 基础
  • HuggingFace Transformers
  • Scikit-learn 基础

阶段二 Checklist

  • Transformer 架构(能手写)
  • Attention 机制推导
  • KV Cache / GQA / Flash Attention
  • OpenAI API SDK
  • Anthropic API SDK
  • Prompt Engineering 技巧
  • Function Calling
  • 主流模型能力对比

阶段三 Checklist

  • LangChain(Chain/Agent/Tool/Memory)
  • LlamaIndex(Index/QueryEngine/Retriever)
  • LangGraph(State/Node/Edge/条件路由)
  • 向量数据库(Chroma/Milvus/Qdrant/FAISS)
  • Embedding 模型(BGE-M3/GTE-Qwen)
  • Rerank 模型(BGE-Reranker)
  • RAG 评估(RAGAS)
  • LLaMA-Factory / Unsloth 微调
  • PEFT(LoRA/QLoRA)
  • TRL(DPO/ORPO)
  • MCP 协议
  • 多模态模型(Qwen-VL/GPT-4o)

阶段四 Checklist

  • vLLM 部署
  • Ollama 本地运行
  • llama.cpp / GGUF 量化
  • GPTQ / AWQ 量化
  • Docker 容器化部署
  • Kubernetes 基础
  • Redis 缓存
  • Prometheus + Grafana 监控
  • LangSmith 追踪
  • NeMo Guardrails / Guardrails AI
  • RAGAS / lm-evaluation-harness

阶段五 Checklist

  • 推理模型(o1/R1)
  • Mamba/RWKV 新架构
  • MCP 生态工具
  • 开源项目贡献
  • 2-3 个完整项目作品
  • 技术博客/分享

⏱️ 时间规划

阶段时长核心产出
基础筑基4-6 周能写 Python + 能训简单模型
LLM 核心6-8 周能调 API + 能讲清原理
应用开发8-10 周能独立开发 RAG/Agent/微调
工程落地6-8 周能部署上线 + 监控运维
进阶提升持续能追踪前沿 + 开源贡献

有编程基础:3-4 个月可就业 零基础:6-8 个月可就业


🎯 能力模型

image.png

级别技术栈要求薪资参考
初级LangChain + Chroma + OpenAI API15-25K
中级LangGraph + Milvus + vLLM + LoRA 微调25-45K
高级全栈 + 分布式 + 系统设计 + 带队45-80K+