面向 5 年以上后端开发者 | 不深入算法 | 聚焦工程实践与业务落地
读者画像:有 5 年以上后端开发经验,算法基础偏弱,希望系统掌握大模型技术栈,读完后能独立设计和落地大模型业务应用。
前言
- 为什么后端工程师现在必须了解大模型?
- 本书的阅读方式与学习路径
- 学完本书你能做什么?
第一部分:认知篇——大模型是什么,能做什么(3章)
第 1 章 大模型的前世今生
- 1.1 AI 的演进脉络:从规则系统到深度学习
- 1.2 语言模型的进化:Word2Vec → RNN → Attention → Transformer
- 1.3 大模型时代:GPT、BERT、ChatGPT 的横空出世
- 1.4 大模型与传统编程的本质区别
- 1.5 大模型能力全景图:文本、代码、推理、多模态
- 📌 插图:AI 技术演进时间线;大模型能力象限图
第 2 章 大模型的运作原理(只需知道这些)
- 2.1 "预测下一个词"——大模型工作的本质
- 2.2 Token 是什么?为什么它决定了费用和效果上限?
- 2.3 上下文窗口(Context Window):模型的"工作记忆"
- 2.4 温度(Temperature)与随机性:控制模型的输出风格
- 2.5 模型的"幻觉"问题:为什么大模型会一本正经地胡说?
- 2.6 大模型的能力边界:知识截止、推理弱点、安全风险
- 📌 插图:Token 切分示意图;上下文窗口示意图;幻觉成因图解
第 3 章 主流大模型产品与服务全览
- 3.1 国际主流:GPT 系列、Claude、Gemini
- 3.2 国内主流:文心一言、通义千问、DeepSeek、Kimi
- 3.3 开源模型:LLaMA、Qwen、ChatGLM——什么时候用开源?
- 3.4 云厂商 API 服务横向对比(能力、价格、限速)
- 3.5 如何选择适合业务场景的模型?选型决策树
- 📌 插图:主流模型能力对比表;模型选型决策树
第二部分:调用篇——怎么把大模型接入你的系统(3章)
第 4 章 大模型 API 快速上手
- 4.1 OpenAI API 接入:从注册到第一次请求
- 4.2 请求结构详解:messages、role、system / user / assistant
- 4.3 流式输出(Streaming):让响应像"打字机"一样出来
- 4.4 Function Calling:让模型主动调用你的业务接口
- 4.5 结构化输出(JSON Mode):拿到可直接解析的返回值
- 4.6 国内 API 的接入差异与适配技巧
- 📌 插图:API 请求/响应结构图;Function Calling 交互时序图
第 5 章 Prompt Engineering——与大模型高效沟通
- 5.1 Prompt 是什么?为什么写法不同效果差异这么大?
- 5.2 基础技巧:Zero-shot、Few-shot、角色扮演
- 5.3 进阶技巧:思维链(CoT)、ReAct、自我反思(Self-Reflection)
- 5.4 System Prompt 的作用:给模型定角色、规则和输出格式
- 5.5 结构化输出:让模型返回 JSON / Markdown / 固定模板
- 5.6 Prompt 的版本管理与工程化实践
- 5.7 常见 Prompt 反模式与避坑指南
- 📌 插图:好坏 Prompt 效果对比;思维链推理示意图;Prompt 工程化流程图
第 6 章 上下文工程(Context Engineering)
- 6.1 上下文窗口的本质:模型"看见"什么,就只知道什么
- 6.2 上下文的四个区域:System / 记忆 / 工具结果 / 当前输入
- 6.3 长对话上下文管理策略:截断、摘要、压缩
- 6.4 信息密度优化:如何让有限的 Token 发挥最大作用
- 6.5 多轮对话的状态管理:会话历史的存储与注入
- 6.6 KV Cache 与上下文复用:降本提速的工程技巧
- 📌 插图:上下文四区域示意图;对话历史压缩策略图;Token 信息密度对比
第三部分:主流框架篇——站在巨人的肩膀上(2章)
第 7 章 主流开发框架与工具链
- 7.1 LangChain:大模型应用的"Spring 框架",核心模块详解
- 7.2 LangGraph:有状态的 Agent 工作流编排
- 7.3 LlamaIndex:以数据为核心的 RAG 框架
- 7.4 Spring AI:Java 后端的首选集成方案
- 7.5 低代码平台:Dify、FastGPT——快速搭建原型
- 7.6 框架选型建议:不同场景该用哪个?
- 📌 插图:LangChain 核心模块架构图;框架选型对比表
第 8 章 MCP 与新兴协议
- 8.1 MCP(Model Context Protocol)是什么?解决什么问题?
- 8.2 MCP 的核心概念:Server、Client、Tool、Resource
- 8.3 如何为你的业务系统实现一个 MCP Server?
- 8.4 A2A(Agent-to-Agent)协议:多 Agent 通信标准
- 8.5 新协议对系统架构的影响
- 📌 插图:MCP 架构图;传统 API vs MCP 对比图
第四部分:核心能力篇——大模型的三大落地范式(3章)
第 9 章 RAG(检索增强生成)——让模型"知道"你的业务数据
- 9.1 为什么大模型不直接"记住"你的数据?
- 9.2 RAG 的完整流程:分块 → Embedding → 检索 → 生成
- 9.3 Embedding 模型:把文本转成向量的技术原理与选型
- 9.4 向量数据库选型:Milvus、Chroma、Qdrant、pgvector
- 9.5 高级 RAG:查询改写、HyDE、多路召回、Re-ranking
- 9.6 RAG 效果评估:RAGAS 框架与核心指标
- 9.7 RAG vs 微调:什么时候该用哪个?
- 📌 插图:RAG 完整流程图;向量检索示意图;高级 RAG 架构对比图
第 10 章 Agent——让模型自主完成复杂任务
- 10.1 什么是 Agent?从"问答"到"自主行动"的跨越
- 10.2 感知 → 推理 → 行动:Agent 的工作循环
- 10.3 工具(Tools)的设计、注册与调用
- 10.4 Agent 架构模式:ReAct、Plan-and-Execute、Reflection
- 10.5 Agent 的记忆:短期记忆、长期记忆、工作记忆设计
- 10.6 Multi-Agent:多个 Agent 协作完成复杂任务
- 10.7 Agent 的可靠性问题:如何防止"越界"与无限循环?
- 📌 插图:ReAct 运行流程图;Agent 记忆架构图;Multi-Agent 协作示意图
第 11 章 微调(Fine-tuning)——让模型专注于你的领域
- 11.1 什么时候需要微调?Prompt 工程什么时候不够用?
- 11.2 微调的基本流程与成本评估
- 11.3 LoRA / QLoRA:低成本微调的主流方案
- 11.4 训练数据的准备、清洗与质量控制
- 11.5 微调后的模型评估与部署上线
- 📌 插图:微调 vs Prompt Engineering 决策图;LoRA 原理简图;微调全流程图
第五部分:工程篇——在生产环境稳定运行大模型(4章)
第 12 章 大模型应用的系统架构设计
- 12.1 大模型应用与传统业务系统的架构差异
- 12.2 典型架构模式:问答系统、对话系统、自动化流水线
- 12.3 异步处理与流式响应的工程实现
- 12.4 多模型路由:不同任务调不同模型降本增效
- 12.5 模型服务化部署:vLLM/TGI 推理加速、量化、API 网关
- 📌 插图:大模型应用标准架构图;多模型路由决策图
第 13 章 可观测性与质量保障
- 13.1 大模型调用的日志记录与链路追踪
- 13.2 如何评估模型输出的质量?
- 13.3 LLM 测试策略:Prompt 单测、回归测试
- 13.4 A/B 测试 Prompt 与模型效果
- 13.5 常用可观测工具:LangSmith、Langfuse、Phoenix
- 📌 插图:大模型调用链路追踪示意图;评测体系框架图
第 14 章 成本控制与性能优化
- 14.1 Token 消耗分析与账单管理
- 14.2 缓存策略:Semantic Cache 相似请求复用
- 14.3 请求压缩:对话历史摘要与上下文裁剪
- 14.4 本地部署 vs 云端 API:成本与效果的取舍
- 14.5 模型量化:用更少资源跑开源模型
- 📌 插图:Token 费用结构图;Semantic Cache 工作原理图
第 15 章 安全、合规与风险控制
- 15.1 Prompt 注入攻击:是什么,如何防御?
- 15.2 数据隐私:敏感信息不能喂给第三方模型
- 15.3 内容安全:输出过滤、违规拦截、护栏(Guardrails)设计
- 15.4 模型幻觉的业务风险与防控手段
- 15.5 国内监管要求:算法备案与合规要点
- 📌 插图:Prompt 注入攻击示例;安全防护分层架构图
第六部分:实战篇——典型业务场景从 0 到 1(4章)
第 16 章 智能客服系统
- 16.1 需求分析与方案设计
- 16.2 意图识别 + RAG 知识库问答
- 16.3 无法回答时的人工转接策略
- 16.4 对话质量监控与持续优化
- 📌 插图:智能客服系统架构图;意图识别流程图
第 17 章 企业知识库与智能搜索
- 17.1 场景痛点:文档散乱、知识无法沉淀
- 17.2 多源数据接入:PDF、Word、数据库、Confluence
- 17.3 权限控制:不同角色只能搜索各自权限范围
- 17.4 混合检索(关键词 + 向量)效果优化
- 📌 插图:企业知识库整体架构;权限隔离模型图
第 18 章 AI 辅助开发与 DevOps 智能化
- 18.1 代码生成、代码审查、单元测试自动生成
- 18.2 将大模型嵌入 CI/CD 流水线
- 18.3 智能告警分析:日志 → 根因自动定位
- 18.4 实战:一个自动生成 API 文档的 Agent
- 📌 插图:AI 辅助开发工作流图;CI/CD 集成示意图
第 19 章 数据分析与报告自动化
- 19.1 Text-to-SQL:用自然语言查数据库
- 19.2 数据可视化建议与自动解读
- 19.3 周报 / 月报自动生成实践
- 19.4 NL2API:自然语言调用业务接口
- 📌 插图:Text-to-SQL 处理流程图;报告自动生成流程图
第七部分:展望篇——下一步在哪里(2章)
第 20 章 多模态与下一代模型能力
- 20.1 图像理解与生成:Vision 模型的业务场景
- 20.2 语音交互:实时语音对话系统
- 20.3 视频理解:正在爆发的新方向
- 20.4 端侧模型:在设备上本地运行 AI
- 20.5 推理模型(o1/R1):更强的逻辑推理能力
- 📌 插图:多模态能力全景图;推理模型 vs 生成模型对比
第 21 章 AI Native 应用的设计哲学与工程师的未来
- 21.1 从"功能驱动"到"意图驱动"的交互设计
- 21.2 如何设计对"幻觉友好"的系统架构?
- 21.3 人机协作模式:AI 建议,人类决策
- 21.4 后端工程师在 AI 时代的核心竞争力在哪里?