首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
大模型知识图谱
树獭叔叔
创建于2026-02-25
订阅专栏
Transform、模型预/后训练、模型推理、Agent
等 3 人订阅
共18篇文章
创建于2026-02-25
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
19-为什么AI工程这么喜欢"创造名词":从Prompt到Skill的造词运动
引言:AI工程的"造词游戏" 如果你刚接触AI工程,肯定会被一堆高大上的术语搞晕:Prompt、SystemPrompt、Memory/Context、Function Calling、Tool、MC
18-其他类型Agent:从Plan-Execute到Multi-Agent协作
Agent架构全景 在上一章中,我们学习了ReactAgent——通过交替进行推理和行动来解决问题。但ReactAgent并非唯一的Agent范式,不同的任务需要不同的架构。本章将介绍其他主流的Age
17-ReactAgent:让AI学会"边思考边行动"
什么是ReactAgent? ReactAgent是基于**ReAct(Reasoning and Acting)范式的智能体架构,让大模型通过交替进行推理(Reasoning)和行动(Acting)
16-大模型量化技术:从FP16到INT4的极致压缩
什么是量化? 量化(Quantization)是将模型参数和激活值从高精度表示(如FP32、FP16)转换为低精度表示(如INT8、INT4)的过程。 为什么需要量化? 以LLaMA-70B为例,看看
15-DeepSeek的MLA技术:极致压缩KV Cache的创新方案
DeepSeek的MLA技术:极致压缩KV Cache的创新方案 MLA是什么? MLA(Multi-head Latent Attention,多头潜在注意力)是DeepSeek在2024年发布De
14-PagedAttention、FlashAttention与投机采样:推理优化三大技术
PagedAttention、FlashAttention与投机采样:推理优化三大技术 大模型推理的三大瓶颈 在上一章中,我们学习了KV Cache如何通过缓存已计算的K和V来加速推理。但即使有了KV
13-KV Cache与位置编码表:大模型推理加速的核心技术
从自回归生成说起 在前面的章节中,我们学习了大模型的核心原理:给定前面的Token序列,预测下一个Token。但是,当我们实际使用大模型进行文本生成时,会遇到一个严重的性能问题。 自回归生成的过程 假
12-大模型数据质量工程
开篇:数据质量决定模型上限 在大模型时代,有一句话越来越被验证:"Garbage in, garbage out"(垃圾进,垃圾出)。 真实案例:数据质量的巨大影响 案例1:GPT-3到GPT-3.5
11-训练大模型的实战技巧:梯度累加、NEFTune与FP8精度
训练大模型的实战技巧:梯度累加、NEFTune与FP8精度 开篇:训练大模型的三大挑战 在实际训练大模型时,我们常常面临这些困境: 挑战1:显存不够,想用大batch size训不了 示例: Batc
10-让模型更小更聪明,学而不忘:知识蒸馏与持续学习
开篇:两个核心问题 在大模型的实际应用中,我们常常面临两个看似矛盾的需求: 问题1:模型太大怎么办? 示例: 场景 问题 边缘设备部署 手机/IoT设备无法运行70B模型 实时响应 大模型推理延迟高(
09-大模型后训练的对齐算法:PPO、DPO与GRPO
开篇:为什么需要对齐? 经过SFT(监督微调)后,模型学会了遵循指令,但还不够"好"。 示例: 用户:"如何学习编程?" SFT模型回答: 问题:正确但太简略,缺乏具体指导。 理想回答: SFT的问题
08-大模型后训练的指令微调SFT:LoRA让大模型微调成本降低99%
为什么需要后训练? 在上一章中,我们学习了大模型的预训练过程。预训练完成后,我们得到了一个基础模型(Base Model)。 Base Model的问题 回顾:Base Model只会"续写",不会"
07-大模型的"基础教育":预训练如何赋予模型语言能力?
什么是预训练? 在上一章中,我们学习了训练的基本概念:前向传播、反向传播、梯度下降。现在让我们聚焦于大模型训练的第一阶段:预训练(Pre-training)。 定义 预训练(Pre-training)
06-大模型如何"学习":从梯度下降到AdamW优化器
大模型如何"学习":从梯度下降到AdamW优化器 引言:什么是"学习"? 在前面的章节中,我们学习了Transformer的各个组件:注意力机制、MLP、残差连接、LM Head等。但有一个核心问题我
05-从隐藏向量到文字:LM Head如何输出"下一个词"?
回顾:大模型的完整流程 在前面的章节中,我们学习了Transformer的各个组件。现在让我们回顾一下完整流程: $$ \begin{aligned} &\text{输入:} \quad \text{
04-残差连接与Pre-LN:让大模型的深度网络成为可能
深度网络的困境 在前面的章节中,我们学习了注意力机制、位置编码和MLP层。现在让我们把它们组合成一个完整的Transformer层: $$ \begin{aligned} &\text{步骤1:多头注
02-大模型位置编码详解:大模型如何理解顺序?
注意力机制的"位置盲区" 在上一章中,我们学习了注意力机制如何通过QKV矩阵计算Token之间的相关性。但这里有一个严重的问题: 注意力机制天生是"位置不敏感"的! 问题演示 考虑以下两个句子: "猫
01-注意力机制详解:大模型如何决定"该关注什么"?
从Token预测说起 大语言模型的核心工作原理非常简单:给定前面的0到n个Token,预测第n+1个Token是什么。 举个例子: 输入:"今天天气" 模型需要预测下一个词可能是:"很好"、"不错"、