大模型知识图谱

大模型知识图谱

大模型知识图谱

Transform、模型预/后训练、模型推理、Agent

等 3 人订阅共18篇文章创建于2026-02-25

19-为什么AI工程这么喜欢"创造名词"：从Prompt到Skill的造词运动

引言：AI工程的"造词游戏" 如果你刚接触AI工程，肯定会被一堆高大上的术语搞晕：Prompt、SystemPrompt、Memory/Context、Function Calling、Tool、MC

1月前
327
6
2

18-其他类型Agent：从Plan-Execute到Multi-Agent协作

Agent架构全景在上一章中，我们学习了ReactAgent——通过交替进行推理和行动来解决问题。但ReactAgent并非唯一的Agent范式，不同的任务需要不同的架构。本章将介绍其他主流的Age

1月前
63
1
评论

17-ReactAgent：让AI学会"边思考边行动"

什么是ReactAgent？ ReactAgent是基于**ReAct（Reasoning and Acting）范式的智能体架构，让大模型通过交替进行推理（Reasoning）和行动（Acting）

1月前
87
1
评论

16-大模型量化技术：从FP16到INT4的极致压缩

什么是量化？量化（Quantization）是将模型参数和激活值从高精度表示（如FP32、FP16）转换为低精度表示（如INT8、INT4）的过程。为什么需要量化？以LLaMA-70B为例，看看

1月前
357
1
评论

15-DeepSeek的MLA技术：极致压缩KV Cache的创新方案

DeepSeek的MLA技术：极致压缩KV Cache的创新方案 MLA是什么？ MLA（Multi-head Latent Attention，多头潜在注意力）是DeepSeek在2024年发布De

1月前
190
1
评论

14-PagedAttention、FlashAttention与投机采样：推理优化三大技术

PagedAttention、FlashAttention与投机采样：推理优化三大技术大模型推理的三大瓶颈在上一章中，我们学习了KV Cache如何通过缓存已计算的K和V来加速推理。但即使有了KV

1月前
71
1
评论

13-KV Cache与位置编码表：大模型推理加速的核心技术

从自回归生成说起在前面的章节中，我们学习了大模型的核心原理：给定前面的Token序列，预测下一个Token。但是，当我们实际使用大模型进行文本生成时，会遇到一个严重的性能问题。自回归生成的过程假

1月前
89
1
评论

12-大模型数据质量工程

开篇：数据质量决定模型上限在大模型时代，有一句话越来越被验证："Garbage in, garbage out"（垃圾进，垃圾出）。真实案例：数据质量的巨大影响案例1：GPT-3到GPT-3.5

1月前
56
1
评论

11-训练大模型的实战技巧：梯度累加、NEFTune与FP8精度

训练大模型的实战技巧：梯度累加、NEFTune与FP8精度开篇：训练大模型的三大挑战在实际训练大模型时，我们常常面临这些困境：挑战1：显存不够，想用大batch size训不了示例： Batc

1月前
61
1
评论

10-让模型更小更聪明，学而不忘：知识蒸馏与持续学习

开篇：两个核心问题在大模型的实际应用中，我们常常面临两个看似矛盾的需求：问题1：模型太大怎么办？示例：场景问题边缘设备部署手机/IoT设备无法运行70B模型实时响应大模型推理延迟高（

1月前
124
1
评论

09-大模型后训练的对齐算法：PPO、DPO与GRPO

开篇：为什么需要对齐？经过SFT（监督微调）后，模型学会了遵循指令，但还不够"好"。示例：用户："如何学习编程？" SFT模型回答：问题：正确但太简略，缺乏具体指导。理想回答： SFT的问题

1月前
174
1
评论

08-大模型后训练的指令微调SFT：LoRA让大模型微调成本降低99%

为什么需要后训练？在上一章中，我们学习了大模型的预训练过程。预训练完成后，我们得到了一个基础模型（Base Model）。 Base Model的问题回顾：Base Model只会"续写"，不会"

1月前
124
1
评论

07-大模型的"基础教育"：预训练如何赋予模型语言能力？

什么是预训练？在上一章中，我们学习了训练的基本概念：前向传播、反向传播、梯度下降。现在让我们聚焦于大模型训练的第一阶段：预训练（Pre-training）。定义预训练（Pre-training)

1月前
46
1
评论

06-大模型如何"学习"：从梯度下降到AdamW优化器

大模型如何"学习"：从梯度下降到AdamW优化器引言：什么是"学习"？在前面的章节中，我们学习了Transformer的各个组件：注意力机制、MLP、残差连接、LM Head等。但有一个核心问题我

1月前
86
1
评论

05-从隐藏向量到文字：LM Head如何输出"下一个词"？

回顾：大模型的完整流程在前面的章节中，我们学习了Transformer的各个组件。现在让我们回顾一下完整流程： $$ \begin{aligned} &\text{输入：} \quad \text{

1月前
214
1
评论

04-残差连接与Pre-LN：让大模型的深度网络成为可能

深度网络的困境在前面的章节中，我们学习了注意力机制、位置编码和MLP层。现在让我们把它们组合成一个完整的Transformer层： $$ \begin{aligned} &\text{步骤1：多头注

1月前
82
1
评论

02-大模型位置编码详解：大模型如何理解顺序？

注意力机制的"位置盲区" 在上一章中，我们学习了注意力机制如何通过QKV矩阵计算Token之间的相关性。但这里有一个严重的问题：注意力机制天生是"位置不敏感"的！问题演示考虑以下两个句子： "猫

1月前
109
1
评论

01-注意力机制详解：大模型如何决定"该关注什么"？

从Token预测说起大语言模型的核心工作原理非常简单：给定前面的0到n个Token，预测第n+1个Token是什么。举个例子：输入："今天天气" 模型需要预测下一个词可能是："很好"、"不错"、

1月前
151
1
评论