10分钟速通AI黑话

190 阅读7分钟

大模型知识框架:从原理到训练,看懂 AI 背后的逻辑

每天清晨,我们总会被各种 AI 新闻刷屏:“XX 大模型参数突破万亿”“AI 神器实现突破性功能”…… 这些新闻让我们兴奋地见证着技术浪潮,却也常常在密密麻麻的专业名词前感到困惑。“Transformer 架构”“自监督学习”“RLHF” 这些词汇像密码一样阻碍着我们理解 AI 的真相。若你也想在喧嚣的 AI 新闻中掌握正经知识,建立对大模型的系统认知,不妨跟随这篇文章,一起搭建大模型的知识框架,看懂那些让人 “不明觉厉” 的技术细节。

大模型的基础运作:从提示词到 token 续写

当你在手机上打开 DeepSeek、豆包或 ChatGPT 等应用时,你正在与大语言模型(LLM)对话。这些模型本质上是通过 “续写” 来生成回答的智能系统。你的提问被称为 “prompt 提示词”,会先被 “分词器” 切割成一个个 “token”—— 这是大模型理解内容的最小单元,每个 token 对应一个数字编号(token ID)。大模型的核心任务,就是计算在现有 token 序列后应该续写哪些 token。

核心技术支撑:Transformer 架构与自注意力机制

支撑这一过程的核心技术是 “Transformer 架构”,它凭借 “自注意力机制” 能精准捕捉上下文关联。计算时,模型会逐个生成 token:每生成一个新 token,就将其加入原有序列,再输入模型计算下一个 token,如此循环直至输出完整回答。因此,大模型的本质就是不断续写 token 串。

功能增强技巧:RAG 技术提升输出准确性

在实际使用中,你可能会开启 “联网搜索” 或 “外挂私人知识库” 功能,这其实是利用了 “RAG(检索增强生成)” 技术。简单来说,就是先将互联网或知识库中的相关内容加入 token 序列,再让模型开始续写,以此提升输出的准确性。无论是基础对话还是增强功能,都离不开这一核心流程。

模型能力的关键:参数与缩放定律

大模型的能力与 “参数” 密切相关。参数是模型内部用于计算的复杂数学表达式中的可调变量,其数量常被视为模型能力的重要指标,这一规律被称为 “scaling law(缩放定律)”—— 通俗说就是 “大力出奇迹”。许多模型名称会直接标注参数规模(B 代表 10 亿),比如 GPT-3 有 1750 亿参数,满血版 DeepSeek 已达 6710 亿参数,部分厂商甚至开始研发万亿参数模型。

模型效率优化:稀疏模型与 MOE 架构

不过,参数规模并非越大越好。传统 “稠密模型” 每次计算都调动全部参数,如同 “全情投入” 却效率不高;而 “稀疏模型” 则更 “冷静”,只激活与问题相关的部分参数,大幅降低计算量、提升速度。目前流行的 “MOE(混合专家模型)” 就是典型的稀疏模型,如马斯克的 Grok 和 DeepSeek 均采用此架构。它们通过 “门控网络” 为不同问题分配适配的 “专家模块” 并赋予权重,最终生成结果,兼顾效率与性能。

大模型的诞生流程:预训练筑基

从无到有打造大模型,需经历 “预训练→后训练→强化学习” 的完整流程。

预训练是基础,目标是让模型掌握人类知识和语言规律,打造 “基座模型”。这一阶段依赖海量互联网数据,通过 “自监督学习” 让模型自主学习:人类无需手动标注数据,只需让模型从数据中自我调校。核心技术是 “反向传播”:当模型输出结果(前向传播)与目标存在偏差时,计算 “损失值”,反向追踪误差来源并调整对应参数,循环优化直至结果逼近目标。预训练耗时耗力,往往需要数月甚至数年,以及大量显卡支持,这也让英伟达创始人黄仁勋成为 AI 热潮的大赢家。预训练完成后,基座模型如同 “互联网模拟器”,能对各类输入生成合理 token 序列,但通常无法直接使用。

大模型的诞生流程:后训练塑形

后训练的核心是将通用基座模型转化为特定功能的 “打工人”,关键步骤是 “监督微调(SFT)”。此时需要人类标注员介入,提供带标注的专业数据集(如对话数据、医学知识等),让模型模仿数据风格生成内容。例如,要打造对话助手,就喂入对话数据集;要做法律专家,就输入法律知识。这一阶段的数据集规模远小于预训练,如开源对话数据集 OpenAssistant 仅含 16 万条对话(中文不足 5000 条),却足以让基座模型成为合格助手。有趣的是,数据标注员的工作也成为 AI 时代的新职业,虽多为重复劳动,但门槛较低,甚至被网友调侃为 “未来向硅基生物投诚的资本”。

大模型的诞生流程:强化学习赋魂

经过监督微调的模型已能基本使用,但还只是 “复读机”—— 缺乏灵魂,仅能搬运知识。要注入 “灵魂”,需进入后训练的关键环节:“强化学习(RL)”。通过强化学习,模型输出会更符合人类偏好,甚至展现超越人类的智力。

强化学习的思路巧妙多样。以 DeepSeek 的 GRPO 方案为例:给定问题后,让模型生成数十种解决方案,筛选正确答案并保留其思路,再让模型模仿这些思路继续生成,循环优化。这一过程能让模型自主筛选有效思路,甚至涌现出人类未曾设想的解决方案,实现能力突破。

面向主观任务的优化:RLHF 技术

对于无标准答案的任务(如写诗、写文章),则需 “RLHF(基于人工反馈的强化学习)”。数据标注员先对模型生成的答案按偏好排序,再据此训练 “奖励模型(RM)”。之后,模型生成的答案会由奖励模型打分,模型再根据反馈持续优化,最终输出更符合人类审美的内容。从某种角度说,大模型的 “个性” 实则反映了背后标注员的偏好 —— 你对话的 “AI 女友”,背后可能是位有共同爱好的大汉。

技术竞争焦点:强化学习的实际应用

如今,强化学习已是技术竞争的核心领域。例如 DeepSeek R1 的强大推理能力(COT 思维链),就源于团队在监督微调阶段注入 60 万条推理数据,再通过 GRPO 流程引导模型筛选有效思路,最终实现突破。

轻量化大模型:蒸馏与量化技术

值得注意的是,个人电脑上部署的大模型多为 “蒸馏模型” 或 “量化模型”。蒸馏模型如同 “高仿版”,用小参数模型学习大模型的输出结果;量化模型则是 “压缩版”,通过降低参数精度减小体积。这些轻量化处理,让普通设备也能体验大模型功能。

掌握这些知识,再看 AI 新闻时,你便不会被 “Transformer”“MOE”“RLHF” 等名词劝退。大模型的世界虽复杂,但核心框架清晰:从 token 续写的基本原理,到预训练筑基、后训练塑形、强化学习赋魂的完整流程,再到稀疏化、蒸馏等优化技术,每个环节都藏着 AI 进步的密码。当你理解了这些,便真正踏入了 AI 的大门,能在技术浪潮中看清方向、理性判断。

更多大模型知识

↓↓↓↓↓↓↓↓

【码上有模力】