读懂大模型:一切 AI 应用的起点

5 阅读22分钟

前言

在春招求职的过程中,我愈发清晰地感受到:当下技术就业市场的新蓝海,已然向大模型及相关 AI 领域倾斜。作为一名求职者,主动学习并掌握大模型相关的前沿知识,已然成为提升自身竞争力的关键。

在此之前,我零散地接触过各类 AI 技术知识,包括大模型基础、MCP、Function Call、Agent 等内容,但学习途径多局限于技术博客与 YouTube 视频,始终缺乏一套完整、体系化的学习路径与知识框架。

因此,我决定在接下来的时间里,对这些知识进行系统性梳理与深度学习,以此夯实技术基础,强化求职核心竞争力。而本篇文章,便是我系统学习的起点 —— 我将先从大模型的基础概念入手。毕竟,相较于如今遍地开花的 Agent 应用,乃至未来可期的 AGI,大模型(Large Models)才是这一切技术形态的最初源头与核心根基

什么是大模型?

很多人接触过各种各样的大模型,但是你能否准确的介绍出 ”什么是大模型”?

大模型通常是指训练数据庞大、参数规模巨大、能力强大的深度神经网络模型

这里的训练数据、参数规模庞大大家乍一听可能没什么概念,接下来给大家看一些量化的数据:通常,大模型的参数量在10亿以上,目前顶尖模型的参数规模已达到万亿级别。也就意味着:如果你的模型参数量没有达到十亿以上,不好意思,那你暂时还没资格被称为大模型

给大家举个例子 在下图中,可以看见GPT-3这样的模型参数量又1750亿,DeepSeek-V3这样的大型模型参数量有6710亿,而BERT(NLP(自然语言处理)领域里里程碑式的预训练语言模型,由 Google 在 2018 年提出)这种模型则只有3亿参数,处理一些小文本场景还好,处理一些复杂的上下文它的参数量不够,没有办法 image.png


为什么会出现大模型?

大模型的出现并非偶然,而是数据算力模型架构协同演进的结果。

1)数据够多:训练范式的改变使得训练数据规模获得了数量级上的跃迁

image.png

为什么现在的大模型数量级能够巨幅上升呢?

原因其实在于:

  • 传统监督学习高度依赖人工标注数据(对原始数据进行标记、分类、注释或结构化的过程,便于机器可识别和理解),获取成本高、规模受限,例如

    1. 分类标注:为整张图像分配类别标签(如"猫"、"狗",人工标注的)
    2. 命名实体识别:标注文本中的人名、地名、组织名等实体
    3. 情感分析:标注文本的情感倾向(正面、负面、中性)
    4. 语音转写:将语音内容转换为文本
  • 而大模型主要采用自监督学习范式(如“预测下一个token”),能够直接利用海量的未标注文本与多模态数据进行模型的训练,可用数据规模获得了数量级上的跃迁。

    1. 自监督学习,本质上属于无监督学习的一种特殊形式,但采用了监督学习的训练方式。核心思 想是利用数据本身的内在结构或属性,自动为无标签数据生成伪标签,然后像监督学习一样训 练模型,无需依赖人工标注。比如,掩码语言建模。
    2. 如Qwen3的预训练阶段使用了约36T个token(近似理解为词)的语料,这一数据规模远超 传统机器学习时代的训练数据总量

image.png

2)算力够强:GPU/TPU等并行计算设备性能发展与分布式训练成熟

image.png

深度学习训练本质是大规模矩阵运算,这类计算具有高度并行性,与GPU/TPU的硬件架构天然契合。

随着硬件性能的不断提升,单卡算力不断突破,目前英伟达最新一代的B200在FP16(半精度浮点数)条件下的峰值算力已达5PFLOPS(每秒约次浮点运算,)。

简单来说就是GPU的计算能力越来越强了,越来越能支持更大数据量的运算了

3)架构合理:Transformer架构的出现

Transformer架构支持并行计算,并且在模型规模、数据规模、训练步数(算力开销)提升时展现出稳 定的性能收益(即良好的“可扩展性”,如下图所示,图中的Test Loss表示损失函数的值,用于衡量模 型性能)。

image.png

相对于传统的相比 RNN/LSTM 只能逐步传递信息,Transformer的自注意力能直接计算任意两个位置的关联,解决了长文本语义建模难题。

综上,数据规模的跃迁、算力基础设施的发展,和Transformer架构优异的可扩展性,共同推动了模型 规模和性能的持续膨胀,迎来了“大模型时代”。

大模型的计量单位

在大语言模型(LLM)及更一般的大模型研究中,通常从参数规模、训练数据集规模和计算规模三个维 度来度量模型的规模。

1)参数规模(Parameters Scale)

什么是LLM的参数? 参数是指深度神经网络里面“神经元数量、层数、神经元权重、神经元偏移量、超参数”等数据的集合。

image.png

大模型参数规模通常以B为单位,B是Billion的缩写,即10亿,。如:7B模型的参数量为70亿。

2)训练数据集规模

LLM的训练是在文本语料上进行的,语料处理的第一步是分词为一系列token,所以通常用token的数 量衡量LLM训练数据集规模。
1B token =token =10亿token
1T token =B token =token =1万亿token

说明:token是什么
可能是一个英文单词,也可能是半个,三分之一个
可能是一个中文词,或者一个汉字

token是计算机理解人类语言的基础单位。大模型在开训前,需要先训练一个tokenizer模型。它能把所 有的文本,切成token。这里提供一个网站大家可以测试转化token的效果 platform.openai.com/tokenizer

大模型的四要素

大模型由四个要素构成:模型权重(参数)、推理代码、训练代码、训练数据集。

image.png

一、模型权重(参数)—— 模型的 “大脑 + 知识”

1. 它是什么?

  • 就是你之前看到图里的 w(权重)、b(偏置) 等所有数值
  • 是一堆巨大的数字文件(.bin / .pth / .safetensors)
  • 是模型训练完成后得到的最终成果

2. 它的作用

  • 存储模型学会的语言规律、知识、逻辑、常识
  • 决定模型回答得准不准、聪不聪明
  • 参数越多 = 脑容量越大(7B、13B、70B、175B 都是指它)

3. 类比

模型权重 = 一本书的全部内容你问问题 → 模型查这本书 → 给出答案

二、推理代码 —— 让模型 “说话 / 回答” 的程序

1. 它是什么?

  • 一套轻量代码(相对于训练代码来说)
  • 负责加载权重,然后接收你的问题,输出回答
  • 不学习、不更新、不训练,只负责 “使用模型”

2. 它的作用

  • 读入你的输入(prompt)
  • 调用模型权重做计算
  • 输出文本(回答、写作、翻译、代码)

3. 类比

推理代码 = 读书的人权重 = 书人拿着书,帮你查问题、念答案

4. 我们日常用的所有 AI 都靠它

ChatGPT、文心一言、Llama 聊天、通义千问 …… 后台跑的都是推理代码

三、训练代码 —— 教会模型知识的 “教学程序”

1. 它是什么?

  • 一套复杂、工程化的代码
  • 负责:初始化模型 → 读数据 → 计算损失 → 更新权重 → 保存模型
  • 只有训练模型时才会用到

2. 它的作用

  • 从 0 开始训练一个大模型
  • 不断调整权重 w、b,让模型越来越聪明
  • 支持多卡、分布式、大规模训练

3. 类比

训练代码 = 老师 + 教学方法训练数据集 = 课本老师用课本教学生 → 学生学会知识 → 得到最终的 “权重”

4. 只有大厂 / 研究机构会用

训练代码极复杂,普通人基本用不到。

四、训练数据集 —— 模型学习用的 “课本”

1. 它是什么?

  • 海量文本数据:网页、书籍、文章、百科、对话、代码等
  • 是纯文本内容,不是代码也不是模型

2. 它的作用

  • 让模型学习语言、逻辑、事实、常识
  • 数据决定模型上限

3. 常见规模

  • 小模型:1 亿~10 亿词
  • 大模型:1 万亿~10 万亿词

4. 类比

训练数据集 = 从小学到博士的全部教材

注意:训练代码和推理代码99%都是用Python写的

  • 框架全是 Python 接口(PyTorch、TensorFlow、JAX、MindSpore)
  • 写得快、调试快、生态无敌
  • 数据处理、分布式、日志、绘图全靠 Python

大模型的分类

以下是从其它地方得到的 大模型分类的图表:

分类标准类别示例
按照模态分类大语言模型Qwen3/DeepSeek-V3/GPT-5语言模块
多模态理解模型Qwen3-VL/GPT-5/Gemini-3
多模态生成模型Nano-Banana/Stable Diffusion/DALL·E
按照功能分类生成式大模型GPT-5/DeepSeek-V3/Qwen3
嵌入模型BGE/E5/GTE
重排序模型BGE-Reranker/ms-marco-MiniLM
分类模型通常是经过微调的小尺寸模型

关于这一部分内容,这里先不详细展开介绍,后面作者有空了会专门更新一篇文章来介绍大模型的分类,并且客观地分析市场上主流的大模型的一些优缺点

理解模型能力来源

接下来我们来聊聊大模型训练阶段中的模型能力来源
所以在训练阶段中,我们到底做了那些事情,能够让大模型能够精准地回答我们的问题呢?
(注意:下面所探讨的是针对于大语言模型,多模态模型由于涉及多种模态输入,其训练目标,数据构成及优化策略差异较大,尚未形成一定的范式,故不在探讨范围内)

image.png

环节1:预训练

预训练是大语言模型的 “筑基阶段” ,也是整个训练流程中耗时最长、算力消耗最大、数据量需求最多的环节,相当于让模型从“零基础”变成“饱读诗书的学者”,奠定所有核心能力的基础,我们日常说的千亿、万亿参数模型,核心就是在这个阶段训练完成的。

核心前提:硬件与物料准备
这个环节需要用到我们之前聊过的训练代码、海量训练数据集,搭配大规模GPU集群开展工作。训练数据集以海量无标注文本为主,包含书籍、网页、百科、优质文章、代码库等,规模通常达到万亿tokens级别,是模型学习语言规律和知识的核心原料。

核心目标
让模型掌握通用语言规律、基础逻辑推理、海量事实知识,学会语法、语义、上下文关联,能够完成文本续写、通顺表达等基础任务,本质是让模型的参数(权重)记住海量知识和语言模式。

核心流程

  1. 模型初始化:基于Transformer架构搭建大模型骨架,所有参数(权重、偏置)随机初始化,此时模型完全没有任何知识和语言能力。
  2. 无监督学习:采用“下一个词预测”的核心训练目标,给模型输入一段文本,让它预测下一个最可能出现的词,不断循环这个过程。
  3. 参数迭代优化:训练代码通过反向传播算法,不断调整模型参数,缩小预测误差,经过数十亿甚至上万亿次迭代,让参数逐渐收敛。
  4. 产出基座模型:预训练结束后,得到基座模型(Base Model) ,也就是纯模型权重文件,这是大模型的核心本体。

基座模型拥有极强的语言生成能力、知识储备、逻辑理解能力,能读懂文本、续写内容、做简单推理,但它没有“服务意识”,不会按照人类的指令回答问题,更擅长文本续写,而非直接回应提问,比如你问“1+1等于几”,它可能会续写“1+1等于几,在数学中是基础运算问题”,而不是直接给出答案。

预训练决定了模型的能力上限,数据质量、数据规模、模型参数大小、训练时长,直接影响模型的知识广度、推理深度,后续环节无法突破这个上限,只能优化输出形式。

环节2:SFT(监督微调)

SFT全称是Supervised Fine-Tuning,即监督微调,是大模型的 “规矩养成阶段” ,相当于把饱读诗书但不懂人情世故的基座模型,教成“能听懂人话、按指令做事”的助手,让模型从“被动续写”转变为“主动响应指令”。

核心物料
基于预训练好的基座模型权重,搭配高质量有标注指令数据集,数据集由人工整理,格式为“指令+输入+标准答案”,比如“指令:解答数学题,输入:1+1=?,标准答案:2”,数据量远小于预训练,通常百万级到千万级tokens即可,训练代码也更轻量化。

核心目标
让模型学会理解人类指令、遵循指令完成任务,掌握问答、总结、翻译、写作等实用技能,输出内容贴合人类的使用习惯,不再是无意义的文本续写

核心流程
加载基座权重:不重新训练模型,只在预训练好的参数基础上做小幅度微调,避免破坏已学到的知识。
监督学习训练:用指令数据集训练模型,让模型学习“输入指令→输出标准回答”的映射关系,优化输出的准确性和规范性。
产出SFT模型:微调完成后,模型已经能基本听懂指令,回答问题也更贴合需求,具备了实用价值,但此时模型可能存在回答生硬、逻辑矛盾、甚至输出有害内容的问题。

训练成本远低于预训练,耗时短、算力需求小,是快速优化模型实用性的核心环节,但单纯的SFT无法解决模型输出偏见、有害信息、不符合人类价值观的问题,需要后续对齐环节优化。

环节3:RLHF/RLAIF(对齐优化)

RLHF(Reinforcement Learning from Human Feedback)通过人类反馈来优化模型输出,使其更符 合人类偏好和价值观;RLAIF(Reinforcement Learning from AI Feedback)是RLHF的扩展(“自动化版本”),使用AI模型代替人类进行反馈和打分。

核心目标
让模型 “更安全、更有用、更符合人类偏好”

这是大模型从 “能用” 到 “好用、可信” 的最后一步,也叫对齐(Alignment)

RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)

  • 步骤:人工对模型回答进行排序 → 训练奖励模型(RM)→ 使用 PPO 等强化学习算法优化模型,使其输出更符合人类偏好。
  • 作用:提升回答的有用性、逻辑性、诚实性,减少有害、偏见、胡说内容。

RLAIF(Reinforcement Learning from AI Feedback,基于 AI 反馈的强化学习)

  • 用更强的大模型替代人类进行标注和排序,大幅降低成本、提升效率、扩展规模。
  • 是当前主流大厂对齐的主流方案之一。
  • 产出结果:得到对齐后的对话模型(Chat Model) ,也就是我们日常使用的 ChatGPT、文心一言、Llama Chat 等产品背后的模型。
  • 关键意义:实现能力与价值观对齐,让模型安全、可控、真正服务于人。

小结

阶段核心目标解决问题
预训练学会语言和知识(打基础)“模型能不能说话”
SFT(监督微调)学会按指令回答(按标准做事)“模型听不听话”
RLHF / RLAIF(对齐优化)学会人类偏好(按偏好做事)“回答好不好、对不对、安不安全”

1)只有预训练、没有SFT和对齐优化的AI,就像"一个只读过所有书但没上过学的天才儿童"。这个孩子 拥有海量知识,但完全不懂人情世故,聪明但危险。他会:

  • 口无遮拦:看到什么就说什么,不管是否礼貌或合适
  • 不懂分寸:可能说出伤害人的话,自己却浑然不知
  • 不会变通:只会机械地复述知识,不会根据场景调整回答
  • 举例:它可能在你问"如何减肥"时,给出"绝食三天"这种极端建议。

2)没有对齐的AI就像没受过教育的天才,虽然知识渊博,但可能:

  • 缺乏判断力:分不清什么该说、什么不该说,可能输出有害或不当内容
  • 容易"走极端":在回答敏感问题时,可能给出极端或不安全的建议
  • 缺乏价值观约束:没有经过人类价值观的校准,输出的内容可能违背伦理道德

大模型如何落地

前文我们详细拆解了大语言模型的能力来源,从预训练打下知识根基,到SFT让模型听懂指令,再到RLHF/RLAIF实现人类对齐,一步步把空白的参数模型打磨成具备实用能力的AI助手。但模型训练完成只是第一步,真正让大模型产生价值,核心在于落地应用

很多开发者和企业都会遇到这样的困惑:手里有训练好的模型权重,也懂基础原理,可到底该怎么把它用到实际业务里?是直接用开源模型二次开发,还是从零训练?部署后跑不起来、速度太慢、成本太高又该怎么解决?

接下来我们就从训练落地推理落地两个核心维度,系统讲讲大语言模型的完整落地流程,避开常见坑,适配不同业务场景的实际需求。

(注:依旧仅针对纯大语言模型展开,多模态模型落地不在本次讨论范围内)

一、大模型训练落地:不是从零开始,而是按需定制

绝大多数企业和个人开发者,完全不需要从零训练基座大模型。从零预训练需要万亿级token数据、数千张GPU卡,成本动辄上亿,只有头部科技厂商会承担这项工作。我们所说的训练落地,核心是基于开源基座模型,做轻量化定制训练,适配自身业务场景,也就是前文提到的SFT微调、对齐优化,以及针对性的领域预训练。

1. 训练落地的核心前提:选型与准备

(1)基座模型选型

优先选择成熟开源基座,比如Llama系列、Qwen(通义千问开源版)、Mistral、GLM等,根据业务需求选参数规模:

  • 轻量场景(边缘端、小型应用) :1B-7B参数模型,算力要求低,部署成本低,适配简单问答、规则类任务;
  • 通用场景(企业客服、内容生成) :7B-13B参数模型,平衡性能与成本,是中小团队主流选择;
  • 复杂场景(专业问答、长文本分析) :34B-70B参数模型,能力更强,需配套高算力资源。

(2)数据准备:高质量远大于大数量

训练落地的核心是数据,而非盲目堆量:

  • 领域预训练数据:行业专属文本(如医疗病历、法律条文、金融研报),用于扩充模型行业知识;
  • SFT微调数据:业务专属指令-回答对,格式规范、无错误、贴合真实用户提问场景,宁可少而精,不可多而杂;
  • 对齐数据:人工标注的偏好数据、安全合规数据,避免模型输出有害、违规内容。

(3)算力与工具选型

个人/小团队无需自建集群,直接用机器学习平台(如AutoDL、阿里云PAI、腾讯云TI-One):

  • 轻量化微调(SFT) :单张RTX 3090/4090/A10即可,搭配LoRA/QLoRA轻量化微调技术,大幅降低显存占用;
  • 全参数微调:需多卡GPU(如A100、V100),仅适合大模型深度定制;
  • 工具框架:Transformers、PEFT(轻量化微调)、Deepspeed(分布式训练)、Axolotl(一站式微调工具)。

2. 训练落地标准流程

  1. 基座模型加载:下载开源模型权重,在开发机完成环境配置与初步调试;
  2. 数据清洗与格式化:统一数据格式,剔除脏数据、重复数据、违规数据;
  3. 轻量化微调配置:设置LoRA/QLoRA参数,选择微调层(注意力层+全连接层为主);
  4. 提交训练任务:通过平台自定义任务提交训练代码,启动训练,监控损失值;
  5. 模型导出与验证:训练完成后导出微调权重,合并基座与微调权重,测试业务效果;
  6. 对齐优化(可选) :对效果不佳、合规性不足的模型,做RLHF/RLAIF优化,提升实用性。

二、大模型推理落地:让训练好的模型,真正用起来

如果说训练落地是“打磨模型”,那推理落地就是“让模型对外提供服务”。推理阶段不更新模型权重,只负责加载权重、接收用户请求、输出结果,核心诉求是快、稳、省、可用,也是普通开发者接触最多的落地环节。

1. 推理落地的核心目标

在满足业务响应速度(通常单轮回答延迟低于3秒)的前提下,尽可能降低算力成本,同时保证输出稳定、合规,适配高并发场景。

2. 推理落地前的关键准备

(1)模型量化:降低算力门槛的核心手段

训练好的模型权重精度高、体积大,直接推理显存不够用,必须做量化压缩:

  • FP16/BF16:半精度,基本不损失性能,适合中高端GPU;
  • INT8/INT4:量化精度,体积缩小4-8倍,显存占用大幅降低,小GPU也能跑,性能损失极小;
  • 常用工具:GGUF/GGML(本地推理)、AWQ、GPTQ(高性能量化)。

(2)推理方式选型

根据业务场景选推理部署方式,分为两大类:

① 本地/私有化推理

  • 适用场景:企业内部数据、敏感业务、隐私要求高的场景;
  • 工具:Ollama(极简本地推理)、vLLM、Text Generation Inference(TGI)、FastChat;
  • 优势:数据不外流,可控性强;劣势:需自备GPU算力。

② 云端推理服务

  • 适用场景:公开业务、高并发、无自建算力的团队;
  • 方式:云平台托管推理、API接口调用(如OpenAI API、开源模型托管API);
  • 优势:无需维护硬件,弹性扩缩容;劣势:数据需上传云端,有一定成本。

(3)推理代码与服务封装

推理代码核心逻辑很简单,全程用Python编写:

  1. 加载量化后的模型权重;
  2. 接收用户输入(Prompt),做文本预处理(分词、格式拼接);
  3. 调用模型前向计算,生成回答;
  4. 文本后处理(剔除冗余内容、格式优化);
  5. 封装成API接口(用FastAPI/Flask),对外提供服务,对接前端或业务系统。

3. 推理落地标准流程

  1. 模型优化:对训练好的权重做量化、剪枝,减小体积;
  2. 推理环境搭建:安装Transformers、Torch、推理引擎(vLLM/TGI);
  3. 本地调试:在开发机运行推理代码,测试单轮回答速度与效果;
  4. 服务封装:打包成API服务,支持并发请求、参数可调(温度、最大长度);
  5. 部署上线:部署到服务器/云平台,配置监控、日志;
  6. 压测与优化:测试并发能力,优化推理速度,解决延迟过高问题。

4. 推理落地核心优化技巧

  • 推理引擎加速:用vLLM、TGI替代原生推理,速度提升5-10倍,支持动态批处理;
  • 上下文窗口管理:根据业务控制输入长度,避免超长文本导致延迟飙升;
  • 缓存复用:对重复请求、历史对话做缓存,减少重复计算;
  • 动态扩缩容:云端部署根据并发量调整算力,避免资源浪费。

结尾

以上便是大模型的入门基础知识,相信通过本文的梳理,能为你带来一些启发,帮助你建立对大模型的初步认知。本篇内容就先到这里,后续我会持续更新,继续深入讲解大模型的演进历程、工程实践,以及大模型的各类核心能力与应用场景,敬请期待。