读懂大模型：一切 AI 应用的起点前言在春招求职的过程中，我愈发清晰地感受到：当下技术就业市场的新蓝海，已然向大模型及

前言

在春招求职的过程中，我愈发清晰地感受到：当下技术就业市场的新蓝海，已然向大模型及相关 AI 领域倾斜。作为一名求职者，主动学习并掌握大模型相关的前沿知识，已然成为提升自身竞争力的关键。

在此之前，我零散地接触过各类 AI 技术知识，包括大模型基础、MCP、Function Call、Agent 等内容，但学习途径多局限于技术博客与 YouTube 视频，始终缺乏一套完整、体系化的学习路径与知识框架。

因此，我决定在接下来的时间里，对这些知识进行系统性梳理与深度学习，以此夯实技术基础，强化求职核心竞争力。而本篇文章，便是我系统学习的起点 —— 我将先从大模型的基础概念入手。毕竟，相较于如今遍地开花的 Agent 应用，乃至未来可期的 AGI，大模型（Large Models）才是这一切技术形态的最初源头与核心根基

什么是大模型？

很多人接触过各种各样的大模型，但是你能否准确的介绍出 ”什么是大模型”？

大模型通常是指训练数据庞大、参数规模巨大、能力强大的深度神经网络模型

这里的训练数据、参数规模庞大大家乍一听可能没什么概念，接下来给大家看一些量化的数据：通常，大模型的参数量在10亿以上，目前顶尖模型的参数规模已达到万亿级别。也就意味着：如果你的模型参数量没有达到十亿以上，不好意思，那你暂时还没资格被称为大模型

给大家举个例子 在下图中，可以看见GPT-3这样的模型参数量又1750亿，DeepSeek-V3这样的大型模型参数量有6710亿，而BERT（NLP（自然语言处理）领域里里程碑式的预训练语言模型，由 Google 在 2018 年提出）这种模型则只有3亿参数，处理一些小文本场景还好，处理一些复杂的上下文它的参数量不够，没有办法

为什么会出现大模型？

大模型的出现并非偶然，而是数据、算力与模型架构协同演进的结果。

1）数据够多：训练范式的改变使得训练数据规模获得了数量级上的跃迁

为什么现在的大模型数量级能够巨幅上升呢？

原因其实在于：

传统监督学习高度依赖人工标注数据(对原始数据进行标记、分类、注释或结构化的过程，便于机器可识别和理解)，获取成本高、规模受限,例如
1. 分类标注：为整张图像分配类别标签（如"猫"、"狗"，人工标注的）
2. 命名实体识别：标注文本中的人名、地名、组织名等实体
3. 情感分析：标注文本的情感倾向（正面、负面、中性）
4. 语音转写：将语音内容转换为文本
而大模型主要采用自监督学习范式（如“预测下一个token”），能够直接利用海量的未标注文本与多模态数据进行模型的训练，可用数据规模获得了数量级上的跃迁。
1. 自监督学习，本质上属于无监督学习的一种特殊形式，但采用了监督学习的训练方式。核心思想是利用数据本身的内在结构或属性，自动为无标签数据生成伪标签，然后像监督学习一样训练模型，无需依赖人工标注。比如，掩码语言建模。
2. 如Qwen3的预训练阶段使用了约36T个token（近似理解为词）的语料，这一数据规模远超传统机器学习时代的训练数据总量

2）算力够强：GPU/TPU等并行计算设备性能发展与分布式训练成熟

深度学习训练本质是大规模矩阵运算，这类计算具有高度并行性，与GPU/TPU的硬件架构天然契合。

随着硬件性能的不断提升，单卡算力不断突破，目前英伟达最新一代的B200在FP16（半精度浮点数）条件下的峰值算力已达5PFLOPS（每秒约次浮点运算，）。

简单来说就是GPU的计算能力越来越强了，越来越能支持更大数据量的运算了

3）架构合理：Transformer架构的出现

Transformer架构支持并行计算，并且在模型规模、数据规模、训练步数（算力开销）提升时展现出稳定的性能收益（即良好的“可扩展性”，如下图所示，图中的Test Loss表示损失函数的值，用于衡量模型性能）。

相对于传统的相比 RNN/LSTM 只能逐步传递信息，Transformer的自注意力能直接计算任意两个位置的关联，解决了长文本语义建模难题。

综上，数据规模的跃迁、算力基础设施的发展，和Transformer架构优异的可扩展性，共同推动了模型规模和性能的持续膨胀，迎来了“大模型时代”。

大模型的计量单位

在大语言模型（LLM）及更一般的大模型研究中，通常从参数规模、训练数据集规模和计算规模三个维度来度量模型的规模。

1）参数规模（Parameters Scale）

什么是LLM的参数？参数是指深度神经网络里面“神经元数量、层数、神经元权重、神经元偏移量、超参数”等数据的集合。

大模型参数规模通常以B为单位，B是Billion的缩写，即10亿，。如：7B模型的参数量为70亿。

2）训练数据集规模

LLM的训练是在文本语料上进行的，语料处理的第一步是分词为一系列token，所以通常用token的数量衡量LLM训练数据集规模。
1B token =token =10亿token
1T token =B token =token =1万亿token

说明：token是什么
可能是一个英文单词，也可能是半个，三分之一个
可能是一个中文词，或者一个汉字

token是计算机理解人类语言的基础单位。大模型在开训前，需要先训练一个tokenizer模型。它能把所有的文本，切成token。这里提供一个网站大家可以测试转化token的效果 platform.openai.com/tokenizer

大模型的四要素

大模型由四个要素构成：模型权重（参数）、推理代码、训练代码、训练数据集。

一、模型权重（参数）—— 模型的 “大脑 + 知识”

1. 它是什么？

就是你之前看到图里的 w（权重）、b（偏置）等所有数值
是一堆巨大的数字文件（.bin / .pth / .safetensors）
是模型训练完成后得到的最终成果

2. 它的作用

存储模型学会的语言规律、知识、逻辑、常识
决定模型回答得准不准、聪不聪明
参数越多 = 脑容量越大（7B、13B、70B、175B 都是指它）

3. 类比

模型权重 = 一本书的全部内容你问问题 → 模型查这本书 → 给出答案

二、推理代码 —— 让模型 “说话 / 回答” 的程序

1. 它是什么？

一套轻量代码（相对于训练代码来说）
负责加载权重，然后接收你的问题，输出回答
不学习、不更新、不训练，只负责 “使用模型”

2. 它的作用

读入你的输入（prompt）
调用模型权重做计算
输出文本（回答、写作、翻译、代码）

3. 类比

推理代码 = 读书的人权重 = 书人拿着书，帮你查问题、念答案

4. 我们日常用的所有 AI 都靠它

ChatGPT、文心一言、Llama 聊天、通义千问 …… 后台跑的都是推理代码

三、训练代码 —— 教会模型知识的 “教学程序”

1. 它是什么？

一套复杂、工程化的代码
负责：初始化模型 → 读数据 → 计算损失 → 更新权重 → 保存模型
只有训练模型时才会用到

2. 它的作用

从 0 开始训练一个大模型
不断调整权重 w、b，让模型越来越聪明
支持多卡、分布式、大规模训练

3. 类比

训练代码 = 老师 + 教学方法训练数据集 = 课本老师用课本教学生 → 学生学会知识 → 得到最终的 “权重”

4. 只有大厂 / 研究机构会用

训练代码极复杂，普通人基本用不到。

四、训练数据集 —— 模型学习用的 “课本”

1. 它是什么？

海量文本数据：网页、书籍、文章、百科、对话、代码等
是纯文本内容，不是代码也不是模型

2. 它的作用

让模型学习语言、逻辑、事实、常识
数据决定模型上限

3. 常见规模

小模型：1 亿～10 亿词
大模型：1 万亿～10 万亿词

4. 类比

训练数据集 = 从小学到博士的全部教材

注意：训练代码和推理代码99%都是用Python写的

框架全是 Python 接口（PyTorch、TensorFlow、JAX、MindSpore）
写得快、调试快、生态无敌
数据处理、分布式、日志、绘图全靠 Python

大模型的分类

以下是从其它地方得到的大模型分类的图表：

分类标准	类别	示例
按照模态分类	大语言模型	Qwen3/DeepSeek-V3/GPT-5语言模块
	多模态理解模型	Qwen3-VL/GPT-5/Gemini-3
	多模态生成模型	Nano-Banana/Stable Diffusion/DALL·E
按照功能分类	生成式大模型	GPT-5/DeepSeek-V3/Qwen3
	嵌入模型	BGE/E5/GTE
	重排序模型	BGE-Reranker/ms-marco-MiniLM
	分类模型	通常是经过微调的小尺寸模型

关于这一部分内容，这里先不详细展开介绍，后面作者有空了会专门更新一篇文章来介绍大模型的分类，并且客观地分析市场上主流的大模型的一些优缺点

理解模型能力来源

接下来我们来聊聊大模型训练阶段中的模型能力来源
所以在训练阶段中，我们到底做了那些事情，能够让大模型能够精准地回答我们的问题呢？
（注意：下面所探讨的是针对于大语言模型，多模态模型由于涉及多种模态输入，其训练目标，数据构成及优化策略差异较大，尚未形成一定的范式，故不在探讨范围内）

环节1：预训练

预训练是大语言模型的 “筑基阶段” ，也是整个训练流程中耗时最长、算力消耗最大、数据量需求最多的环节，相当于让模型从“零基础”变成“饱读诗书的学者”，奠定所有核心能力的基础，我们日常说的千亿、万亿参数模型，核心就是在这个阶段训练完成的。

核心前提：硬件与物料准备
这个环节需要用到我们之前聊过的训练代码、海量训练数据集，搭配大规模GPU集群开展工作。训练数据集以海量无标注文本为主，包含书籍、网页、百科、优质文章、代码库等，规模通常达到万亿tokens级别，是模型学习语言规律和知识的核心原料。

核心目标
让模型掌握通用语言规律、基础逻辑推理、海量事实知识，学会语法、语义、上下文关联，能够完成文本续写、通顺表达等基础任务，本质是让模型的参数（权重）记住海量知识和语言模式。

核心流程

模型初始化：基于Transformer架构搭建大模型骨架，所有参数（权重、偏置）随机初始化，此时模型完全没有任何知识和语言能力。
无监督学习：采用“下一个词预测”的核心训练目标，给模型输入一段文本，让它预测下一个最可能出现的词，不断循环这个过程。
参数迭代优化：训练代码通过反向传播算法，不断调整模型参数，缩小预测误差，经过数十亿甚至上万亿次迭代，让参数逐渐收敛。
产出基座模型：预训练结束后，得到基座模型（Base Model） ，也就是纯模型权重文件，这是大模型的核心本体。

基座模型拥有极强的语言生成能力、知识储备、逻辑理解能力，能读懂文本、续写内容、做简单推理，但它没有“服务意识”，不会按照人类的指令回答问题，更擅长文本续写，而非直接回应提问，比如你问“1+1等于几”，它可能会续写“1+1等于几，在数学中是基础运算问题”，而不是直接给出答案。

预训练决定了模型的能力上限，数据质量、数据规模、模型参数大小、训练时长，直接影响模型的知识广度、推理深度，后续环节无法突破这个上限，只能优化输出形式。

环节2：SFT(监督微调)

SFT全称是Supervised Fine-Tuning，即监督微调，是大模型的 “规矩养成阶段” ，相当于把饱读诗书但不懂人情世故的基座模型，教成“能听懂人话、按指令做事”的助手，让模型从“被动续写”转变为“主动响应指令”。

核心物料
基于预训练好的基座模型权重，搭配高质量有标注指令数据集，数据集由人工整理，格式为“指令+输入+标准答案”，比如“指令：解答数学题，输入：1+1=？，标准答案：2”，数据量远小于预训练，通常百万级到千万级tokens即可，训练代码也更轻量化。

核心目标
让模型学会理解人类指令、遵循指令完成任务，掌握问答、总结、翻译、写作等实用技能，输出内容贴合人类的使用习惯，不再是无意义的文本续写。

核心流程
加载基座权重：不重新训练模型，只在预训练好的参数基础上做小幅度微调，避免破坏已学到的知识。
监督学习训练：用指令数据集训练模型，让模型学习“输入指令→输出标准回答”的映射关系，优化输出的准确性和规范性。
产出SFT模型：微调完成后，模型已经能基本听懂指令，回答问题也更贴合需求，具备了实用价值，但此时模型可能存在回答生硬、逻辑矛盾、甚至输出有害内容的问题。

训练成本远低于预训练，耗时短、算力需求小，是快速优化模型实用性的核心环节，但单纯的SFT无法解决模型输出偏见、有害信息、不符合人类价值观的问题，需要后续对齐环节优化。

环节3：RLHF/RLAIF(对齐优化)

RLHF（Reinforcement Learning from Human Feedback）通过人类反馈来优化模型输出，使其更符合人类偏好和价值观；RLAIF（Reinforcement Learning from AI Feedback）是RLHF的扩展（“自动化版本”），使用AI模型代替人类进行反馈和打分。

核心目标
让模型 “更安全、更有用、更符合人类偏好”

这是大模型从 “能用” 到 “好用、可信” 的最后一步，也叫对齐（Alignment） 。

RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）

步骤：人工对模型回答进行排序 → 训练奖励模型（RM）→ 使用 PPO 等强化学习算法优化模型，使其输出更符合人类偏好。
作用：提升回答的有用性、逻辑性、诚实性，减少有害、偏见、胡说内容。

RLAIF（Reinforcement Learning from AI Feedback，基于 AI 反馈的强化学习）

用更强的大模型替代人类进行标注和排序，大幅降低成本、提升效率、扩展规模。
是当前主流大厂对齐的主流方案之一。
产出结果：得到对齐后的对话模型（Chat Model） ，也就是我们日常使用的 ChatGPT、文心一言、Llama Chat 等产品背后的模型。
关键意义：实现能力与价值观对齐，让模型安全、可控、真正服务于人。

小结

阶段	核心目标	解决问题
预训练	学会语言和知识（打基础）	“模型能不能说话”
SFT（监督微调）	学会按指令回答（按标准做事）	“模型听不听话”
RLHF / RLAIF（对齐优化）	学会人类偏好（按偏好做事）	“回答好不好、对不对、安不安全”

1）只有预训练、没有SFT和对齐优化的AI，就像"一个只读过所有书但没上过学的天才儿童"。这个孩子拥有海量知识，但完全不懂人情世故，聪明但危险。他会：

口无遮拦：看到什么就说什么，不管是否礼貌或合适
不懂分寸：可能说出伤害人的话，自己却浑然不知
不会变通：只会机械地复述知识，不会根据场景调整回答
举例：它可能在你问"如何减肥"时，给出"绝食三天"这种极端建议。

2）没有对齐的AI就像没受过教育的天才，虽然知识渊博，但可能：

缺乏判断力：分不清什么该说、什么不该说，可能输出有害或不当内容
容易"走极端"：在回答敏感问题时，可能给出极端或不安全的建议
缺乏价值观约束：没有经过人类价值观的校准，输出的内容可能违背伦理道德

大模型如何落地

前文我们详细拆解了大语言模型的能力来源，从预训练打下知识根基，到SFT让模型听懂指令，再到RLHF/RLAIF实现人类对齐，一步步把空白的参数模型打磨成具备实用能力的AI助手。但模型训练完成只是第一步，真正让大模型产生价值，核心在于落地应用。

很多开发者和企业都会遇到这样的困惑：手里有训练好的模型权重，也懂基础原理，可到底该怎么把它用到实际业务里？是直接用开源模型二次开发，还是从零训练？部署后跑不起来、速度太慢、成本太高又该怎么解决？

接下来我们就从训练落地和推理落地两个核心维度，系统讲讲大语言模型的完整落地流程，避开常见坑，适配不同业务场景的实际需求。

（注：依旧仅针对纯大语言模型展开，多模态模型落地不在本次讨论范围内）

一、大模型训练落地：不是从零开始，而是按需定制

绝大多数企业和个人开发者，完全不需要从零训练基座大模型。从零预训练需要万亿级token数据、数千张GPU卡，成本动辄上亿，只有头部科技厂商会承担这项工作。我们所说的训练落地，核心是基于开源基座模型，做轻量化定制训练，适配自身业务场景，也就是前文提到的SFT微调、对齐优化，以及针对性的领域预训练。

1. 训练落地的核心前提：选型与准备

（1）基座模型选型

优先选择成熟开源基座，比如Llama系列、Qwen（通义千问开源版）、Mistral、GLM等，根据业务需求选参数规模：

轻量场景（边缘端、小型应用） ：1B-7B参数模型，算力要求低，部署成本低，适配简单问答、规则类任务；
通用场景（企业客服、内容生成） ：7B-13B参数模型，平衡性能与成本，是中小团队主流选择；
复杂场景（专业问答、长文本分析） ：34B-70B参数模型，能力更强，需配套高算力资源。

（2）数据准备：高质量远大于大数量

训练落地的核心是数据，而非盲目堆量：

领域预训练数据：行业专属文本（如医疗病历、法律条文、金融研报），用于扩充模型行业知识；
SFT微调数据：业务专属指令-回答对，格式规范、无错误、贴合真实用户提问场景，宁可少而精，不可多而杂；
对齐数据：人工标注的偏好数据、安全合规数据，避免模型输出有害、违规内容。

（3）算力与工具选型

个人/小团队无需自建集群，直接用机器学习平台（如AutoDL、阿里云PAI、腾讯云TI-One）：

轻量化微调（SFT） ：单张RTX 3090/4090/A10即可，搭配LoRA/QLoRA轻量化微调技术，大幅降低显存占用；
全参数微调：需多卡GPU（如A100、V100），仅适合大模型深度定制；
工具框架：Transformers、PEFT（轻量化微调）、Deepspeed（分布式训练）、Axolotl（一站式微调工具）。

2. 训练落地标准流程

基座模型加载：下载开源模型权重，在开发机完成环境配置与初步调试；
数据清洗与格式化：统一数据格式，剔除脏数据、重复数据、违规数据；
轻量化微调配置：设置LoRA/QLoRA参数，选择微调层（注意力层+全连接层为主）；
提交训练任务：通过平台自定义任务提交训练代码，启动训练，监控损失值；
模型导出与验证：训练完成后导出微调权重，合并基座与微调权重，测试业务效果；
对齐优化（可选） ：对效果不佳、合规性不足的模型，做RLHF/RLAIF优化，提升实用性。

二、大模型推理落地：让训练好的模型，真正用起来

如果说训练落地是“打磨模型”，那推理落地就是“让模型对外提供服务”。推理阶段不更新模型权重，只负责加载权重、接收用户请求、输出结果，核心诉求是快、稳、省、可用，也是普通开发者接触最多的落地环节。

1. 推理落地的核心目标

在满足业务响应速度（通常单轮回答延迟低于3秒）的前提下，尽可能降低算力成本，同时保证输出稳定、合规，适配高并发场景。

2. 推理落地前的关键准备

（1）模型量化：降低算力门槛的核心手段

训练好的模型权重精度高、体积大，直接推理显存不够用，必须做量化压缩：

FP16/BF16：半精度，基本不损失性能，适合中高端GPU；
INT8/INT4：量化精度，体积缩小4-8倍，显存占用大幅降低，小GPU也能跑，性能损失极小；
常用工具：GGUF/GGML（本地推理）、AWQ、GPTQ（高性能量化）。

（2）推理方式选型

根据业务场景选推理部署方式，分为两大类：

① 本地/私有化推理

适用场景：企业内部数据、敏感业务、隐私要求高的场景；
工具：Ollama（极简本地推理）、vLLM、Text Generation Inference（TGI）、FastChat；
优势：数据不外流，可控性强；劣势：需自备GPU算力。

② 云端推理服务

适用场景：公开业务、高并发、无自建算力的团队；
方式：云平台托管推理、API接口调用（如OpenAI API、开源模型托管API）；
优势：无需维护硬件，弹性扩缩容；劣势：数据需上传云端，有一定成本。

（3）推理代码与服务封装

推理代码核心逻辑很简单，全程用Python编写：

加载量化后的模型权重；
接收用户输入（Prompt），做文本预处理（分词、格式拼接）；
调用模型前向计算，生成回答；
文本后处理（剔除冗余内容、格式优化）；
封装成API接口（用FastAPI/Flask），对外提供服务，对接前端或业务系统。

3. 推理落地标准流程

模型优化：对训练好的权重做量化、剪枝，减小体积；
推理环境搭建：安装Transformers、Torch、推理引擎（vLLM/TGI）；
本地调试：在开发机运行推理代码，测试单轮回答速度与效果；
服务封装：打包成API服务，支持并发请求、参数可调（温度、最大长度）；
部署上线：部署到服务器/云平台，配置监控、日志；
压测与优化：测试并发能力，优化推理速度，解决延迟过高问题。

4. 推理落地核心优化技巧

推理引擎加速：用vLLM、TGI替代原生推理，速度提升5-10倍，支持动态批处理；
上下文窗口管理：根据业务控制输入长度，避免超长文本导致延迟飙升；
缓存复用：对重复请求、历史对话做缓存，减少重复计算；
动态扩缩容：云端部署根据并发量调整算力，避免资源浪费。

结尾

以上便是大模型的入门基础知识，相信通过本文的梳理，能为你带来一些启发，帮助你建立对大模型的初步认知。本篇内容就先到这里，后续我会持续更新，继续深入讲解大模型的演进历程、工程实践，以及大模型的各类核心能力与应用场景，敬请期待。