LLM/大模型:AI界的"学霸"是怎么炼成的
这篇文章带你理解AI圈最火的词——LLM,看懂大模型到底"大"在哪。
前言
打开科技新闻,你一定见过这些词:
- "OpenAI发布最新大模型..."
- "国产大模型百花齐放..."
- "XX公司宣布千亿参数大模型..."
大佬们聊天也离不开:
"你们用的什么LLM?" "我们部署了一个7B的模型..." "大模型的能力涌现了..."
如果你满头问号:LLM是啥?大模型有多大?7B是几个意思?
别急,今天就把这些黑话翻译成人话。
一、黑话原文 vs 人话翻译
场景模拟
🎯 AI会议现场:
大佬A:"我们基于LLM做了一套解决方案..."
大佬B:"你们用的是哪个Base Model?"
大佬C:"我们用的是7B的,效果还不错"
大佬A:"7B太小了吧,至少得上70B才能涌现"
大佬B:"确实,小模型上下文窗口太窄"
人话翻译表
| 黑话 | 人话翻译 | 一句话理解 |
|---|---|---|
| LLM | 大语言模型 | 超级能聊天的AI大脑 |
| 大模型 | 参数很多的AI | 读过超多书的"学霸" |
| 7B/70B | 70亿/700亿参数 | 模型的"脑细胞"数量 |
| Base Model | 基础模型 | 没经过专业训练的"通识生" |
| 涌现 | 突然变聪明 | 量变引起质变 |
| 上下文窗口 | 记忆容量 | AI能"记住"多少字 |
二、LLM到底是个啥?
2.1 一句话定义
LLM(Large Language Model)= 大语言模型
人话版:一个读过海量文字、超级会聊天、什么都能扯两句的AI"学霸"。
2.2 为什么叫"大"模型?
┌─────────────────────────────────────────────────────────────┐
│ 模型"大小"对比 │
├─────────────────────────────────────────────────────────────┤
│ │
│ 传统小模型 中等模型 大模型 超大模型 │
│ ────────── ──────── ────── ──────── │
│ ~100万参数 ~10亿参数 ~100亿参数 ~10000亿参数│
│ │
│ 🐜 🐕 🐘 🐋 │
│ (蚂蚁) (小狗) (大象) (蓝鲸) │
│ │
│ 能做简单任务 能写简单文章 能聊复杂话题 能搞定一切 │
│ 比如:分类 比如:摘要 比如:编程 比如:推理 │
│ │
└─────────────────────────────────────────────────────────────┘
2.3 参数是什么?为什么越多越好?
参数 = AI的"脑细胞"
人脑:约 860亿 个神经元
GPT-3:约 1750亿 个参数
GPT-4:约 1.8万亿 个参数(传闻)
参数越多 → "脑容量"越大 → 能学的东西越多 → 越聪明
生活类比:
| 对比 | 参数少的模型 | 参数多的模型 |
|---|---|---|
| 就像 | 小学生 | 博士生 |
| 能力 | 只会做简单题 | 能解决复杂问题 |
| 知识 | 知道基础常识 | 博古通今 |
| 聊天 | 问一句答一句 | 能深度交流 |
三、那些数字都是啥意思?
3.1 7B、13B、70B...
你经常看到的这些数字,其实说的是参数量:
| 标识 | 全称 | 参数量 | 类比 |
|---|---|---|---|
| 7B | 7 Billion | 70亿 | ≈ 重点高中生的知识储备 |
| 13B | 13 Billion | 130亿 | ≈ 大学生的知识储备 |
| 70B | 70 Billion | 700亿 | ≈ 研究生的知识储备 |
| 175B | 175 Billion | 1750亿 | ≈ 教授的知识储备 |
# 数学换算
1B = 1 Billion = 10亿 = 1,000,000,000
7B = 70亿个参数
70B = 700亿个参数
# 如果每个参数是一个汉字
7B ≈ 70亿个汉字 ≈ 把《红楼梦》读700遍
3.2 常见大模型对比
| 模型 | 参数量 | 所属公司 | 特点 |
|---|---|---|---|
| GPT-3 | 175B | OpenAI | 开启大模型时代 |
| GPT-4 | ~1.8T | OpenAI | 多模态,超强推理 |
| Claude 3 | 未公开 | Anthropic | 安全性好,长上下文 |
| LLaMA 2 | 7B-70B | Meta | 开源,可商用 |
| Qwen | 7B-72B | 阿里 | 中文能力强 |
| GLM-4 | 9B-130B | 智谱 | 国产之光 |
四、"涌现"是什么玄学?
4.1 涌现效应
大佬们常说:"小模型能力不行,得上70B才能涌现"
涌现 = 参数量达到某个临界点后,模型突然"开窍",具备了之前没有的能力。
模型能力
│
│ ●
│ ●
│ ●
│ ●
│ ●●●●●
│ ●●●●
│ ●●●●
│ ●●●
└───────────────────────────→ 参数量
1B 7B 13B 70B 175B
↑ ↑
还没开窍 突然开窍!
4.2 生活类比
就像学骑自行车:
- 看了很多教程(小参数)→ 还是不会骑
- 练了很多次(中参数)→ 摇摇晃晃
- 某一天突然(临界点)→ 我悟了!(涌现)
涌现后的能力:
- 逻辑推理
- 代码编程
- 数学计算
- 多语言切换
- 遵循复杂指令
五、Base Model vs Chat Model
5.1 两种模型类型
| 类型 | 英文名 | 中文名 | 状态 |
|---|---|---|---|
| Base Model | Foundation Model | 基础模型 | "通识生" |
| Chat Model | Instruct Model | 指令模型 | "专业人士" |
5.2 区别在哪?
┌─────────────────────────────────────────────────────────────┐
│ Base Model(基础模型) │
├─────────────────────────────────────────────────────────────┤
│ 你:今天天气怎么样? │
│ AI:今天天气晴朗,适合出门。你那儿呢?最近有什么打算? │
│ (继续往下编...) │
│ │
│ 特点:接龙狂魔,你说啥它接啥 │
└─────────────────────────────────────────────────────────────┘
┌─────────────────────────────────────────────────────────────┐
│ Chat Model(对话模型) │
├─────────────────────────────────────────────────────────────┤
│ 你:今天天气怎么样? │
│ AI:抱歉,我无法获取实时天气信息。建议你查看手机天气应用 │
│ 或询问语音助手。 │
│ │
│ 特点:能好好聊天,会回答问题 │
└─────────────────────────────────────────────────────────────┘
训练过程:
1. 预训练(Pre-training)
海量文本 → Base Model
(读完整个互联网,成为通识生)
2. 微调(Fine-tuning)
Base Model + 对话数据 → Chat Model
(经过专业培训,学会好好说话)
六、普通人怎么用LLM?
6.1 直接使用
| 方式 | 工具 | 适合人群 |
|---|---|---|
| 网页版 | ChatGPT、Claude、文心一言 | 所有人 |
| APP | 豆包、Kimi、通义千问 | 所有人 |
| API | OpenAI API、各种API服务 | 开发者 |
6.2 本地部署(进阶)
如果你有块好显卡,可以自己在电脑上跑大模型:
# 使用 Ollama 运行大模型
ollama run llama2 # 运行 LLaMA 2
ollama run qwen # 运行通义千问
ollama run mistral # 运行 Mistral
# 常见模型大小与显卡要求
7B模型 → 需要 ~8GB 显存
13B模型 → 需要 ~16GB 显存
70B模型 → 需要 ~40GB+ 显存
七、LLM的局限性
7.1 大模型也会犯错
| 问题 | 说明 |
|---|---|
| 幻觉 | 一本正经胡说八道 |
| 知识截止 | 不知道最新发生的事 |
| 数学弱 | 复杂计算容易出错 |
| 没有真意识 | 只是在预测下一个字 |
7.2 别被忽悠了
⚠️ 注意:很多号称"超越GPT-4"的模型,实际效果可能差很远。
- 看参数量,更看训练数据质量
- 看评测分数,更要实测体验
- 适合自己的才是最好的
小结
| 黑话 | 人话 | 记忆口诀 |
|---|---|---|
| LLM | 大语言模型 | 读很多书的AI学霸 |
| 参数 | 脑细胞数量 | 越多越聪明 |
| 7B/70B | 70亿/700亿参数 | 数字越大越厉害 |
| 涌现 | 突然开窍 | 量变引起质变 |
| Base Model | 基础模型 | 还没培训的通识生 |
| Chat Model | 对话模型 | 培训好的专业生 |
黑话等级
⭐⭐ 入门级
├── 你已经理解了LLM、大模型、参数这些基础概念
├── 知道7B、70B是什么意思
└── 明白Base Model和Chat Model的区别
下一级预告:Token/词元 - AI眼里的"字"跟你不一样
思考与练习
-
思考题:
- 为什么参数越多,模型越聪明?有没有极限?
- 小模型有什么优势?什么场景下够用?
-
动手练习:
- 打开 ChatGPT 或 Claude,感受一下大模型的能力
- 试试让模型做不同难度的任务,观察效果差异
-
延伸探索:
- 了解你常用的AI助手背后是哪个大模型
- 尝试用 Ollama 在本地跑一个7B模型
下期预告
下一篇文章,我们来聊:Token/词元 - AI眼里的"字"跟你不一样
会解答这些问题:
- 为什么AI说"4K context"却不能输入4000个汉字?
- Token到底是什么?怎么数的?
- 同样一句话,中文和英文的Token数量一样吗?
关注专栏,不错过后续更新!
作者:ECH00O00 本文首发于掘金专栏《AI黑话翻译官》 欢迎评论区交流讨论,点赞收藏就是最大的鼓励