01-LLM/大模型:AI界的"学霸"是怎么炼成的

0 阅读7分钟

LLM/大模型:AI界的"学霸"是怎么炼成的

这篇文章带你理解AI圈最火的词——LLM,看懂大模型到底"大"在哪。

前言

打开科技新闻,你一定见过这些词:

  • "OpenAI发布最新大模型..."
  • "国产大模型百花齐放..."
  • "XX公司宣布千亿参数大模型..."

大佬们聊天也离不开:

"你们用的什么LLM?" "我们部署了一个7B的模型..." "大模型的能力涌现了..."

如果你满头问号:LLM是啥?大模型有多大?7B是几个意思?

别急,今天就把这些黑话翻译成人话。


一、黑话原文 vs 人话翻译

场景模拟

🎯 AI会议现场:

大佬A:"我们基于LLM做了一套解决方案..."
大佬B:"你们用的是哪个Base Model?"
大佬C:"我们用的是7B的,效果还不错"
大佬A:"7B太小了吧,至少得上70B才能涌现"
大佬B:"确实,小模型上下文窗口太窄"

人话翻译表

黑话人话翻译一句话理解
LLM大语言模型超级能聊天的AI大脑
大模型参数很多的AI读过超多书的"学霸"
7B/70B70亿/700亿参数模型的"脑细胞"数量
Base Model基础模型没经过专业训练的"通识生"
涌现突然变聪明量变引起质变
上下文窗口记忆容量AI能"记住"多少字

二、LLM到底是个啥?

2.1 一句话定义

LLM(Large Language Model)= 大语言模型

人话版:一个读过海量文字、超级会聊天、什么都能扯两句的AI"学霸"

2.2 为什么叫"大"模型?

┌─────────────────────────────────────────────────────────────┐
│                    模型"大小"对比                            │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   传统小模型        中等模型         大模型         超大模型  │
│   ──────────       ────────        ──────        ────────  │
│   ~100万参数       ~10亿参数       ~100亿参数    ~10000亿参数│
│                                                             │
│     🐜              🐕              🐘             🐋        │
│    (蚂蚁)          (小狗)          (大象)         (蓝鲸)     │
│                                                             │
│   能做简单任务     能写简单文章     能聊复杂话题   能搞定一切  │
│   比如:分类       比如:摘要       比如:编程     比如:推理  │
│                                                             │
└─────────────────────────────────────────────────────────────┘

2.3 参数是什么?为什么越多越好?

参数 = AI的"脑细胞"

人脑:约 860亿 个神经元
GPT-3:约 1750亿 个参数
GPT-4:约 1.8万亿 个参数(传闻)

参数越多 → "脑容量"越大 → 能学的东西越多 → 越聪明

生活类比

对比参数少的模型参数多的模型
就像小学生博士生
能力只会做简单题能解决复杂问题
知识知道基础常识博古通今
聊天问一句答一句能深度交流

三、那些数字都是啥意思?

3.1 7B、13B、70B...

你经常看到的这些数字,其实说的是参数量

标识全称参数量类比
7B7 Billion70亿≈ 重点高中生的知识储备
13B13 Billion130亿≈ 大学生的知识储备
70B70 Billion700亿≈ 研究生的知识储备
175B175 Billion1750亿≈ 教授的知识储备
# 数学换算
1B = 1 Billion = 10亿 = 1,000,000,000

7B = 70亿个参数
70B = 700亿个参数

# 如果每个参数是一个汉字
7B ≈ 70亿个汉字 ≈ 把《红楼梦》读700

3.2 常见大模型对比

模型参数量所属公司特点
GPT-3175BOpenAI开启大模型时代
GPT-4~1.8TOpenAI多模态,超强推理
Claude 3未公开Anthropic安全性好,长上下文
LLaMA 27B-70BMeta开源,可商用
Qwen7B-72B阿里中文能力强
GLM-49B-130B智谱国产之光

四、"涌现"是什么玄学?

4.1 涌现效应

大佬们常说:"小模型能力不行,得上70B才能涌现"

涌现 = 参数量达到某个临界点后,模型突然"开窍",具备了之前没有的能力。

模型能力
    │
    │                          ●
    │                        ●
    │                      ●
    │                    ●
    │              ●●●●●
    │         ●●●●
    │    ●●●●
    │ ●●●
    └───────────────────────────→ 参数量
      1B   7B   13B   70B   175B

      ↑               ↑
   还没开窍        突然开窍!

4.2 生活类比

就像学骑自行车

  • 看了很多教程(小参数)→ 还是不会骑
  • 练了很多次(中参数)→ 摇摇晃晃
  • 某一天突然(临界点)→ 我悟了!(涌现)

涌现后的能力

  • 逻辑推理
  • 代码编程
  • 数学计算
  • 多语言切换
  • 遵循复杂指令

五、Base Model vs Chat Model

5.1 两种模型类型

类型英文名中文名状态
Base ModelFoundation Model基础模型"通识生"
Chat ModelInstruct Model指令模型"专业人士"

5.2 区别在哪?

┌─────────────────────────────────────────────────────────────┐
│                    Base Model(基础模型)                    │
├─────────────────────────────────────────────────────────────┤
│  你:今天天气怎么样?                                         │
│  AI:今天天气晴朗,适合出门。你那儿呢?最近有什么打算?        │
│      (继续往下编...)                                        │
│                                                             │
│  特点:接龙狂魔,你说啥它接啥                                 │
└─────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────┐
│                    Chat Model(对话模型)                    │
├─────────────────────────────────────────────────────────────┤
│  你:今天天气怎么样?                                         │
│  AI:抱歉,我无法获取实时天气信息。建议你查看手机天气应用       │
│      或询问语音助手。                                         │
│                                                             │
│  特点:能好好聊天,会回答问题                                  │
└─────────────────────────────────────────────────────────────┘

训练过程

1. 预训练(Pre-training)
   海量文本 → Base Model
   (读完整个互联网,成为通识生)

2. 微调(Fine-tuning)
   Base Model + 对话数据 → Chat Model
   (经过专业培训,学会好好说话)

六、普通人怎么用LLM?

6.1 直接使用

方式工具适合人群
网页版ChatGPT、Claude、文心一言所有人
APP豆包、Kimi、通义千问所有人
APIOpenAI API、各种API服务开发者

6.2 本地部署(进阶)

如果你有块好显卡,可以自己在电脑上跑大模型:

# 使用 Ollama 运行大模型
ollama run llama2        # 运行 LLaMA 2
ollama run qwen          # 运行通义千问
ollama run mistral       # 运行 Mistral

# 常见模型大小与显卡要求
7B模型  → 需要 ~8GB 显存
13B模型 → 需要 ~16GB 显存
70B模型 → 需要 ~40GB+ 显存

七、LLM的局限性

7.1 大模型也会犯错

问题说明
幻觉一本正经胡说八道
知识截止不知道最新发生的事
数学弱复杂计算容易出错
没有真意识只是在预测下一个字

7.2 别被忽悠了

⚠️ 注意:很多号称"超越GPT-4"的模型,实际效果可能差很远。

  • 看参数量,更看训练数据质量
  • 看评测分数,更要实测体验
  • 适合自己的才是最好的

小结

黑话人话记忆口诀
LLM大语言模型读很多书的AI学霸
参数脑细胞数量越多越聪明
7B/70B70亿/700亿参数数字越大越厉害
涌现突然开窍量变引起质变
Base Model基础模型还没培训的通识生
Chat Model对话模型培训好的专业生

黑话等级

⭐⭐ 入门级
├── 你已经理解了LLM、大模型、参数这些基础概念
├── 知道7B70B是什么意思
└── 明白Base Model和Chat Model的区别

下一级预告:Token/词元 - AI眼里的"字"跟你不一样

思考与练习

  1. 思考题

    • 为什么参数越多,模型越聪明?有没有极限?
    • 小模型有什么优势?什么场景下够用?
  2. 动手练习

    • 打开 ChatGPT 或 Claude,感受一下大模型的能力
    • 试试让模型做不同难度的任务,观察效果差异
  3. 延伸探索

    • 了解你常用的AI助手背后是哪个大模型
    • 尝试用 Ollama 在本地跑一个7B模型

下期预告

下一篇文章,我们来聊:Token/词元 - AI眼里的"字"跟你不一样

会解答这些问题:

  • 为什么AI说"4K context"却不能输入4000个汉字?
  • Token到底是什么?怎么数的?
  • 同样一句话,中文和英文的Token数量一样吗?

关注专栏,不错过后续更新!


作者:ECH00O00 本文首发于掘金专栏《AI黑话翻译官》 欢迎评论区交流讨论,点赞收藏就是最大的鼓励