人人都能懂的大模型 · 第6期:Token:AI 眼里的“乐高积木”

0 阅读6分钟

这是一个为零基础读者准备的 30 期系列科普。在这里,没有晦涩的代码和公式,只有最接地气的比喻和阿模、小明的日常。让我们一起拆解大模型,看清人工智能的真面目。

1. 别惊讶,AI 根本不认识“字”!

小明最近在玩 ChatGPT 时发现一个奇怪的现象:他问 AI 一个生僻字怎么读,AI 有时候会一本正经地胡说八道。他跑去问阿模:“阿模,难道你们大模型也有‘认字障碍’吗?”

阿模晃了晃方脑袋,嘿嘿一笑:“小明,其实在我的世界里,根本就没有‘字’或者‘词’的概念。当你输入‘你好’时,我看到的不是两个汉字,而是两个编了号的积木块,我们管这叫 Token(词元)。”

你可以把 Token 想象成 AI 的“乐高积木”。不管你喂给它的是中文、英文、还是代码,AI 都会先拿出一把无形的“小剪刀”,咔嚓咔嚓把这些文字剪成一块块积木。

最关键的一步是: 每一块积木在进入 AI 的大脑前,都会被转换成一个数字 ID。比如“你好”可能变成 [12345, 67890]。AI 内部本质上并不处理文字,而是进行复杂的数学计算。只有当你看到它吐出答案时,它才把这些数字 ID 重新翻词典变回文字。

配图


2. Token 是什么?它可不等于一个字

很多朋友初学时会问:一个 Token 是不是就是一个汉字?或者一个英文单词?

答案是:不一定。

Token 是 AI 处理文字的最小单位。为了效率,AI 不会死板地按字拆分。

  • 英文: 像 "apple" 这种常用词,效率很高,通常 1 个单词对应 1 到 1.3 个 Token;但像 "unbelievable" 这样的大长词,会被拆成多个零件。
  • 中文: 现在的先进模型(如 GPT-4o)中文效率极高。1 个汉字平均仅占 0.6 至 0.8 个 Token。这意味着 1000 个 Token 就能装下约 1200 到 1500 个汉字。

配图


3. 为什么要费劲拆积木?直接按字不行吗?

你可能会想:为什么不直接规定“一个字就是一个 Token”?这叫“字符级分词”。

虽然按字拆分很简单,但它有致命缺点:

  1. 缺乏语义: “沙”和“发”分开时只是普通的字,连在一起才是坐具。如果全拆开,AI 理解语义的压力会变大。
  2. 计算量大: 如果一本书有 10 万字,按字拆就有 10 万个积木;如果按词拆,可能只需 6 万个,处理速度快得多。

为了平衡,科学家发明了 BPE(字节对编码)算法。大模型在正式上线前,会先经历一个“离线训练”阶段。科学家会喂给分词器海量的文本,让它提前“焊”好一套包含约 20 万个常用组合的静态词表(以 GPT-4o 的 o200k_base 为例)。

配图


4. BPE 算法:它不认识笔画,只认识字节

这个听起来高端的 BPE 算法,其实原理特别“呆萌”,但它并不是拆成“笔画”,而是拆成更底层的字节(Bytes)

  1. 初始态: 先把文字拆成最细小的字节编码。模型完全不懂笔画,它只看底层的计算机数据。
  2. 数一数: 统计哪两个字节最常挨在一起。比如“人”和“工”总是一起出现。
  3. 焊起来: 既然你们关系好,我就把你们“焊”死,做成一个大积木叫“人工”。

这个过程不断重复,直到攒够 20 万种组合。注意:这个词表是固定死的。当你问 AI 问题时,它只是在用这套现成的词表查表,而不是现场现焊。

配图


5. 为什么中文在语义上更“贵”?

小明问:“阿模,既然现在一个汉字不到 1 个 Token,为什么大家还说中文贵?”

阿模纠正道:“这是因为同样的语义内容,中文消耗的 Token 往往是英文版的 1.5 到 2 倍。”

虽然一个汉字 Token 数少了,但要表达“I have an apple”,英文只需 4 个 Token。而中文“我有一个苹果”虽然只有 6 个字,但算上标点和复杂的语义转译,在整体消耗上依然比英文大。这就导致了在按量付费时,处理同样的信息量,中文确实更“费钱”。

配图


6. 分词器的“偏见”:生僻字与冷门语言

分词器的设计其实存在某种“偏见”。因为词表大小有限,它会优先把坑位留给高频词。

  • 生僻字的尴尬: 像“龘”这样的生僻字,词表里可能没有它的专属积木。AI 就得把它拆成 3-4 个零碎的字节块。这不仅让 AI 处理起来更慢,还容易让它“理解偏差”,这也是为什么 AI 容易在生僻字上出错。
  • 语言不平等: 英文等主流语言有大量“现成大积木”,而一些冷门的小语种(如某些非洲方言)只能用细碎的零件拼凑。这意味着小语种用户在使用 AI 时,速度更慢、费用更高、效果也更差。

7. Token 数量:决定了 AI 的物理极限

别小看这几块积木,它们直接决定了三个核心指标:

  1. 上下文窗口(记忆容量): AI 能记得多少内容,取决于它能同时塞进多少块积木。比如 128K Token 的窗口,就像是一个能装 12.8 万块积木的游泳池,满了就得丢掉旧的。
  2. API 费用: 厂商是按积木收费的。因为每处理一个 Token 都需要消耗显卡的算力。
  3. 生成速度: AI 生成内容是逐个(One-by-one)串行生成的。它每算出一个数字 ID,转换成文字吐给你,然后再算下一个。这种“串行”本质决定了积木越多,你等待的时间就越长。

配图

配图

配图


8. 实用小贴士:如何高效利用“积木”

了解了 Token 的秘密,小明现在学会了几个省钱及提升 AI 效果的大法:

  • 提问直奔主题: 废话越少,Token 越省,AI 的注意力也更集中。
  • 长文本先总结: 如果你要让 AI 读长篇报告,先让它总结大意。这能避免超出“记忆窗口”,防止它看到后面忘了前面。
  • 少测试生僻字: 除非必要,尽量用通俗的词汇交流,这样能减少分词错误,让 AI 更聪明。
  • 控制回复长度: 在调用 API 时设置 max_tokens 参数,防止 AI 话痨模式开启导致钱包空空。

“原来如此!”小明感叹道,“既然文字被拆成了积木,那 AI 又是怎么知道这些积木之间的逻辑关系的呢?”

阿模神秘地眨眨眼:“这就涉及到我们的下一个核心技能:注意力机制。它能让我在万千积木中,一眼看到最重要的那一块。”

配图


下期预告: 为什么 AI 能读懂你的“弦外之音”?为什么在几千字的长文中它能精准定位你要的信息?下一期,我们将聊聊大模型的灵魂——注意力机制(Attention)。我们会用“聚光灯”的比喻,带你走进 AI 的思考核心!

配图