人人都能懂的大模型 · 第6期：Token：AI 眼里的“乐高积木”1. 别惊讶，AI 根本不认识“字”！小明最近在玩

这是一个为零基础读者准备的 30 期系列科普。在这里，没有晦涩的代码和公式，只有最接地气的比喻和阿模、小明的日常。让我们一起拆解大模型，看清人工智能的真面目。

1. 别惊讶，AI 根本不认识“字”！

小明最近在玩 ChatGPT 时发现一个奇怪的现象：他问 AI 一个生僻字怎么读，AI 有时候会一本正经地胡说八道。他跑去问阿模：“阿模，难道你们大模型也有‘认字障碍’吗？”

阿模晃了晃方脑袋，嘿嘿一笑：“小明，其实在我的世界里，根本就没有‘字’或者‘词’的概念。当你输入‘你好’时，我看到的不是两个汉字，而是两个编了号的积木块，我们管这叫 Token（词元）。”

你可以把 Token 想象成 AI 的“乐高积木”。不管你喂给它的是中文、英文、还是代码，AI 都会先拿出一把无形的“小剪刀”，咔嚓咔嚓把这些文字剪成一块块积木。

最关键的一步是： 每一块积木在进入 AI 的大脑前，都会被转换成一个数字 ID。比如“你好”可能变成 [12345, 67890]。AI 内部本质上并不处理文字，而是进行复杂的数学计算。只有当你看到它吐出答案时，它才把这些数字 ID 重新翻词典变回文字。

很多朋友初学时会问：一个 Token 是不是就是一个汉字？或者一个英文单词？

答案是：不一定。

Token 是 AI 处理文字的最小单位。为了效率，AI 不会死板地按字拆分。

英文： 像 "apple" 这种常用词，效率很高，通常 1 个单词对应 1 到 1.3 个 Token；但像 "unbelievable" 这样的大长词，会被拆成多个零件。
中文： 现在的先进模型（如 GPT-4o）中文效率极高。1 个汉字平均仅占 0.6 至 0.8 个 Token。这意味着 1000 个 Token 就能装下约 1200 到 1500 个汉字。

你可能会想：为什么不直接规定“一个字就是一个 Token”？这叫“字符级分词”。

虽然按字拆分很简单，但它有致命缺点：

为了平衡，科学家发明了 BPE（字节对编码）算法。大模型在正式上线前，会先经历一个“离线训练”阶段。科学家会喂给分词器海量的文本，让它提前“焊”好一套包含约 20 万个常用组合的静态词表（以 GPT-4o 的 o200k_base 为例）。

这个听起来高端的 BPE 算法，其实原理特别“呆萌”，但它并不是拆成“笔画”，而是拆成更底层的字节（Bytes）。

这个过程不断重复，直到攒够 20 万种组合。注意：这个词表是固定死的。当你问 AI 问题时，它只是在用这套现成的词表查表，而不是现场现焊。

小明问：“阿模，既然现在一个汉字不到 1 个 Token，为什么大家还说中文贵？”

阿模纠正道：“这是因为同样的语义内容，中文消耗的 Token 往往是英文版的 1.5 到 2 倍。”

虽然一个汉字 Token 数少了，但要表达“I have an apple”，英文只需 4 个 Token。而中文“我有一个苹果”虽然只有 6 个字，但算上标点和复杂的语义转译，在整体消耗上依然比英文大。这就导致了在按量付费时，处理同样的信息量，中文确实更“费钱”。

分词器的设计其实存在某种“偏见”。因为词表大小有限，它会优先把坑位留给高频词。

生僻字的尴尬： 像“龘”这样的生僻字，词表里可能没有它的专属积木。AI 就得把它拆成 3-4 个零碎的字节块。这不仅让 AI 处理起来更慢，还容易让它“理解偏差”，这也是为什么 AI 容易在生僻字上出错。
语言不平等： 英文等主流语言有大量“现成大积木”，而一些冷门的小语种（如某些非洲方言）只能用细碎的零件拼凑。这意味着小语种用户在使用 AI 时，速度更慢、费用更高、效果也更差。

别小看这几块积木，它们直接决定了三个核心指标：

上下文窗口（记忆容量）： AI 能记得多少内容，取决于它能同时塞进多少块积木。比如 128K Token 的窗口，就像是一个能装 12.8 万块积木的游泳池，满了就得丢掉旧的。
API 费用： 厂商是按积木收费的。因为每处理一个 Token 都需要消耗显卡的算力。
生成速度： AI 生成内容是逐个（One-by-one）串行生成的。它每算出一个数字 ID，转换成文字吐给你，然后再算下一个。这种“串行”本质决定了积木越多，你等待的时间就越长。

了解了 Token 的秘密，小明现在学会了几个省钱及提升 AI 效果的大法：

“原来如此！”小明感叹道，“既然文字被拆成了积木，那 AI 又是怎么知道这些积木之间的逻辑关系的呢？”

阿模神秘地眨眨眼：“这就涉及到我们的下一个核心技能：注意力机制。它能让我在万千积木中，一眼看到最重要的那一块。”

下期预告： 为什么 AI 能读懂你的“弦外之音”？为什么在几千字的长文中它能精准定位你要的信息？下一期，我们将聊聊大模型的灵魂——注意力机制（Attention）。我们会用“聚光灯”的比喻，带你走进 AI 的思考核心！