实测:让大模型用文言文回复,真的能省 Token 吗?
项目地址:
背景:文言文能否成为“省钱利器”?
在使用大模型 API 时,Token 消耗直接决定了成本。众所周知,文言文作为古代的书面语言,以“言简意赅”著称,能用极少的字数表达丰富的含义。 于是产生了一个有趣的假设:如果强制大模型输出文言文,是否能利用其高密度的特性大幅减少 Token 消耗,从而降低 API 调用成本? 为了验证这一假设,我设计了一个对比实验,让模型同时输出白话文与文言文,通过真实数据来回答这个问题。
实验设计简述
为了保证对比的公平性,实验采用了“单次双输出”的策略:
- 测试模型:智谱 GLM-4.6v-Flash。
- 测试方式:要求模型对同一个问题,在一次回复中同时生成“白话文版本”和“文言文版本”。
- 统计口径:使用 GLM-4 的分词器分别计算两种文本的 Token 数,并计算差值(白话文 Token - 文言文 Token)。
- 正值:代表文言文更省 Token。
- 负值:代表文言文反而更费 Token。
- 样本量:选取了涵盖日常闲聊、科普、职场写作、历史分析等 18 个典型问题,每个问题测试 20 次取平均值。
实验结果数据一览
以下是 18 个问题的测试核心统计数据(单位:Token):
| 问题 | 最小差值 | 最大差值 | 平均差值 | 中位数 |
|---|---|---|---|---|
| 你是谁? | -23 | 6 | -5.80 | -4.50 |
| 天气怎么样? | -7 | 5 | -0.50 | -0.50 |
| 什么是重力? | -11 | 31 | 2.45 | 1.00 |
| 饿了吃什么好? | -6 | 16 | 3.20 | 3.00 |
| 现在几点了? | -2 | 2 | -0.70 | -1.00 |
| 为什么天空是蓝色的? | -11 | 53 | 12.25 | 7.00 |
| 请解释一下什么是人工智能。 | -7 | 30 | 1.65 | -3.00 |
| 如何提高自己的写作能力? | -41 | 50 | 4.05 | 0.00 |
| 中国最长的河流是哪一条? | -15 | 7 | -1.20 | 0.00 |
| 为什么热水有时候比冷水结冰快? | -32 | 23 | 1.50 | 1.50 |
| 规划北京到上海的行程 | -28 | 108 | 9.95 | 3.50 |
| 对比量子计算机与传统计算机 | -126 | 178 | -0.15 | -3.00 |
| 失眠焦虑调节建议 | -45 | 97 | 8.45 | 3.00 |
| 古代谋士破敌之策 | -23 | 80 | 36.20 | 33.00 |
| 给五岁小孩解释地球形状 | -4 | 54 | 14.70 | 13.00 |
| 项目管理沟通不畅解决 | -14 | 70 | 7.90 | -0.50 |
| 分析唐朝由盛转衰 | -30 | 135 | 39.25 | 29.50 |
| 撰写职场请假邮件 | -9 | 17 | 0.30 | -1.00 |
注:差值为正表示文言文省 Token,为负表示文言文费 Token。
深度结论分析
通过数据分析,我们发现文言文在 Token 消耗上呈现出极具规律的“三极分化”现象:
1. 什么时候文言文能“爆省” Token?
结论:当语境契合历史题材,或需要极高密度输出逻辑时。 最典型的例子是“古代谋士破敌”和“唐朝由盛转衰分析”。
- 案例:在回答谋士破敌问题时,白话文需要详细阐述兵力对比、战术逻辑、心理博弈,篇幅很长;而文言文仅需“夜袭之”、“宜火攻”、“断其粮道”寥寥数语,信息密度极高。
- 数据:谋士问题的平均 Token 差值高达 36.20,意味着文言文版本平均比白话文少消耗 36 个 Token。这在高频调用场景下是一笔可观的节省。
2. 什么时候文言文反而“倒贴” Token?
结论:日常短句闲聊与强现代专业术语场景。
- 日常寒暄:如“你是谁?”、“天气怎么样?”。
- 大模型的分词器对现代高频词(如“天气”、“你好”)优化极佳,往往 1-2 个 Token 就能表示。
- 一旦转为文言文(如“今夕天象”、“吾乃何人”),这些相对低频的字符组合会被切分成更多碎片化的 Token,导致“得不偿失”。数据显示,“你是谁”问题的文言文平均多消耗了 5.8 个 Token。
- 现代科技/职场:如“量子计算机”、“请假邮件”。
- 文言文缺乏对应现代术语的“标准翻译”。模型被迫进行生造词或冗长的描述性解释(如用量子概念硬套古文),不仅阅读拗口,Token 消耗也极其不稳定,甚至出现单次暴涨 126 个 Token 的情况。
3. 绝大多数情况下,省 Token 效果如何?
结论:差异微乎其微,无明显优势。 对于大多数常规问答(如科普、建议类),文言文和白话文的 Token 消耗基本持平。虽然平均值看似有节省,但这往往是被少数“精炼回答”拉高的,实际中位数往往在 0 附近徘徊。 甚至,还有一个隐性成本被忽略了: 模型在生成文言文时,内部需要进行“白话转文言”的复杂推理,这部分的“思考时间”和潜在的思考 Token 开销并未计入输出统计。如果算上这部分算力成本,性价比可能更低。
最终总结
通过本次 360 次(18问 x 20次)的实测,我们可以得出以下结论:
- 不要指望用文言文作为通用的省钱手段。在绝大多数场景下,它的收益可以忽略不计,甚至可能因为分词问题导致成本增加。
- 特定场景有奇效。如果你在开发历史 RPG 游戏、古文辅助写作工具,或者需要极高密度的策略输出,强制文言文输出确实能显著降低 Token 消耗。
- 需权衡用户体验。文言文虽然短,但增加了用户的阅读门槛和模型的理解负担。为了节省微薄的 Token 成本而牺牲交互体验,在大多数产品中可能并不划算。 一句话总结:文言文虽好,但不要迷信它能在大模型时代“降本增效”,顺应模型分词规律的“大白话”往往才是性价比最高的选择。