实测:让大模型用文言文回复,真的能省 Token 吗?

4 阅读5分钟

实测:让大模型用文言文回复,真的能省 Token 吗?

项目地址:

gitee.com/aedge/wenya…

背景:文言文能否成为“省钱利器”?

在使用大模型 API 时,Token 消耗直接决定了成本。众所周知,文言文作为古代的书面语言,以“言简意赅”著称,能用极少的字数表达丰富的含义。 于是产生了一个有趣的假设:如果强制大模型输出文言文,是否能利用其高密度的特性大幅减少 Token 消耗,从而降低 API 调用成本? 为了验证这一假设,我设计了一个对比实验,让模型同时输出白话文与文言文,通过真实数据来回答这个问题。

实验设计简述

为了保证对比的公平性,实验采用了“单次双输出”的策略:

  1. 测试模型:智谱 GLM-4.6v-Flash。
  2. 测试方式:要求模型对同一个问题,在一次回复中同时生成“白话文版本”和“文言文版本”。
  3. 统计口径:使用 GLM-4 的分词器分别计算两种文本的 Token 数,并计算差值(白话文 Token - 文言文 Token)。
    • 正值:代表文言文更省 Token。
    • 负值:代表文言文反而更费 Token。
  4. 样本量:选取了涵盖日常闲聊、科普、职场写作、历史分析等 18 个典型问题,每个问题测试 20 次取平均值。

实验结果数据一览

以下是 18 个问题的测试核心统计数据(单位:Token):

问题最小差值最大差值平均差值中位数
你是谁?-236-5.80-4.50
天气怎么样?-75-0.50-0.50
什么是重力?-11312.451.00
饿了吃什么好?-6163.203.00
现在几点了?-22-0.70-1.00
为什么天空是蓝色的?-115312.257.00
请解释一下什么是人工智能。-7301.65-3.00
如何提高自己的写作能力?-41504.050.00
中国最长的河流是哪一条?-157-1.200.00
为什么热水有时候比冷水结冰快?-32231.501.50
规划北京到上海的行程-281089.953.50
对比量子计算机与传统计算机-126178-0.15-3.00
失眠焦虑调节建议-45978.453.00
古代谋士破敌之策-238036.2033.00
给五岁小孩解释地球形状-45414.7013.00
项目管理沟通不畅解决-14707.90-0.50
分析唐朝由盛转衰-3013539.2529.50
撰写职场请假邮件-9170.30-1.00

注:差值为正表示文言文省 Token,为负表示文言文费 Token。

深度结论分析

通过数据分析,我们发现文言文在 Token 消耗上呈现出极具规律的“三极分化”现象:

1. 什么时候文言文能“爆省” Token?

结论:当语境契合历史题材,或需要极高密度输出逻辑时。 最典型的例子是“古代谋士破敌”和“唐朝由盛转衰分析”。

  • 案例:在回答谋士破敌问题时,白话文需要详细阐述兵力对比、战术逻辑、心理博弈,篇幅很长;而文言文仅需“夜袭之”、“宜火攻”、“断其粮道”寥寥数语,信息密度极高。
  • 数据:谋士问题的平均 Token 差值高达 36.20,意味着文言文版本平均比白话文少消耗 36 个 Token。这在高频调用场景下是一笔可观的节省。

2. 什么时候文言文反而“倒贴” Token?

结论:日常短句闲聊与强现代专业术语场景。

  • 日常寒暄:如“你是谁?”、“天气怎么样?”。
    • 大模型的分词器对现代高频词(如“天气”、“你好”)优化极佳,往往 1-2 个 Token 就能表示。
    • 一旦转为文言文(如“今夕天象”、“吾乃何人”),这些相对低频的字符组合会被切分成更多碎片化的 Token,导致“得不偿失”。数据显示,“你是谁”问题的文言文平均多消耗了 5.8 个 Token。
  • 现代科技/职场:如“量子计算机”、“请假邮件”。
    • 文言文缺乏对应现代术语的“标准翻译”。模型被迫进行生造词或冗长的描述性解释(如用量子概念硬套古文),不仅阅读拗口,Token 消耗也极其不稳定,甚至出现单次暴涨 126 个 Token 的情况。

3. 绝大多数情况下,省 Token 效果如何?

结论:差异微乎其微,无明显优势。 对于大多数常规问答(如科普、建议类),文言文和白话文的 Token 消耗基本持平。虽然平均值看似有节省,但这往往是被少数“精炼回答”拉高的,实际中位数往往在 0 附近徘徊。 甚至,还有一个隐性成本被忽略了: 模型在生成文言文时,内部需要进行“白话转文言”的复杂推理,这部分的“思考时间”和潜在的思考 Token 开销并未计入输出统计。如果算上这部分算力成本,性价比可能更低。

最终总结

通过本次 360 次(18问 x 20次)的实测,我们可以得出以下结论:

  1. 不要指望用文言文作为通用的省钱手段。在绝大多数场景下,它的收益可以忽略不计,甚至可能因为分词问题导致成本增加。
  2. 特定场景有奇效。如果你在开发历史 RPG 游戏、古文辅助写作工具,或者需要极高密度的策略输出,强制文言文输出确实能显著降低 Token 消耗。
  3. 需权衡用户体验。文言文虽然短,但增加了用户的阅读门槛和模型的理解负担。为了节省微薄的 Token 成本而牺牲交互体验,在大多数产品中可能并不划算。 一句话总结:文言文虽好,但不要迷信它能在大模型时代“降本增效”,顺应模型分词规律的“大白话”往往才是性价比最高的选择。