自2025年以来,AI大模型的浪潮席卷各行各业,金融 AI 应用也层出不穷。在金融这个对长上下文、高准确度有刚需,且边际人力成本极高的领域,Token 究竟是消耗品,还是价值资本?
近日,盈米基金且慢高级技术总监梁仲智在接受媒体采访时,分享了开源项目 Token-Zip 的设计思路,以及其背后对“Token 经济学”的思考。
他表示,在金融服务场景并非“万物皆AI”,Token 的消耗在非标的业务场景中,甚至可以成为“非线性增长的价值杠杆”。
(图|思维转变:从成本中心到价值杠杆)
以下为经验分享,仅代表个人观点:
01
文言文是AI时代高质量的“压缩包”?
此前,盈米AI开放平台发布的Token-Zip 的项目引发了业界的热烈讨论。(AI实践:在Token热之外,我们实验了一套“文言文压缩LLM”的架构)
Token-Zip 的核心逻辑具有东方智慧和中式硬核。我们可以简单理解为,AI在调用 GPT-4、Claude 等昂贵的大模型前,先用高性价比的模型将指令“翻译”成“文言文”进行思考,最后再“解压”回目标语言。
而这个解题思路的产生源于2025 年初,当时海外开源社区出现的一个奇特现象:很多开发者发现同样的意思用中文表达比英文更省 Token。
比如“学而时习之,不亦说乎”,9个汉字表达的含义翻译成英文至少需要 20-30 个词。
梁仲智随即做了一组对照实验,把同一段话分别用英文、现代中文、文言文撰写,最后统计 Token 。结果显示,文言文的 Token 数量大约为英文的 30-40%。
于是,Token-Zip 开源项目应运而生。梁仲智将其形象比喻为在昂贵大模型的两端各加一个压缩包和一个解压包。
🤖
-
输入端:用一个低成本模型(如 DeepSeek、Qwen)把用户提问翻译成文言文。
-
处理端:昂贵的推理模型接收文言文后,进行高密度的逻辑推理 。
-
输出端:得出的推理结果,再通过低成本的模型翻译回目标语言。
实测数据显示,该方案平均能节省 51% 的成本,最高可达 72%。 更值得注意的是,由于减少了冗余干扰,模型的回复质量评分也从 7.3 提升到了 7.6。
(实测结果详见:github.com/yingmi-dev/…
对于普通的用户而言,这一切在后台静默完成的,用户不会接触到文言文的信息,直接得到结果,正如网页传输中的 gzip 压缩一样无感透明。
02
Token 经济的再定义:从成本中心到价值杠杆
在金融服务场景中存在⼤量的⾃然语⾔交互,比如投顾服务、客户咨询、研报⽣成、合规审查等,这些场景的输⼊和输出都是以⾃然语⾔为主。
Token-Zip 的 benchmark 数据也表明,自然语言越密集,其压缩效果越好(密集度如法律 60%、教育 60%、医疗 57%、⾦融45%)。
“之所以会有AI成本焦虑,本质上是‘不知道值不值得’的问题。如果 1 分钱的 Token 换来的是几百元的人力边际成本替代,那这笔钱花得太值了。” 梁仲智表示。
对于如何判断Token的价值标准,梁仲智提出了一个核心原则——Token套利。简单理解为,一笔 Token 的消耗是否值得,取决于它创造的价值是否显著超过其成本。
基于这一原则,盈米研发将 AI 服务的业务场景划分为两类:
第一类是“确定性场景”。
这类场景存在最优解决方案,如基金筛选器、净值查询、账户总览、组合回测工具等,可以直接查询输出,不需消耗 Token 去进行推理。所以这类场景中,⽤传统软件做就是最优解,AI 在这⾥反⽽引⼊了不必要的不确定性和成本。
AI在这类场景中的真正价值在于“加速开发”。具体来说就是⽤ AI 辅助编程、⽣成原型、⾃动化测试,把原本需要 4-8 周的开发周期压缩到⼏天,⼤幅降低开发的⼈⼒成本。但最终交付给⽤户的产品应该是确定性的软件,⽽非每次都消耗 Token 的 AI 推理。
“在有最优解的确定场景中,AI 是探索器,软件是固化器。 AI 帮你快速验证⼀个场景是否有价值、逻辑应该是什么样的;⼀旦验证通过且模式稳定,就应该逐步把它从 AI 推理模式迁移到确定性代码模式,把边际成本压到零。 ”梁仲智表示。
第二类是“非标场景”。
这类场景没有最优解,如复杂的财富管理服务和咨询建议。在传统模式下,人力成本与产出呈线性关系。
这个场景中,AI的解题思路在于打破线性增长,实现非线性扩张。 当 AI 能够承担⼤量⾮标准 化的分析、判断、个性化推荐⼯作时,顾问的⼈数不再需要随客户数量线性增⻓,⽽是快速收敛到⼀个远低于线性增⻓的⽔平。比如,10 个顾问配合 AI,可能就能覆盖过去传统模式下 100 个顾问的服务范围。
(图|依据场景判断AI方案)
“这就是为什么我们在⾦融顾问服务场景上⼤量投⼊ Token ——因为每⼀个 Token 替代的不是⼏分钱的计算成本,⽽是⼏⼗块甚⾄⼏百块的⼈⼒边际成本。此时,Token 就不再只是成本,而是购买‘增长杠杆’的资本。 ”梁仲智表示。
不是所有东⻄都应该⽤ AI 来做,但也不是所有 AI 的 Token 消耗都应该被视为「成本」——在线性成本场景中,Token 消耗本质上是在购买“⾮线性增⻓的杠杆”。
🤖总结一句话:有最优解的标准场景,⽤ AI 加速开发,软件固化交付;没有最优解的线性成本场景,则⽤ AI 打破线性,实现⾮线性扩张。
03
四层降本实践:从模型选型,到“场景固化”
除了文言文压缩的Token-Zip 方案, 过去两年盈米基金研发团队沉淀了一套系统化的降本增效四层路径:
第⼀层:动态模型路由
这是效果最显著的⼀层。比如,简单的客服问答⽤ Qwen 或 DeepSeek 这类国产模型,成本只有 Claude/GPT 的⼏⼗分之⼀,但效果完全不输国外大模型。当遇到真正需要强推理能⼒的场景,⽐如:复杂的投资分析、多步骤的财务规划等环节,才会路由到顶级的大模型。
所以,模型选型并不是⼀次性决策,⽽是持续优化和组合的动态过程。 比如2024 年初,很多场景只有 GPT-4 能做好;到了 2025 年,随着国产模型能效比的追赶,盈米研发使用的模型也会进行动态迁移。
“在我们盈米研发的内部有⼀个持续的 benchmark 流程,每当有新的大模型发布,就会在我们的核⼼场景上跑⼀遍评测,看看能不能替换。”梁仲智表示。
第⼆层:Prompt ⼯程与上下⽂管理
盈米研发通过精简 system promp、动态加载上下⽂(只给模型真正需要的信息,⽽不是把所有东⻄都塞进去)、优化 few-shot 示例的数量和质量以及合理管理对话历史的⻓度等方式,显著减少无效 Token 的消耗。
第三层:场景固化
这是最有战略意义的⼀层。当⼀个 AI 场景被反复使⽤,并且其工作逻辑已经稳定下来之后,盈米研发会把它从“每次都让 AI 从零推理”,逐步固化为“模板化执⾏” 。
比如,第⼀次让 AI ⽣成⼀份基⾦分析报告,它需要从零思考报告结构、分析维度、数据解读⽅式,消耗⼤量 Token。
当这个报告的结构和逻辑已经被验证过⼏⼗次之后,盈米研发就把它固化成⼀个模板。这也意味着,AI 只需要填⼊最新的数据,⽽不需要重新思考推理逻辑,从而降低Token 消耗。
第四层:Token-Zip 式的压缩方案
对于前三层优化路径的最后一步,Token-Zip 方案就可以为无法固化的强推理场景提供额外压缩。
04
中文或将成为 AI 推理的“主场”?
“Token-Zip 这个项⽬虽然看起来是⼀个“省钱⼯具”,但它背后触及了⼀个更深层的命题:在 AI 时代,中⽂乃⾄整个汉语体系是否具备某种结构性优势? Token-Zip 利⽤的是⽂⾔⽂的信息密度优势,但如果我们把视野放宽,中⽂在 AI 时代的优势远不⽌「信息密度」这⼀个维度。”梁仲智补充道。
在梁仲智看来,Token-Zip 不只是⼀个技术⽅案,AI似乎正在自发地选择中文思考。这背后折射出的是中文世界在AI时代可能拥有的一些被低估的优势,如语⾔的信息密度、模型的⾃发选择、Tokenizer 的主场优势以及⼏千年⽂化积淀中蕴含的信息压缩智慧等。
在大模型迭代升级的 AI 洪流中,Token 也正在从成本中心转变为价值驱动的精耕细作。或许,金融 AI 的下半场,核心并不在于拥有多少算力,接入多少模型,而是以“如何定义 Token 价值”作为智能转型的核心竞争力。