最近"Token出海"这个词真的火得不行。不过说实话,官方现在给它起了个新名字——"词元"。我琢磨了一下,这个改名挺有意思的。
"元"这个字,咱们中国人都不陌生。一元、两元,是钱的意思。放到词元里,也有这层意思——它是大模型世界里计量单位,跟钱挂钩,有结算属性。
但"元"还有另一层意思——"元始",就是最根本、最基础的东西。"词"呢,就是词语、词汇,大模型处理内容的最小单元。
所以"词元"这个词,虽然是翻译过来的,但跟咱们的传统文化还真能挂上钩,有点美感。
不过话说回来,Token这个词在AI火起来之前,其实更多指的是加密货币。我前两天问豆包什么叫"Token出海",它第一反应还是给我扯加密货币——说明这词的历史包袱确实重。
也正因为如此,国家给AI领域的Token正式定名"词元",我觉得不光是翻译的问题,更是一次正本清源。把加密货币那层敏感联想彻底切断,给这个来自大模型的基础单元,建立咱们自己的一套说法。
一组让人意外的数据
现在网上能查到一些公开数据,挺有意思的——从今年春节到现在,中国大模型产生的Token消耗量,已经超过美国了。
数据来源是OpenRouter,全球最大的AI模型API聚合平台。2月首次超过,3月差距拉大,最近一周(3月30日到4月5日)中国的调用量是12.96万亿Token,美国才3.03万亿,差了4倍多。全球前十的模型,中国占了六席。
但是——注意这个但是——在OpenRouter上,美国开发者占了47.17%,欧盟加起来超过15%,中国才6.01%。
这说明什么?
平台还是欧美主导的全球市场,大部分Token消耗是被他们用掉的,而且是"用脚投票",不是喊口号。
换句话说,中国模型便宜,这是真的。中国大模型每百万Token的价格,比OpenAI和Anthropic便宜很多,7到60倍的差距。这个性价比,老外当然愿意买单。
我自己的一点冷思考
说实话,这波Token出海浪潮,咱们真不要太乐观了。
Token出海为什么能快速占领全球?本质上是"算力加模型"出海——算力基础设施、模型都在中国境内,用中国的电生产,再通过网络供给全球。这里面有个前提:中国能源基础设施的产业优势,只有在中国境内才成立。
打个比方,东南亚、中东现在也有一些国内厂商在建设算力中心,把模型部署在当地。但那边的能源基础设施比中国落后很多年,能不能提供同样的优势?说实话,我是有疑问的。
中国词元出海的逻辑,根本上还是建立在几十年能源、网络通信、信息数字基础设施持续大规模投入积累的产业能力上。这个底子,才是真正的竞争力。
还有一点——现在国内的Token服务,说实话还是黑盒状态。比如用某些工具访问Token服务,后端用什么模型、多大参数、精度多少、时延多少,统统不告诉你。
黄仁勋之前提过,Token服务应该分成五个层级,越往上价格越高。我觉得出海这件事,标准化分级这件事真的要尽快做。不同服务等级标不同价格,好服务配好价格,这才合理。
我平时接API用的是云卷API,500多个模型随意切换,比在一个平台上吊死强多了。
别重蹈光伏覆辙
我看到一种论调,说Token出海"百利而无一害"。这个说法,我不太敢苟同。
中国Token出海能便宜,决定性因素还是电价。但电价这件事不是永恒的。如果欧美率先突破可控核聚变,能源不再受约束,再叠加英伟达芯片的技术优势,他们的算力托管和推理效率提升几十上百倍,到时候谁更便宜还真不好说。
更关键的是,咱们不能只卷Token这种基础要素。Token相当于AI时代的IaaS——基础设施即服务。但云计算时代,光靠IaaS是活不下去的,得往PaaS(平台即服务)、SaaS(软件即服务)走。
大模型、人工智能真正要提供的服务,除了Token,还有智能体、数据服务等等。别学当年光伏厂商,卷完国内卷国外,最后活下来的没几家。
古人云:人无远虑,必有近忧。这话放在今天,一点不过时。