一、前言
咱们想象一下,你走进一家餐厅,菜单上写着“按食材重量收费”。你点了一碗面,结果结账的时候才发现,不光面条算重量,汤底、葱花也全都算,而且每种食材的单价还不一样。
大模型(Large Language Model, LLM)就是经过海量文本训练的AI系统,能听懂咱们说的话,也能生成人类能看懂的文字。
像GPT、Claude、Gemini、DeepSeek,都属于这一类。而Token,就是大模型处理文本的最小单位——它不是单个字,也不是完整的词,更像是介于两者之间的“语言小积木”。
不管是你输入文字给模型,还是模型生成文字回复你,都是按这个Token来计算费用的。
可能有人会问,搞懂这些有啥用?其实它直接关系到三件实实在在的事:
成本——不同模型的Token单价,差距能达到60倍以上
选型——上下文窗口的大小,决定了模型能“记住”多少之前的内容
使用体验——明白对话的底层逻辑,才能更省时间、更高效地用AI工具
这篇文章就从四个方面跟大家说清楚:对话的本质到底是什么、上下文有哪些限制、Token是怎么计费的、主流编程模型该怎么选。
不管你是刚接触AI的新手,还是正在选技术的开发者,都能在这儿找到自己需要的答案。
二、模型的对话指的是什么
2.1 对话的本质
跟大模型“聊天”,看着好像跟跟真人说话一样,但背后的原理完全不一样。每一轮对话,本质上都是一次单向的“发请求-等回复”:
你发一段文字(Prompt)→ 模型处理这段文字 → 模型返回一段文字(Response)
这就跟发邮件似的,模型没有“一直思考”的状态。它每次都是拿到你发的完整内容,从头开始理解,然后一次性把回复生成好。
也就是说,每一轮对话都是一次独立的API调用,模型本身并不会“记得”之前跟你聊过什么。
2.2 Token是什么
Token就是模型处理文本的基本单位。你可以把它理解成一块块语言小积木——模型处理文本的时候,是把文字拆成一块一块的积木来处理,不是一个字一个字地读。
不同语言的拆分方式不一样:
英文:大概1个单词等于1-2个Token。比如“Hello world”,会拆成["Hello", " world"],一共2个Token
中文:大概1个汉字等于1.5-2.5个Token。比如“你好世界”,会拆成["你", "好", "世", "界"],大概需要4-8个Token
这里要重点说一句:中文消耗的Token比英文多不少。同样的意思,用中文输入可能比用英文多花50%-100%的Token,这直接就影响到咱们用AI的成本了。
想自己试试感受一下?可以用OpenAI的Tokenizer可视化工具[1],把中英文分别粘贴进去,一对比就清楚了。
2.3 对话 vs 会话(Session)
咱们平时用Claude或者GPT的时候,打开的一个“聊天窗口”,就是一个会话(Session)。你每发一条消息,就是一轮对话。
这里有个关键问题大家要知道:每一轮对话的时候,模型都要重新读取整个会话的历史记录。
举个例子:
三、模型的对话上下文限制
3.1 什么是上下文窗口(Context Window)
上下文窗口,简单来说就是AI模型的临时记忆上限,指模型同一时间能够处理的全部Token数量,不管是我们输入的内容,还是模型生成回复的内容,都会统一占用这份额度。
可以用生活里的书桌来通俗理解,书桌的台面尺寸,就相当于上下文窗口的大小。
台面越宽敞,一次性摆放、查阅的资料就越多。128K上下文,大致对应一本300页书籍的内容体量,1M上下文的容纳量,差不多能达到七八本书。
不同产品和API用到的策略不一样。就拿开发者常用来写代码的Claude Code来说,它用的是一套层层递进的压缩策略。
微压缩(Micro Compact)—— 每一轮都会自动悄悄执行,要是超过3轮的旧工具调用结果,会直接换成简短的占位符,比如[Previous: used read_file],不用调用模型,纯靠规则来替换就行。
自动压缩(Auto Compact)—— 当Token数量快达到上下文窗口上限的时候就会触发,Claude Code大概在92%的时候会启动,这时模型会对整段对话做一个结构化的总结,然后用这个总结替换掉之前的完整对话记录。
手动压缩(/compact 命令)—— 由用户主动触发,不用等达到自动触发的阈值,适合在一些关键节点上,主动腾出对话空间。
这套“先靠规则替换、再靠模型总结”的递进设计,能在不丢关键信息的前提下,尽量延长对话能用的长度。
对API开发者来说,滑动窗口和摘要压缩是最常用的两种方案,大家可以根据自己的业务场景灵活选。
四、Token 的计费
4.1 计费模型解析
大模型API的计费特别直接:按Token数量收费,输入和输出是分开算钱的。
输入Token(Input):就是你发给模型的所有内容,包括系统提示词、之前的对话记录、还有你当前问的问题。
输出Token(Output):就是模型给你生成的回复内容。
为啥输出比输入贵呢?因为输入的时候,模型是一次性读取所有Token,并行处理的;
而输出的时候,是一个Token一个Token慢慢生成的,每一步都得单独做推理计算。
一般来说,输出的价格是输入的3-5倍。
计费单位都是统一的,按每百万Token来算($/MTok 或 ¥/MTok)。
4.3 省钱技巧
Prompt Caching(提示缓存)
大部分平台都支持缓存重复输入的内容,比如系统提示词。只要能命中缓存,这部分Token最多能省90%的钱。
要是你的应用有固定不变的系统提示词,用这个方法省钱最直接。
Batch API(批量接口)
如果是不需要实时拿到结果的任务,比如批量翻译、数据标注这类,用Batch API能省50%的费用。
不过要注意,代价就是响应速度会变慢,从原来的几秒钟,变成几分钟甚至几小时。
选择合适的模型层级
不是所有任务都得用最厉害的模型,选对层级就能省钱:
简单任务(比如格式转换、做摘要、分类)→ 用Haiku / Flash / 小模型就行
复杂任务(比如代码生成、逻辑推理、内容创作)→ 再用Opus / Pro / 大模型
Auto Router(智能路由)
Auto Router会根据任务的复杂程度,自动选对应的模型层级,简单任务走便宜的小模型,复杂任务才用贵的强模型。
Claude Code社区有个很火的项目claude-code-router(26.4k+ Star),用它最多能省80%的成本。
不过Auto Router也有明显的缺点,大家要注意:
路由误判——有时候复杂任务会被分到弱模型,导致输出质量下降
响应一致性差——同一轮对话里可能会切换模型,输出的风格和质量不统一
额外延迟——路由自己判断该用哪个模型,也需要花一点时间
调试困难——出问题的时候,分不清是模型本身的问题,还是路由判断错了
它适合这样的场景:对成本比较敏感,能接受偶尔出现质量波动的个人开发者,或者非关键的业务使用。
Claude 4.6 取消长上下文额外收费,是一次关键调整。
以往调用超长上下文功能,都会产生额外开销,而现在Claude实现1M全窗口统一计价,不管是使用10K Token,还是900K Token,单价都保持一致。
对于日常要处理大量代码、长篇文档的开发者而言,这项调整能实打实降低使用成本,优势十分明显。
五、模型优劣势对比
5.1 模型评估方法
挑选AI模型,不能只听信官方的宣传介绍。下面这些权威的测评渠道和参考标准,更具备参考价值:
什么是 Benchmark?
Benchmark 就是一套标准化测试数据集,主要用来量化评判AI模型在各类具体任务中的实际表现。目前主流的测评类型主要包括:
SWE-Bench 侧重测评软件工程实操能力,会给模型推送真实的GitHub问题工单,检验模型修复代码漏洞的实际水平
MMLU 属于多学科综合知识测评,涵盖数学、理科、人文等57个不同学科
GPQA 主打研究生阶段难度的理科逻辑推理测试
数据参数只是参考的一小部分。落地实际使用时,Claude 的优势集中在超长文本语境、代码解读以及智能体工作流的落地表现上;
GPT-5.4 本次主要优化了电脑端实操能力和工具调用能力,对比5.2版本,代码编写能力只做了小幅度优化升级;
DeepSeek 属于开源模型,支持本地私有化部署,很适合看重数据安全、有隐私防护需求的使用场景。
5.3 如何选型
不用纠结哪一款模型综合实力最强,关键要看自身使用场景,挑选适配度最高的那一个。下面整理了不同常见场景的模型挑选思路,可以直接参考:
编程场景
追求代码产出质量 → 可选Claude Opus 4.6(SWE-Bench 80.8%)、GPT-5.4(配套生态完善)
控制使用成本、看重性价比 → 可选MiniMax M2.5、DeepSeek V3.2
有本地部署需求 → 可选DeepSeek V3.2、GLM-5
长文本处理
需要解析超大体量代码库 → 可选Claude 4.6(1M 窗口,无额外收费)、Gemini 3 Pro(1M 窗口)
预算紧张、想要低成本使用 → 可选Kimi K2.5、MiniMax M2.5
六、结语
大模型不存在绝对的好坏之分,只有适配与否的区别。
大家在挑选模型时,可以遵循三步选型逻辑:第一步先理清自身使用场景,不管是编程、日常对话、文本翻译还是图片生成,都要先确定需求;
第二步参考Benchmark各项数据,借助第三方专业评测平台,直观核验模型的实际能力;
第三步核算综合使用成本,结合Token单价和日常预估使用量,算出整体花费。
随着AI行业持续发展,行业竞争不断加剧,各类大模型的综合性能持续升级,使用成本也在不断下探。
建议大家持续留意行业动态,定时复盘调整模型选型方案,当下合适的选择,未必能适配后续的使用需求。