上周同事问我:"Bedrock 上这么多模型,到底该用哪个?"
我说你先别急。这事儿我折腾了两周,中间还踩了个大坑,一个月的模型调用费用比预期翻了好几倍。今天一篇文章全部讲清楚,保你不花冤枉钱。
先来个灵魂拷问
你现在是不是这样的:
- 听说 Claude 好就全用 Claude,不管啥任务都丢给它
- 不知道 Nova 是啥,在模型列表里看到直接跳过了
- 看到 Llama 是开源的就觉得"应该便宜吧"
- 月底看账单发现比预期贵了好几倍
- 或者反过来,只用便宜的,效果被业务方吐槽
如果中了两条以上,这篇文章就是写给你的。我把自己踩过的坑、总结出来的经验全部分享,你看完直接抄作业就行。
先搞清楚 Bedrock 是什么
亚马逊云科技的 Amazon Bedrock,说白了就是一个模型超市。你不用自己部署模型,不用买 GPU,不用操心运维和弹性伸缩这些基础设施的事。API 直接调,按用量付费。上面摆着好多家的模型,你挑着用就行。
好处很明显,省心。你只管调用,基础设施的事情平台全管了。什么模型部署、版本管理、高可用、监控告警,统统不用你操心。
问题也很明显,模型太多了。光首页列出来的就有几十个。名字看着都差不多,到底有啥区别?选错了要么花冤枉钱,要么效果达不到预期。今天就把这事儿讲清楚。
三大门派详解
🟠 Amazon Nova:亚马逊云科技自家的性价比杀手
Nova 是亚马逊云科技自家研发的模型系列。2024 年底推出的,迭代速度惊人。四个型号,定位非常清晰:
Nova Micro 是纯文本的小钢炮。这是我用下来觉得性价比炸裂的一个型号。延迟低到飞起,价格便宜到让人不敢相信。翻译一段话、提取一个字段、改写一段文字、回答一个简单问题,用它就对了。成本是 Claude Sonnet 的几十分之一,速度还更快。我一开始压根没在意这个模型,以为便宜没好货。后来跑了一批对比测试才发现,简单任务上的准确率完全在线。之前的偏见白白多花了不少钱。
Nova Lite 是能看图、能看视频的多模态入门选手。价格依然很友好,但加上了多模态能力。如果你有一批包含图片的数据要处理,比如商品图片分类、用户上传的截图识别、视频内容摘要,它一个模型就能搞定文本和图片,不用单独搞一个图片处理管线。批量处理的好搭档。
Nova Pro 是多模态全能选手。性能比 Lite 高一个档次,处理图片和视频的精度和理解深度都更好。如果 Lite 的质量满足不了你,Pro 是自然的升级选择。日常的图片内容理解、视频关键帧分析都能搞定。
Nova Premier 是推理担当。复杂的 Agent 场景、多步骤自主决策、长链推理,Premier 的推理深度比其他三个 Nova 型号强不少。如果你在搭一个需要"自主思考和做决策"的 Agent 系统,可以考虑这个。
🟣 Anthropic Claude:代码和推理的质量标杆
Claude 系列在开发者圈子里口碑一直很好。三个型号各有侧重:
Claude Haiku 是轻量快速型。响应速度快,适合对质量要求不太高但需要快速返回的场景。不过说句实话,很多 Haiku 能干的活,Nova Micro 也能干,还更便宜。所以 Haiku 的使用场景在我这儿被 Nova Micro 压缩了不少。
Claude Sonnet 是大部分开发者的主力模型。写代码真的好用,这不是客套话。代码结构清晰,异常处理完善,注释到位,还会解释设计思路。有一次让它写一个 Python 的接口限流装饰器,它不但实现了滑动窗口算法,还加了线程安全处理和可配置的降级策略,docstring 写得比我自己写的还详细。技术文档也是类似的道理,Sonnet 写出来的文档逻辑清晰、层次分明、用词准确,基本不用大改。
Claude Opus 是重型推理选手。贵,但复杂推理的质量确实高出一个档次。让它分析一个分布式系统设计方案,它能把各种边界情况、一致性权衡、故障恢复策略都考虑到。我有一次让它帮忙审一段并发代码,它直接指出了一个我找了两小时都没找到的竞态条件,还解释了在什么时序下会触发、用什么方式修。坑了我两小时的 Bug,它十秒就看出来了。这种深度思考能力是值钱的。但是,日常的翻译、格式化、简单问答这种活让 Opus 来干,那纯属浪费。
🦙 Meta Llama:开源生态的老朋友
Llama 在 Bedrock 上是全托管版本。好处是你不用自己搞 GPU、不用自己部署、不用操心运维。如果你之前基于 Llama 做过 prompt 调优或者微调,迁移到 Bedrock 上行为一致,你积累的 prompt 模板和评估数据都可以直接复用。
Llama 3.3 70B 综合能力不错,价格在 Nova 和 Claude 之间,比 Claude 系列便宜不少。尤其适合已经在 Llama 生态里积累了经验的团队。
场景选型表:直接抄作业
| 使用场景 | 推荐模型 | 理由 |
|---|---|---|
| 日常聊天、简单问答、翻译格式化 | Nova Micro | 便宜快速,简单活不浪费钱 |
| 代码生成、技术文档撰写 | Claude Sonnet | 代码和文档质量肉眼可见地好 |
| 复杂架构设计、深度推理分析 | Claude Opus | 贵但深度思考能力强,高价值场景值得投入 |
| 大批量数据处理、分类打标签 | Nova Lite | 量大价优,多模态是额外加分 |
| 图片理解、视频内容分析 | Nova Pro 或 Claude Sonnet | 追求性价比选 Pro,追求精度选 Sonnet |
说说我踩过的大坑
一开始我全用 Claude Sonnet。写代码确实爽。日子过得挺美好的,直到有一天闲着没事翻了翻请求日志。
我发现 60% 以上的请求都是这种简单活:帮我翻译这段话、把这个 JSON 格式化一下、用一句话总结这段内容、把中文翻译成英文。
全是 Nova Micro 零点几秒就能搞定的事,但全在用 Claude Sonnet 跑。成本差了几十倍。
那个月账单出来的时候我心在滴血。简单任务全部切到 Nova Micro 后,这部分成本直接降到了原来的零头。教训就是:别偷懒只用一个模型,花十分钟做一下任务分流,一个月能省一大笔。
举个接地气的例子
假设你在搭一个开发者助手工具,用户的请求五花八门。你可以这样分配模型:
用户问"Python 里 list 和 tuple 的区别"这种简单问题,用 Nova Micro 搞定,又快又便宜。用户贴了一段报错日志让你分析原因,这时候 Claude Sonnet 上场,代码理解力强。用户让你帮忙设计一个缓存淘汰策略并给出伪代码,请出 Claude Opus 做深度推理。每天晚上跑一批用户反馈做情感分类,Nova Lite 加上批量推理搞定。用户传了一张架构图让你点评,Nova Pro 处理多模态内容。
同一个系统里,不同场景用不同模型。这才是省钱又出活的做法。
成本差距到底有多大
以 Nova Micro 为基准等于 1x:
| 模型 | 输入成本倍数 | 输出成本倍数 |
|---|---|---|
| Nova Micro | 1x | 1x |
| Nova Lite | 3x | 3x |
| Nova Pro | 10x | 10x |
| Claude Haiku | 10x | 12x |
| Claude Sonnet | 40x | 50x |
| Claude Opus | 200x | 250x |
| Llama 3.3 70B | 9x | 9x |
Nova Micro 和 Claude Opus 之间差了两百多倍。假设你一天有一万次调用,其中六千次是简单任务。这六千次如果全用 Sonnet,输入成本是 240000x。切到 Nova Micro 就是 6000x。差距是四十倍。一个月下来,省的钱不是小数目。
在 OpenClaw 里怎么切换模型
OpenClaw 改一行配置就能换模型,不需要改任何代码逻辑。
默认用 Claude Sonnet 当主力:
ai:
model: amazon-bedrock/us.anthropic.claude-sonnet-4-20250514-v1:0
想省钱用 Nova Micro 跑简单任务:
ai:
model: amazon-bedrock/us.amazon.nova-micro-v1:0
多模态任务用 Nova Pro:
ai:
model: amazon-bedrock/us.amazon.nova-pro-v1:0
批量处理用 Nova Lite:
ai:
model: amazon-bedrock/us.amazon.nova-lite-v1:0
想用 Llama 生态:
ai:
model: amazon-bedrock/us.meta.llama3-3-70b-instruct-v1:0
改完配置文件后重启 OpenClaw 就生效了。整个切换过程不超过一分钟。要注意的是不同模型的能力范围不同,比如 Nova Micro 只支持文本,不能传图片给它。切换前确认场景和模型能力是匹配的。
四个省钱绝活
智能路由
Bedrock 的 Intelligent Prompt Routing 功能可以自动判断每个请求的复杂度,然后路由到合适的模型。简单请求走便宜模型,复杂请求走强模型。大约能省三成。说白了就是 Bedrock 帮你做了分流决策,你不用自己写路由逻辑。我之前自己折腾了几百行代码做分流,效果还不如这个好。
提示缓存
Agent 应用的 system prompt 通常很长,几千个 token 是常态。每次请求都带着同样的系统提示,开启 Prompt Caching 后重复部分不重复收费。官方数据是能省高达九成。你算一下,如果 system prompt 五千个 token,用户输入五百个 token,那每次请求里九成都是重复内容。缓存掉了,当然省得多。做 Agent 应用的同学,这个必开。
模型蒸馏
Model Distillation 用大模型的高质量输出去训练一个小模型。蒸馏后速度快五倍,成本降七成五。适合业务跑通了、任务模式固定的场景。比如你有个固定的分类任务,已经用 Sonnet 跑了几个月效果很好,就可以蒸馏一个专用小模型出来。
批量推理
Batch Inference 适合不着急要结果的场景。每天晚上跑数据分析、离线做内容审核,丢进去慢慢跑,成本直接砍半。和 Nova Lite 配合特别好,本来就便宜的模型加上批量推理五折优惠,双重叠加。
我的日常搭配
分享一下我现在的方案:默认主力用 Claude Sonnet 处理大部分开发任务。翻译、格式化、简单问答这些切到 Nova Micro 不浪费钱。架构设计和深度分析的场景按需请出 Claude Opus。批量打标签和分类用 Nova Lite 配合批量推理。图片和视频理解用 Nova Pro。Agent 类应用必开提示缓存。拿不准复杂度的场景就开智能路由让系统帮你选。
跑了一个多月了,效果和成本都在合理区间。核心心得就一条:别追求一个模型打天下,不同场景用不同模型才是正解。
常见误区,别踩
说几个我见过的误区:
误区一是"用贵的准没错"。我之前就是这个心态。觉得 Opus 质量好,那就全用 Opus 呗。结果大部分任务根本用不到 Opus 的能力,钱白花了。
第二个误区是"开源的一定便宜"。Llama 确实是开源模型,但在 Bedrock 上是按调用收费的。它的价格并不是零,而是在 Nova 和 Claude 之间。选开源模型的原因应该是"你对这个模型熟悉、有积累",而不是"它免费"。
第三个误区是"一个模型搞定所有事"。这是特别容易踩的坑。每个模型都有擅长的场景和不擅长的场景。Nova Micro 干简单活又快又好,但让它写复杂代码就不行了。Opus 推理能力强,但拿它来翻译句子就太奢侈了。按场景分配模型,是降本增效的核心。
第四个误区是"配好了就不用管了"。模型在迭代,你的业务也在变。建议每个月回顾一下调用日志,看看有没有可以优化的地方。比如新出了个更便宜的模型能覆盖你的某些场景,或者某个场景的调用量暴增需要切到更便宜的方案。
给新手的快速上手路径
如果你之前没用过 Bedrock,不知道从哪开始,我的建议是:
步骤一,先用 Claude Sonnet 当默认模型。它的适用面广,质量有保障。先跑起来再说,别在选型上花太多时间。
第二步,跑一两周后看看调用日志。统计一下哪些任务是简单的、哪些是复杂的。如果简单任务占比超过一半,就把这部分切到 Nova Micro。
第三步,开启 Prompt Caching。如果你的应用有 system prompt,这一步基本是无脑操作,只有好处没有坏处。
第四步,如果有批量处理需求,试试 Nova Lite 加上批量推理。
第五步,持续优化。随着你对各个模型能力边界的了解加深,可以做更精细的分流。
别追求一步到位。先跑起来,再慢慢调。这比花一个月做完美方案然后发现需求变了要靠谱得多。
最后的建议
选模型这事儿没有标准答案。但有一个原则是我实打实验证过的:从便宜模型开始,效果不够再升级。
别反过来。一上来就全用 Opus,然后因为太贵又降回来,中间的成本就白花了。先用 Nova Micro 试试,不够上 Sonnet,还不够再上 Opus。这样你对每个模型的能力边界也更清楚,以后做分流更有底气。
有问题评论区见。踩过什么坑也欢迎分享,大家一起避雷。选型这事儿看着复杂,其实核心就是按场景分流,用对的模型做对的事。
模型能力和定价会随版本更新变化,请以亚马逊云科技官方文档为准。