Bedrock 推理成本优化指南：批量推理省 50%，提示缓存省 90%大模型推理费用涨得比想象中快。整理一下 Amaz

大模型推理费用涨得比想象中快。整理一下 Amazon Bedrock 上实际可操作的几种省钱方式。

四个定价套餐一览

套餐	特点	适用场景
标准	按需付费，无预先承诺	日常开发/中小生产
优先级	优先计算分配，OTPS 延迟缩短最多 25%	实时对话等延迟敏感场景
弹性	折扣定价，非紧急任务	后台处理、数据标注
批量	打包提交，响应存 S3	大规模生成/分类/标注

核心数据

批量模式比按需便宜 50%（亚马逊云科技官方定价页面数据）
提示缓存：缓存 token 最高 90% 折扣，延迟改善最高 85%
优先级套餐：OTPS 延迟缩短最多 25%

批量推理实操

把请求打包成 JSONL 文件上传 S3，调 create_model_invocation_job 提交任务，结果写回 S3。

import boto3

bedrock = boto3.client('bedrock', region_name='us-east-1')

response = bedrock.create_model_invocation_job(
    jobName='batch-classify-v1',
    modelId='amazon.nova-lite-v1:0',
    roleArn='arn:aws:iam::123456789012:role/BedrockBatchRole',
    inputDataConfig={
        's3InputDataConfig': {'s3Uri': 's3://my-bucket/batch/input.jsonl'}
    },
    outputDataConfig={
        's3OutputDataConfig': {'s3Uri': 's3://my-bucket/batch/output/'}
    }
)

适合场景：数据标注、批量内容生成、大规模分类——任何不需要实时响应的任务。

提示缓存实操

高频请求 + 重复的系统提示 = 提示缓存的最佳场景。在 system prompt 上标记 cachePoint，5 分钟内相同前缀的请求走缓存价。

跨区域推理

量大遇配额限制时用。两种模式：

地理区域（Geographic）：US/EU/APAC 区域内路由，满足数据驻留合规
全球（Global）：跨所有商业区域路由，吞吐量拉满

用法：model ID 加地理前缀（如 us.anthropic.claude-sonnet-4-20250514-v1:0），其他代码不用改。

组合策略

实时对话 → 标准 + 缓存 + 跨区域批量任务 → 批量模式（省 50%）后台处理 → 弹性套餐高并发生产 → 优先级 + 跨区域

🔗 Bedrock 定价：aws.amazon.com/cn/bedrock/… 🔗 跨区域推理文档：docs.aws.amazon.com/bedrock/lat…