上周 Google 悄悄发了 Gemini 3.1 Flash-Lite,定价直接把我看愣了——输入 1.50/百万token。
什么概念?GPT-4o-mini 输入 0.60,看着便宜对吧?但 Flash-Lite 的上下文窗口是 1M token,4o-mini 才 128K。算上长文本场景的性价比,Flash-Lite 直接碾压。
我手上有个客服知识库项目,之前一直用 GPT-4o-mini 做问答检索,月均 API 成本大概 $180。换成 Flash-Lite 跑了一周,成本直接腰斩。这篇就把过程和踩坑记录一下。
先说结论
| 指标 | GPT-4o-mini | Gemini 3.1 Flash-Lite | 变化 |
|---|---|---|---|
| 输入成本 | $0.15/1M | $0.25/1M | +67% |
| 输出成本 | $0.60/1M | $1.50/1M | +150% |
| 上下文窗口 | 128K | 1M | +680% |
| 实际月成本 | ~$180 | ~$85 | -53% |
| 平均延迟 | 320ms | 280ms | -12% |
| 中文理解 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | 提升明显 |
等等,单价明明更贵,为什么总成本反而降了?
关键在长上下文
我的场景是这样的:用户问一个问题,系统从知识库检索 top-10 相关文档片段,拼成 prompt 发给模型。
之前用 GPT-4o-mini,128K 上下文不够的时候只能做截断或者分多次请求。每个用户问题平均要 1.8 次 API 调用。
换 Flash-Lite 之后,1M 上下文直接把所有检索结果一次性塞进去,平均调用次数降到了 1.0 次。调用量直接砍了 44%,总成本自然就下来了。
而且 Gemini 3.1 对长文本的注意力分配做了优化,不像之前的模型越长越容易"丢信息"。我测了 50 个 case,Flash-Lite 在文档末尾 10% 位置的信息提取准确率比 4o-mini 高了 15 个点。
迁移过程
1. API 格式切换
如果你之前用的 OpenAI SDK,切换其实很简单。Gemini 现在完全兼容 OpenAI 格式:
from openai import OpenAI
# 之前
client = OpenAI(api_key="sk-xxx")
# 现在
client = OpenAI(
api_key="你的API Key",
base_url="https://generativelanguage.googleapis.com/v1beta/openai/"
)
response = client.chat.completions.create(
model="gemini-3.1-flash-lite",
messages=[
{"role": "system", "content": system_prompt},
{"role": "user", "content": user_query}
],
temperature=0.3
)
兼容 OpenAI 格式是真的香,代码改动量极小。
2. 但 Google API 在国内……
对,你猜到了。generativelanguage.googleapis.com 在国内直连基本废了 😅
最开始我想着自己搭代理,折腾了半天 Cloudflare Worker,延迟还是不稳定,偶尔抽风。
后来想起之前用过的 ofox.ai,它本身就支持 Gemini 全系列模型,而且走的阿里云/火山云加速节点,国内延迟很低。直接改个 base_url 就完事了:
client = OpenAI(
api_key="你的ofox key",
base_url="https://api.ofox.ai/v1"
)
response = client.chat.completions.create(
model="google/gemini-3.1-flash-lite", # ofox 的模型ID格式
messages=messages,
temperature=0.3
)
我测了下延迟,北京的服务器平均 280ms,比我之前 Cloudflare Worker 的方案快了接近 40%。
3. Prompt 调优
Flash-Lite 和 GPT-4o-mini 的"性格"不太一样。4o-mini 偏保守,不确定的时候倾向于给模糊回答;Flash-Lite 更"自信",有时候会过度推理。
我调了两个地方:
# system prompt 加了约束
system_prompt = """你是客服助手。回答必须严格基于提供的文档内容。
如果文档中没有相关信息,直接回复"抱歉,我没有找到相关信息"。
不要推测,不要补充文档外的内容。"""
# temperature 从 0.7 降到 0.3
# Flash-Lite 在低 temperature 下表现更稳定
调完之后,"幻觉率"从 8% 降到了 2% 以下,基本可以上生产了。
实测数据
跑了 7 天的生产环境数据(日均 ~2000 次问答):
📊 7天汇总
─────────────────
总请求数: 14,231
成功率: 99.7%
平均延迟: 283ms (P99: 680ms)
总 token 消耗: 42.8M input / 8.6M output
总成本: $23.62
对比同期 GPT-4o-mini 估算:
总成本: $51.40
节省: $27.78 (54%)
延迟方面,Flash-Lite 的 P99 比 4o-mini 还低一点,可能跟 Google 的 TPU 推理优化有关。
哪些场景适合换?
跑了一周总结下来:
✅ 适合换的:
- RAG 检索问答(长上下文是杀手锏)
- 文档摘要/提取
- 结构化数据解析(JSON 输出)
- 多语言翻译(中文理解确实比 4o-mini 强)
❌ 不建议换的:
- 复杂推理(数学、逻辑链路长的)→ 还是用 Claude 或 GPT-4o
- 代码生成 → Gemini 在代码上跟 Claude 差距还是很大
- 创意写作 → Flash-Lite 文风偏"说明文",没什么灵魂
一个额外发现
在迁移过程中我做了个对比测试,顺便试了下 DeepSeek V3 和 Qwen-Max。结论是:
| 模型 | 中文客服问答准确率 | 平均延迟 | 月成本估算 |
|---|---|---|---|
| GPT-4o-mini | 87% | 320ms | $180 |
| Gemini 3.1 Flash-Lite | 91% | 283ms | $85 |
| DeepSeek V3 | 89% | 350ms | $95 |
| Qwen-Max | 90% | 310ms | $120 |
Flash-Lite 在中文客服场景的准确率居然最高,我猜跟 Gemini 3.1 大幅强化的多语言能力有关。
这几个模型我都是在 ofox.ai 上跑的对比测试,因为它支持 50+ 模型统一接口,切换模型只要改个 model 参数就行,不用管各家 API 格式差异。做对比测试的时候特别方便。
最后
Gemini 3.1 Flash-Lite 刚出来几天,关注度还不高。但从我这一周的实测来看,在长上下文 + 中文场景下,性价比已经超过了 GPT-4o-mini。
如果你的项目也是 RAG 类型的,或者有大量长文本处理需求,可以认真考虑换过去试试。切换成本真的很低——只要你用的是 OpenAI 兼容格式。
不过也别一股脑全换了,建议先小流量灰度跑几天,看看自己业务场景下的实际表现再决定。
以上数据基于我个人项目的实际运行情况,不同场景可能有差异。API 成本数据截至 2026 年 3 月。