Gemini 3.1 Flash-Lite 实测:$0.25/百万token,我把项目里的 GPT-4o-mini 全换了

5 阅读1分钟

上周 Google 悄悄发了 Gemini 3.1 Flash-Lite,定价直接把我看愣了——输入 0.25/百万token,输出0.25/百万token,输出 1.50/百万token。

什么概念?GPT-4o-mini 输入 0.15、输出0.15、输出 0.60,看着便宜对吧?但 Flash-Lite 的上下文窗口是 1M token,4o-mini 才 128K。算上长文本场景的性价比,Flash-Lite 直接碾压。

我手上有个客服知识库项目,之前一直用 GPT-4o-mini 做问答检索,月均 API 成本大概 $180。换成 Flash-Lite 跑了一周,成本直接腰斩。这篇就把过程和踩坑记录一下。

先说结论

指标GPT-4o-miniGemini 3.1 Flash-Lite变化
输入成本$0.15/1M$0.25/1M+67%
输出成本$0.60/1M$1.50/1M+150%
上下文窗口128K1M+680%
实际月成本~$180~$85-53%
平均延迟320ms280ms-12%
中文理解⭐⭐⭐⭐⭐⭐⭐⭐⭐提升明显

等等,单价明明更贵,为什么总成本反而降了?

关键在长上下文

我的场景是这样的:用户问一个问题,系统从知识库检索 top-10 相关文档片段,拼成 prompt 发给模型。

之前用 GPT-4o-mini,128K 上下文不够的时候只能做截断或者分多次请求。每个用户问题平均要 1.8 次 API 调用。

换 Flash-Lite 之后,1M 上下文直接把所有检索结果一次性塞进去,平均调用次数降到了 1.0 次。调用量直接砍了 44%,总成本自然就下来了。

而且 Gemini 3.1 对长文本的注意力分配做了优化,不像之前的模型越长越容易"丢信息"。我测了 50 个 case,Flash-Lite 在文档末尾 10% 位置的信息提取准确率比 4o-mini 高了 15 个点。

迁移过程

1. API 格式切换

如果你之前用的 OpenAI SDK,切换其实很简单。Gemini 现在完全兼容 OpenAI 格式:

from openai import OpenAI

# 之前
client = OpenAI(api_key="sk-xxx")

# 现在
client = OpenAI(
    api_key="你的API Key",
    base_url="https://generativelanguage.googleapis.com/v1beta/openai/"
)

response = client.chat.completions.create(
    model="gemini-3.1-flash-lite",
    messages=[
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": user_query}
    ],
    temperature=0.3
)

兼容 OpenAI 格式是真的香,代码改动量极小。

2. 但 Google API 在国内……

对,你猜到了。generativelanguage.googleapis.com 在国内直连基本废了 😅

最开始我想着自己搭代理,折腾了半天 Cloudflare Worker,延迟还是不稳定,偶尔抽风。

后来想起之前用过的 ofox.ai,它本身就支持 Gemini 全系列模型,而且走的阿里云/火山云加速节点,国内延迟很低。直接改个 base_url 就完事了:

client = OpenAI(
    api_key="你的ofox key",
    base_url="https://api.ofox.ai/v1"
)

response = client.chat.completions.create(
    model="google/gemini-3.1-flash-lite",  # ofox 的模型ID格式
    messages=messages,
    temperature=0.3
)

我测了下延迟,北京的服务器平均 280ms,比我之前 Cloudflare Worker 的方案快了接近 40%。

3. Prompt 调优

Flash-Lite 和 GPT-4o-mini 的"性格"不太一样。4o-mini 偏保守,不确定的时候倾向于给模糊回答;Flash-Lite 更"自信",有时候会过度推理。

我调了两个地方:

# system prompt 加了约束
system_prompt = """你是客服助手。回答必须严格基于提供的文档内容。
如果文档中没有相关信息,直接回复"抱歉,我没有找到相关信息"。
不要推测,不要补充文档外的内容。"""

# temperature 从 0.7 降到 0.3
# Flash-Lite 在低 temperature 下表现更稳定

调完之后,"幻觉率"从 8% 降到了 2% 以下,基本可以上生产了。

实测数据

跑了 7 天的生产环境数据(日均 ~2000 次问答):

📊 7天汇总
─────────────────
总请求数: 14,231
成功率: 99.7%
平均延迟: 283ms (P99: 680ms)
总 token 消耗: 42.8M input / 8.6M output
总成本: $23.62

对比同期 GPT-4o-mini 估算:
总成本: $51.40
节省: $27.78 (54%)

延迟方面,Flash-Lite 的 P99 比 4o-mini 还低一点,可能跟 Google 的 TPU 推理优化有关。

哪些场景适合换?

跑了一周总结下来:

✅ 适合换的:

  • RAG 检索问答(长上下文是杀手锏)
  • 文档摘要/提取
  • 结构化数据解析(JSON 输出)
  • 多语言翻译(中文理解确实比 4o-mini 强)

❌ 不建议换的:

  • 复杂推理(数学、逻辑链路长的)→ 还是用 Claude 或 GPT-4o
  • 代码生成 → Gemini 在代码上跟 Claude 差距还是很大
  • 创意写作 → Flash-Lite 文风偏"说明文",没什么灵魂

一个额外发现

在迁移过程中我做了个对比测试,顺便试了下 DeepSeek V3 和 Qwen-Max。结论是:

模型中文客服问答准确率平均延迟月成本估算
GPT-4o-mini87%320ms$180
Gemini 3.1 Flash-Lite91%283ms$85
DeepSeek V389%350ms$95
Qwen-Max90%310ms$120

Flash-Lite 在中文客服场景的准确率居然最高,我猜跟 Gemini 3.1 大幅强化的多语言能力有关。

这几个模型我都是在 ofox.ai 上跑的对比测试,因为它支持 50+ 模型统一接口,切换模型只要改个 model 参数就行,不用管各家 API 格式差异。做对比测试的时候特别方便。

最后

Gemini 3.1 Flash-Lite 刚出来几天,关注度还不高。但从我这一周的实测来看,在长上下文 + 中文场景下,性价比已经超过了 GPT-4o-mini。

如果你的项目也是 RAG 类型的,或者有大量长文本处理需求,可以认真考虑换过去试试。切换成本真的很低——只要你用的是 OpenAI 兼容格式。

不过也别一股脑全换了,建议先小流量灰度跑几天,看看自己业务场景下的实际表现再决定。


以上数据基于我个人项目的实际运行情况,不同场景可能有差异。API 成本数据截至 2026 年 3 月。