Gemini 3.1 Flash-Lite 实测：$0.25/百万token，我把项目里的 GPT-4o-mini 全换了

上周 Google 悄悄发了 Gemini 3.1 Flash-Lite，定价直接把我看愣了——输入 $0.25/百万token，输出$ 1.50/百万token。

什么概念？GPT-4o-mini 输入 $0.15、输出$ 0.60，看着便宜对吧？但 Flash-Lite 的上下文窗口是 1M token，4o-mini 才 128K。算上长文本场景的性价比，Flash-Lite 直接碾压。

我手上有个客服知识库项目，之前一直用 GPT-4o-mini 做问答检索，月均 API 成本大概 $180。换成 Flash-Lite 跑了一周，成本直接腰斩。这篇就把过程和踩坑记录一下。

先说结论

指标	GPT-4o-mini	Gemini 3.1 Flash-Lite	变化
输入成本	$0.15/1M	$0.25/1M	+67%
输出成本	$0.60/1M	$1.50/1M	+150%
上下文窗口	128K	1M	+680%
实际月成本	~$180	~$85	-53%
平均延迟	320ms	280ms	-12%
中文理解	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	提升明显

等等，单价明明更贵，为什么总成本反而降了？

关键在长上下文

我的场景是这样的：用户问一个问题，系统从知识库检索 top-10 相关文档片段，拼成 prompt 发给模型。

之前用 GPT-4o-mini，128K 上下文不够的时候只能做截断或者分多次请求。每个用户问题平均要 1.8 次 API 调用。

换 Flash-Lite 之后，1M 上下文直接把所有检索结果一次性塞进去，平均调用次数降到了 1.0 次。调用量直接砍了 44%，总成本自然就下来了。

而且 Gemini 3.1 对长文本的注意力分配做了优化，不像之前的模型越长越容易"丢信息"。我测了 50 个 case，Flash-Lite 在文档末尾 10% 位置的信息提取准确率比 4o-mini 高了 15 个点。

迁移过程

1. API 格式切换

如果你之前用的 OpenAI SDK，切换其实很简单。Gemini 现在完全兼容 OpenAI 格式：

from openai import OpenAI

# 之前
client = OpenAI(api_key="sk-xxx")

# 现在
client = OpenAI(
    api_key="你的API Key",
    base_url="https://generativelanguage.googleapis.com/v1beta/openai/"
)

response = client.chat.completions.create(
    model="gemini-3.1-flash-lite",
    messages=[
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": user_query}
    ],
    temperature=0.3
)

兼容 OpenAI 格式是真的香，代码改动量极小。

2. 但 Google API 在国内……

对，你猜到了。generativelanguage.googleapis.com 在国内直连基本废了 😅

最开始我想着自己搭代理，折腾了半天 Cloudflare Worker，延迟还是不稳定，偶尔抽风。

后来想起之前用过的 ofox.ai，它本身就支持 Gemini 全系列模型，而且走的阿里云/火山云加速节点，国内延迟很低。直接改个 base_url 就完事了：

client = OpenAI(
    api_key="你的ofox key",
    base_url="https://api.ofox.ai/v1"
)

response = client.chat.completions.create(
    model="google/gemini-3.1-flash-lite",  # ofox 的模型ID格式
    messages=messages,
    temperature=0.3
)

我测了下延迟，北京的服务器平均 280ms，比我之前 Cloudflare Worker 的方案快了接近 40%。

3. Prompt 调优

Flash-Lite 和 GPT-4o-mini 的"性格"不太一样。4o-mini 偏保守，不确定的时候倾向于给模糊回答；Flash-Lite 更"自信"，有时候会过度推理。

我调了两个地方：

# system prompt 加了约束
system_prompt = """你是客服助手。回答必须严格基于提供的文档内容。
如果文档中没有相关信息，直接回复"抱歉，我没有找到相关信息"。
不要推测，不要补充文档外的内容。"""

# temperature 从 0.7 降到 0.3
# Flash-Lite 在低 temperature 下表现更稳定

调完之后，"幻觉率"从 8% 降到了 2% 以下，基本可以上生产了。

实测数据

跑了 7 天的生产环境数据（日均 ~2000 次问答）：

📊 7天汇总
─────────────────
总请求数: 14,231
成功率: 99.7%
平均延迟: 283ms (P99: 680ms)
总 token 消耗: 42.8M input / 8.6M output
总成本: $23.62

对比同期 GPT-4o-mini 估算:
总成本: $51.40
节省: $27.78 (54%)

延迟方面，Flash-Lite 的 P99 比 4o-mini 还低一点，可能跟 Google 的 TPU 推理优化有关。

哪些场景适合换？

跑了一周总结下来：

✅ 适合换的：

RAG 检索问答（长上下文是杀手锏）
文档摘要/提取
结构化数据解析（JSON 输出）
多语言翻译（中文理解确实比 4o-mini 强）

❌ 不建议换的：

复杂推理（数学、逻辑链路长的）→ 还是用 Claude 或 GPT-4o
代码生成 → Gemini 在代码上跟 Claude 差距还是很大
创意写作 → Flash-Lite 文风偏"说明文"，没什么灵魂

一个额外发现

在迁移过程中我做了个对比测试，顺便试了下 DeepSeek V3 和 Qwen-Max。结论是：

模型	中文客服问答准确率	平均延迟	月成本估算
GPT-4o-mini	87%	320ms	$180
Gemini 3.1 Flash-Lite	91%	283ms	$85
DeepSeek V3	89%	350ms	$95
Qwen-Max	90%	310ms	$120

Flash-Lite 在中文客服场景的准确率居然最高，我猜跟 Gemini 3.1 大幅强化的多语言能力有关。

这几个模型我都是在 ofox.ai 上跑的对比测试，因为它支持 50+ 模型统一接口，切换模型只要改个 model 参数就行，不用管各家 API 格式差异。做对比测试的时候特别方便。

最后

Gemini 3.1 Flash-Lite 刚出来几天，关注度还不高。但从我这一周的实测来看，在长上下文 + 中文场景下，性价比已经超过了 GPT-4o-mini。

如果你的项目也是 RAG 类型的，或者有大量长文本处理需求，可以认真考虑换过去试试。切换成本真的很低——只要你用的是 OpenAI 兼容格式。

不过也别一股脑全换了，建议先小流量灰度跑几天，看看自己业务场景下的实际表现再决定。

以上数据基于我个人项目的实际运行情况，不同场景可能有差异。API 成本数据截至 2026 年 3 月。