谷歌Gemini 3.1 Flash-Lite实测

143 阅读7分钟

谷歌在Gemini 3.1 Pro之后,这周又推出了Gemini 3系列中定位最轻量、最具性价比的模型——Gemini 3.1 Flash-Lite。官方宣称,这是Gemini 3系列中速度最快、成本效率最高的模型,专为开发者的大规模高频调用场景而生。我们对其预览版本gemini-3.1-flash-lite-preview进行了全面评测,测试其在准确率、响应时间、token消耗和调用花费等关键指标上的表现。

需要特别说明的是,本次评测侧重中文场景下的综合能力考察。Gemini 3.1 Flash-Lite的核心定位并非"最聪明",而是"最快最便宜"——官方强调其在高频翻译、内容审核、UI界面生成、实时仪表盘等大规模工作流中的应用。在英文环境下,该模型在Arena.ai排行榜上取得了1432的Elo分数,GPQA Diamond达到86.9%,MMMU Pro达到76.8%,甚至超越了前代更大的Gemini 2.5 Flash。这些能力在当前以中文为核心的评测框架下未能充分体现,读者可结合文末官方评测数据获得更全面的判断。

gemini-3.1-flash-lite-preview版本表现:

  • 测试题数:约1.5万
  • 总分(准确率):54.9%
  • 平均耗时(每次调用):12s
  • 平均token(每次调用消耗的token):587
  • 平均花费(每千次调用的人民币花费):3.9

1、新旧对决:速度与成本的双重进化

对比上一代轻量版本(gemini-2.5-flash-lite),Gemini 3.1 Flash-Lite在多数维度上实现了明显提升,但也伴随着一些值得关注的变化,数据如下:

*数据来源:非线智能ReLE评测github.com/jeinlee1991…

*输出价格单位: 元/百万token

  • 整体性能显著提升:新版本准确率从46.8%提升至54.9%,提升了8.1个百分点,排名从第117位上升至第104位。对于一款定位极致轻量的模型而言,这一提升幅度相当可观。

  • 垂直领域普遍增强:从细分领域来看,新版本在多个核心维度上展现了明显的进步。

  • 医疗与心理健康:从54.2%提升至75.6%(+21.4%),提升幅度最为突出,表明模型在专业知识理解上有了较大改善。

  • 金融:从57.8%提升至76.3%(+18.5%),提升同样显著。

  • 法律与行政公务:从50.7%提升至67.7%(+17.0%),跨越式进步。

  • 教育:从30.9%提升至43.5%(+12.6%),虽有明显提升但仍处于较低水平。

  • Agent与工具调用:从29.6%提升至49.0%(+19.4%),改善幅度较大。

  • 推理与数学计算:从48.6%提升至59.5%(+10.9%),逻辑推理能力有所增强。

  • 语言与指令遵从出现回调:值得注意的是,"语言与指令遵从"从60.2%降至42.2%(-18.0%),是唯一出现下降的维度。这可能意味着新版本在架构优化过程中,对中文复杂指令的处理存在一定权衡,也可能与模型在中文语境下的指令对齐策略调整有关。

  • 速度大幅提升:平均耗时从46s缩短至12s,提速约74%,完全符合"Flash-Lite"的极速定位。这意味着在高频调用场景中,用户可以获得接近实时的响应体验。

  • Token消耗大幅降低,成本优化明显:平均Token消耗从3231骤降至587,降幅约82%。每千次调用的花费从8.9元降至3.9元,成本下降约56%。尽管输出价格从2.9元/M token上调至10.5元/M token,但得益于Token消耗的大幅缩减,实际调用成本反而更低。这是一个值得关注的设计思路:模型通过更精炼的输出策略,用更少的token完成任务,从而在单价上调的情况下实现了总成本的下降。

2、横向对比:轻量模型的竞争图谱

在当前主流大模型竞争格局中,gemini-3.1-flash-lite-preview作为一款极致轻量模型表现如何?我们从三个维度进行横向对比分析:

*数据来源:非线智能ReLE评测github.com/jeinlee1991…

同成本档位对比

Gemini 3.1 Flash-Lite的核心卖点在于极致的速度与低廉的成本,因此同成本档位的对比尤为关键。

  • 超低成本区间的竞争:在花费10元/千次以下的区间内,gemini-3.1-flash-lite-preview(54.9%,3.9元)面临较为激烈的竞争。DeepSeek-V3.2-Think(70.9%,7.5元)以接近的低成本提供了明显更高的准确率,领先约16.0个百分点。MiMo-V2-Flash-think-0204(68.2%,7.8元)同样在准确率上具备较大优势。此外,Doubao-Seed-2.0-lite(73.9%,5.4元)以仅高出1.5元的成本差距,提供了高出19.0个百分点的准确率,成本效率比表现突出。
  • 速度优势是核心差异化:然而,上述模型的平均耗时均在100s以上(DeepSeek-V3.2-Think为144s,Doubao-Seed-2.0-lite为276s),而gemini-3.1-flash-lite-preview仅需12s。在对延迟极度敏感的高频调用场景(如实时翻译、内容审核、流式交互)中,这一速度优势是其他模型难以替代的。
  • 同速度档位中的定位:在响应速度接近的模型中,claude-haiku-4.5(54.5%,18.9元,13s)与gemini-3.1-flash-lite-preview准确率接近(仅差0.4个百分点),但成本约为后者的4.8倍。

新旧模型对比

  • 轻量模型的代际跨越:gemini-3.1-flash-lite-preview相较于gemini-2.5-flash-lite(46.8%),准确率提升了8.1个百分点,同时成本大幅降低。这印证了谷歌在轻量模型上的持续迭代是有成效的。
  • 与同系高端模型的差距:对比同系的gemini-3.1-pro-preview(74.8%,250.5元,53s)和gemini-3-pro-preview(72.5%,247.3元,64s),gemini-3.1-flash-lite-preview在准确率上存在约20个百分点的差距。这一差距也清晰地反映了"Flash-Lite"与"Pro"之间的产品定位差异——前者追求极致的速度和成本效率,后者追求深度推理能力。
  • 榜单格局观察:当前榜单头部仍由各家的旗舰或思考型模型主导,Doubao-Seed-2.0-pro(76.5%)、gemini-3.1-pro-preview(74.8%)、qwen3.5-plus(74.6%)居前三。gemini-3.1-flash-lite-preview排名第104位,在轻量级模型中处于中等水平。

开源VS闭源对比

  • 闭源轻量模型的竞争:gemini-3.1-flash-lite-preview作为闭源商用模型,在同类轻量级闭源模型中,与claude-haiku-4.5(54.5%,18.9元)准确率接近,但成本优势明显。
  • 开源模型的成本效率比冲击:在成本接近的区间内,开源模型展现了较强的竞争力。qwen3.5-flash(70.8%,10.4元)作为阿里巴巴的开源轻量模型,以略高的成本提供了明显更高的准确率。step-3.5-flash(64.2%,9.8元)同样在准确率上领先。对于不追求极致低延迟、更看重准确率的场景,这些开源替代方案值得考虑。
  • 生态定位的差异:需要指出的是,Gemini 3.1 Flash-Lite的竞争力不仅体现在中文文本任务上,其背靠谷歌的多模态生态和Thinking Levels(思考等级)等功能特性,在开发者工具链的整合度上具备独特优势,这是单纯的总分准确率对比难以体现的。

3、官方评测

根据谷歌官方博客(blog.google/innovation-… 3.1 Flash-Lite定位为Gemini 3系列中速度最快、成本效率最高的模型,专为开发者的大规模高频工作负载设计。

定价与速度

  • 定价方面,Gemini 3.1 Flash-Lite的输入价格为0.25/百万token,输出价格为0.25/百万token,输出价格为1.50/百万token,在同类模型中极具成本优势。
  • 速度方面,根据Artificial Analysis基准测试,Gemini 3.1 Flash-Lite的首Token响应时间比2.5 Flash快2.5倍,输出速度提升45%,同时保持了相近或更优的质量水平。

基准测试表现

  • 在Arena.ai排行榜上,Gemini 3.1 Flash-Lite取得了1432的Elo分数。
  • 在推理和多模态理解基准测试中,该模型表现优于同级别的其他模型,GPQA Diamond达到86.9%,MMMU Pro达到76.8%,甚至超越了前代更大规模的Gemini模型(如Gemini 2.5 Flash)。
  • 官方对比显示,在同级别模型中(包括GPT-5 mini、Claude 4.5 Haiku、Grok 4.1 Fast等),Gemini 3.1 Flash-Lite在多项基准上均处于领先位置。

目前所有大模型评测文章在公众号:大模型评测及优化NoneLinear