谷歌Gemini 3.1 Flash-Lite实测谷歌推出最轻量模型Gemini 3.1 Flash-Lite，主打极致

谷歌在Gemini 3.1 Pro之后，这周又推出了Gemini 3系列中定位最轻量、最具性价比的模型——Gemini 3.1 Flash-Lite。官方宣称，这是Gemini 3系列中速度最快、成本效率最高的模型，专为开发者的大规模高频调用场景而生。我们对其预览版本gemini-3.1-flash-lite-preview进行了全面评测，测试其在准确率、响应时间、token消耗和调用花费等关键指标上的表现。

需要特别说明的是，本次评测侧重中文场景下的综合能力考察。Gemini 3.1 Flash-Lite的核心定位并非"最聪明"，而是"最快最便宜"——官方强调其在高频翻译、内容审核、UI界面生成、实时仪表盘等大规模工作流中的应用。在英文环境下，该模型在Arena.ai排行榜上取得了1432的Elo分数，GPQA Diamond达到86.9%，MMMU Pro达到76.8%，甚至超越了前代更大的Gemini 2.5 Flash。这些能力在当前以中文为核心的评测框架下未能充分体现，读者可结合文末官方评测数据获得更全面的判断。

gemini-3.1-flash-lite-preview版本表现：

测试题数：约1.5万
总分（准确率）：54.9%
平均耗时（每次调用）：12s
平均token（每次调用消耗的token）：587
平均花费（每千次调用的人民币花费）：3.9

1、新旧对决：速度与成本的双重进化

对比上一代轻量版本（gemini-2.5-flash-lite），Gemini 3.1 Flash-Lite在多数维度上实现了明显提升，但也伴随着一些值得关注的变化，数据如下：

*数据来源：非线智能ReLE评测github.com/jeinlee1991…

*输出价格单位：元/百万token

整体性能显著提升：新版本准确率从46.8%提升至54.9%，提升了8.1个百分点，排名从第117位上升至第104位。对于一款定位极致轻量的模型而言，这一提升幅度相当可观。
垂直领域普遍增强：从细分领域来看，新版本在多个核心维度上展现了明显的进步。
医疗与心理健康：从54.2%提升至75.6%（+21.4%），提升幅度最为突出，表明模型在专业知识理解上有了较大改善。
金融：从57.8%提升至76.3%（+18.5%），提升同样显著。
法律与行政公务：从50.7%提升至67.7%（+17.0%），跨越式进步。
教育：从30.9%提升至43.5%（+12.6%），虽有明显提升但仍处于较低水平。
Agent与工具调用：从29.6%提升至49.0%（+19.4%），改善幅度较大。
推理与数学计算：从48.6%提升至59.5%（+10.9%），逻辑推理能力有所增强。
语言与指令遵从出现回调：值得注意的是，"语言与指令遵从"从60.2%降至42.2%（-18.0%），是唯一出现下降的维度。这可能意味着新版本在架构优化过程中，对中文复杂指令的处理存在一定权衡，也可能与模型在中文语境下的指令对齐策略调整有关。
速度大幅提升：平均耗时从46s缩短至12s，提速约74%，完全符合"Flash-Lite"的极速定位。这意味着在高频调用场景中，用户可以获得接近实时的响应体验。
Token消耗大幅降低，成本优化明显：平均Token消耗从3231骤降至587，降幅约82%。每千次调用的花费从8.9元降至3.9元，成本下降约56%。尽管输出价格从2.9元/M token上调至10.5元/M token，但得益于Token消耗的大幅缩减，实际调用成本反而更低。这是一个值得关注的设计思路：模型通过更精炼的输出策略，用更少的token完成任务，从而在单价上调的情况下实现了总成本的下降。

2、横向对比：轻量模型的竞争图谱

在当前主流大模型竞争格局中，gemini-3.1-flash-lite-preview作为一款极致轻量模型表现如何？我们从三个维度进行横向对比分析：

*数据来源：非线智能ReLE评测github.com/jeinlee1991…

同成本档位对比

Gemini 3.1 Flash-Lite的核心卖点在于极致的速度与低廉的成本，因此同成本档位的对比尤为关键。

超低成本区间的竞争：在花费10元/千次以下的区间内，gemini-3.1-flash-lite-preview（54.9%，3.9元）面临较为激烈的竞争。DeepSeek-V3.2-Think（70.9%，7.5元）以接近的低成本提供了明显更高的准确率，领先约16.0个百分点。MiMo-V2-Flash-think-0204（68.2%，7.8元）同样在准确率上具备较大优势。此外，Doubao-Seed-2.0-lite（73.9%，5.4元）以仅高出1.5元的成本差距，提供了高出19.0个百分点的准确率，成本效率比表现突出。
速度优势是核心差异化：然而，上述模型的平均耗时均在100s以上（DeepSeek-V3.2-Think为144s，Doubao-Seed-2.0-lite为276s），而gemini-3.1-flash-lite-preview仅需12s。在对延迟极度敏感的高频调用场景（如实时翻译、内容审核、流式交互）中，这一速度优势是其他模型难以替代的。
同速度档位中的定位：在响应速度接近的模型中，claude-haiku-4.5（54.5%，18.9元，13s）与gemini-3.1-flash-lite-preview准确率接近（仅差0.4个百分点），但成本约为后者的4.8倍。

新旧模型对比

轻量模型的代际跨越：gemini-3.1-flash-lite-preview相较于gemini-2.5-flash-lite（46.8%），准确率提升了8.1个百分点，同时成本大幅降低。这印证了谷歌在轻量模型上的持续迭代是有成效的。
与同系高端模型的差距：对比同系的gemini-3.1-pro-preview（74.8%，250.5元，53s）和gemini-3-pro-preview（72.5%，247.3元，64s），gemini-3.1-flash-lite-preview在准确率上存在约20个百分点的差距。这一差距也清晰地反映了"Flash-Lite"与"Pro"之间的产品定位差异——前者追求极致的速度和成本效率，后者追求深度推理能力。
榜单格局观察：当前榜单头部仍由各家的旗舰或思考型模型主导，Doubao-Seed-2.0-pro（76.5%）、gemini-3.1-pro-preview（74.8%）、qwen3.5-plus（74.6%）居前三。gemini-3.1-flash-lite-preview排名第104位，在轻量级模型中处于中等水平。

开源VS闭源对比

闭源轻量模型的竞争：gemini-3.1-flash-lite-preview作为闭源商用模型，在同类轻量级闭源模型中，与claude-haiku-4.5（54.5%，18.9元）准确率接近，但成本优势明显。
开源模型的成本效率比冲击：在成本接近的区间内，开源模型展现了较强的竞争力。qwen3.5-flash（70.8%，10.4元）作为阿里巴巴的开源轻量模型，以略高的成本提供了明显更高的准确率。step-3.5-flash（64.2%，9.8元）同样在准确率上领先。对于不追求极致低延迟、更看重准确率的场景，这些开源替代方案值得考虑。
生态定位的差异：需要指出的是，Gemini 3.1 Flash-Lite的竞争力不仅体现在中文文本任务上，其背靠谷歌的多模态生态和Thinking Levels（思考等级）等功能特性，在开发者工具链的整合度上具备独特优势，这是单纯的总分准确率对比难以体现的。

3、官方评测

根据谷歌官方博客（blog.google/innovation-… 3.1 Flash-Lite定位为Gemini 3系列中速度最快、成本效率最高的模型，专为开发者的大规模高频工作负载设计。

定价与速度

定价方面，Gemini 3.1 Flash-Lite的输入价格为 $0.25/百万token，输出价格为$ 1.50/百万token，在同类模型中极具成本优势。
速度方面，根据Artificial Analysis基准测试，Gemini 3.1 Flash-Lite的首Token响应时间比2.5 Flash快2.5倍，输出速度提升45%，同时保持了相近或更优的质量水平。

基准测试表现

在Arena.ai排行榜上，Gemini 3.1 Flash-Lite取得了1432的Elo分数。
在推理和多模态理解基准测试中，该模型表现优于同级别的其他模型，GPQA Diamond达到86.9%，MMMU Pro达到76.8%，甚至超越了前代更大规模的Gemini模型（如Gemini 2.5 Flash）。
官方对比显示，在同级别模型中（包括GPT-5 mini、Claude 4.5 Haiku、Grok 4.1 Fast等），Gemini 3.1 Flash-Lite在多项基准上均处于领先位置。

目前所有大模型评测文章在公众号：大模型评测及优化NoneLinear