GPT-5.3 Instant 终于学会好好说话了,顺手对比了下同天发布的 Gemini 3.1 Flash-Lite

41 阅读1分钟

昨晚刷推被炸了。

OpenAI 和 Google 同一天放了两个模型——GPT-5.3 Instant 和 Gemini 3.1 Flash-Lite。这俩还走了完全不同的路线,一个卷"说话方式",一个卷"极致便宜"。

作为一个每天跟 AI API 打交道的人,不第一时间跑个对比说不过去。花了一晚上都试了一遍,说几句大实话。

GPT-5.3 Instant:终于不"爹"了

OpenAI 这次的更新方向让我挺意外——不是卷跑分,是卷说话方式

官方用了个词:less cringe。翻译成人话就是"不那么爹味了" 😅

以前用 GPT-5.2,你让它写个代码,它先教育你一顿:

"在进行此操作之前,我需要提醒您注意以下安全性考虑。首先,您应该确保……"

兄弟我就是想写个 for 循环 🙃

GPT-5.3 Instant 主要改了这几个点:

  • 幻觉减少 26.8%(医疗、法律、金融等高风险场景)
  • 用户标记的事实性错误减少 22.5%
  • 不再动不动"我无法为你做这个"
  • 直接给答案,不废话

API 模型 ID:gpt-5.3-chat-latest

来,跑个对比你们感受一下。同一个 prompt:"用 Python 写一个快排,不要废话"

GPT-5.2 的回复(大概意思):

快速排序(Quick Sort)是一种高效的排序算法,由 C.A.R. Hoare 在 1960 年提出。
其基本思想是通过一趟排序将要排序的数据分割成独立的两部分……

以下是 Python 实现:
[代码]

需要注意的是,上述实现使用了额外的空间。在生产环境中,
建议考虑原地排序的实现方式以优化空间复杂度……

GPT-5.3 的回复

def quicksort(arr):
    if len(arr) <= 1:
        return arr
    pivot = arr[len(arr) // 2]
    left = [x for x in arr if x < pivot]
    middle = [x for x in arr if x == pivot]
    right = [x for x in arr if x > pivot]
    return quicksort(left) + middle + quicksort(right)

完事。没有开场白,没有注意事项,没有"如果您还有其他问题"。

舒服了。

Gemini 3.1 Flash-Lite:便宜到离谱

Google 走的完全是另一条路——极致性价比

看这个定价:

输入输出
Gemini 3.1 Flash-Lite$0.25 / 百万 token$1.50 / 百万 token

什么概念?Gemini 3 系列的能力,Flash 级别的价格。跑批量任务的时候,成本差距非常明显。

速度更夸张:

  • 首 token 响应比 Gemini 2.5 Flash 快 2.5 倍
  • 输出速度提升 45%

但最有意思的是新加的 Thinking Levels 功能。你可以手动控制模型"想多深":

思考级别适用场景速度
Minimal内容审核、简单分类最快
Low翻译、摘要
Medium代码生成、数据分析中等
High复杂推理、数学证明慢但准

这个设计思路很聪明——同一个模型,简单任务用 Minimal 省钱跑量,复杂任务切 High 保质量。不用在"选哪个模型"上纠结了。

实测对比:同一套代码跑两个模型

这是我测试的时候用的代码,改一行 model 就切模型:

from openai import OpenAI

# 一个 base_url 跑所有模型
client = OpenAI(
    api_key="sk-xxx",
    base_url="https://api.ofox.ai/v1"
)

def test_model(model_name, prompt):
    import time
    start = time.time()
    resp = client.chat.completions.create(
        model=model_name,
        messages=[{"role": "user", "content": prompt}],
        max_tokens=500
    )
    elapsed = time.time() - start
    return resp.choices[0].message.content, elapsed

prompt = "解释一下什么是 WebSocket,100 字以内"

# 测 GPT-5.3
gpt_answer, gpt_time = test_model("gpt-5.3-chat-latest", prompt)
print(f"GPT-5.3: {gpt_time:.2f}s")
print(gpt_answer)

print("---")

# 测 Gemini 3.1 Flash-Lite
gem_answer, gem_time = test_model("gemini-3.1-flash-lite", prompt)
print(f"Gemini 3.1 Flash-Lite: {gem_time:.2f}s")
print(gem_answer)

跑出来大概这样(仅供参考,不同时段网络波动很大):

GPT-5.3: 1.83s
WebSocket 是一种全双工通信协议,让浏览器和服务器建立持久连接,
双方可以随时主动发消息,不用像 HTTP 那样每次都客户端先请求。
适合聊天、实时数据推送等场景。

---
Gemini 3.1 Flash-Lite: 0.92s
WebSocket 是一种网络通信协议,在客户端与服务器之间建立持久的双向连接。
 HTTP 的请求-响应模式不同,WebSocket 允许双方随时发送数据,
常用于实时聊天、在线游戏和股票行情等场景。

速度上 Flash-Lite 确实快。内容质量两边都够用,GPT-5.3 的表述稍微自然一点。

到底该用哪个?

维度GPT-5.3 InstantGemini 3.1 Flash-Lite
对话自然度⭐⭐⭐⭐⭐⭐⭐⭐⭐
响应速度更快
价格中等偏贵便宜到哭
幻觉控制很强(-26.8%)一般
批量任务不太划算天生干这个的
创意/对话更自然偏模板
可调思考深度✅ Thinking Levels

我的实际选择

  • 用户聊天/客服 → GPT-5.3 Instant(说话终于像人了,幻觉也少)
  • 批量翻译/分类/审核 → Gemini 3.1 Flash-Lite(便宜+快,Thinking Level 调 Low)
  • 写代码 → 都行,GPT 略好但 Gemini 也够用
  • 复杂推理 → Flash-Lite 开 High thinking,效果不错还比大模型便宜

一个开发上的建议

现在模型迭代太快了——昨天 OpenAI 和 Google 同天发,过两天 Anthropic 可能又来一个。每家都单独对接一遍 SDK?疯了。

我现在的做法是统一用一个 API 聚合服务。上面的测试代码就是这么写的——base_url 不变,model 字段改一下,GPT/Gemini/Claude 无缝切换。新模型发了改个 model 名字就跑,不用动对接代码。

我用的是 ofox.ai,50 多个模型一个 Key,国内直连不用折腾。模型上新速度对我来说够用,延迟也还行。当然市面上还有别的选择,按自己需求来。

最后

OpenAI 和 Google 同天发模型,释放了个信号:模型厂商开始卷"开发者体验"了

不光跑分高就行——GPT-5.3 卷的是"好好说话",Gemini 3.1 Flash-Lite 卷的是"又便宜又快还能调思考深度"。

对开发者来说,选择越来越多,成本越来越低。就是跟着适配有点累 😮‍💨


以上测试基于 2026 年 3 月 3 日发布当天版本。GPT-5.2 Instant 将于 6 月 3 日退役,注意迁移。