GPT-5.3 Instant 终于学会好好说话了，顺手对比了下同天发布的 Gemini 3.1 Flash-Lite

昨晚刷推被炸了。

OpenAI 和 Google 同一天放了两个模型——GPT-5.3 Instant 和 Gemini 3.1 Flash-Lite。这俩还走了完全不同的路线，一个卷"说话方式"，一个卷"极致便宜"。

作为一个每天跟 AI API 打交道的人，不第一时间跑个对比说不过去。花了一晚上都试了一遍，说几句大实话。

GPT-5.3 Instant：终于不"爹"了

OpenAI 这次的更新方向让我挺意外——不是卷跑分，是卷说话方式。

官方用了个词：less cringe。翻译成人话就是"不那么爹味了" 😅

以前用 GPT-5.2，你让它写个代码，它先教育你一顿：

"在进行此操作之前，我需要提醒您注意以下安全性考虑。首先，您应该确保……"

兄弟我就是想写个 for 循环 🙃

GPT-5.3 Instant 主要改了这几个点：

幻觉减少 26.8%（医疗、法律、金融等高风险场景）
用户标记的事实性错误减少 22.5%
不再动不动"我无法为你做这个"
直接给答案，不废话

API 模型 ID：gpt-5.3-chat-latest

来，跑个对比你们感受一下。同一个 prompt："用 Python 写一个快排，不要废话"

GPT-5.2 的回复（大概意思）：

快速排序（Quick Sort）是一种高效的排序算法，由 C.A.R. Hoare 在 1960 年提出。
其基本思想是通过一趟排序将要排序的数据分割成独立的两部分……

以下是 Python 实现：
[代码]

需要注意的是，上述实现使用了额外的空间。在生产环境中，
建议考虑原地排序的实现方式以优化空间复杂度……

GPT-5.3 的回复：

def quicksort(arr):
    if len(arr) <= 1:
        return arr
    pivot = arr[len(arr) // 2]
    left = [x for x in arr if x < pivot]
    middle = [x for x in arr if x == pivot]
    right = [x for x in arr if x > pivot]
    return quicksort(left) + middle + quicksort(right)

完事。没有开场白，没有注意事项，没有"如果您还有其他问题"。

舒服了。

Gemini 3.1 Flash-Lite：便宜到离谱

Google 走的完全是另一条路——极致性价比。

看这个定价：

	输入	输出
Gemini 3.1 Flash-Lite	$0.25 / 百万 token	$1.50 / 百万 token

什么概念？Gemini 3 系列的能力，Flash 级别的价格。跑批量任务的时候，成本差距非常明显。

速度更夸张：

首 token 响应比 Gemini 2.5 Flash 快 2.5 倍
输出速度提升 45%

但最有意思的是新加的 Thinking Levels 功能。你可以手动控制模型"想多深"：

思考级别	适用场景	速度
Minimal	内容审核、简单分类	最快
Low	翻译、摘要	快
Medium	代码生成、数据分析	中等
High	复杂推理、数学证明	慢但准

这个设计思路很聪明——同一个模型，简单任务用 Minimal 省钱跑量，复杂任务切 High 保质量。不用在"选哪个模型"上纠结了。

实测对比：同一套代码跑两个模型

这是我测试的时候用的代码，改一行 model 就切模型：

from openai import OpenAI

# 一个 base_url 跑所有模型
client = OpenAI(
    api_key="sk-xxx",
    base_url="https://api.ofox.ai/v1"
)

def test_model(model_name, prompt):
    import time
    start = time.time()
    resp = client.chat.completions.create(
        model=model_name,
        messages=[{"role": "user", "content": prompt}],
        max_tokens=500
    )
    elapsed = time.time() - start
    return resp.choices[0].message.content, elapsed

prompt = "解释一下什么是 WebSocket，100 字以内"

# 测 GPT-5.3
gpt_answer, gpt_time = test_model("gpt-5.3-chat-latest", prompt)
print(f"GPT-5.3: {gpt_time:.2f}s")
print(gpt_answer)

print("---")

# 测 Gemini 3.1 Flash-Lite
gem_answer, gem_time = test_model("gemini-3.1-flash-lite", prompt)
print(f"Gemini 3.1 Flash-Lite: {gem_time:.2f}s")
print(gem_answer)

跑出来大概这样（仅供参考，不同时段网络波动很大）：

GPT-5.3: 1.83s
WebSocket 是一种全双工通信协议，让浏览器和服务器建立持久连接，
双方可以随时主动发消息，不用像 HTTP 那样每次都客户端先请求。
适合聊天、实时数据推送等场景。

---
Gemini 3.1 Flash-Lite: 0.92s
WebSocket 是一种网络通信协议，在客户端与服务器之间建立持久的双向连接。
与 HTTP 的请求-响应模式不同，WebSocket 允许双方随时发送数据，
常用于实时聊天、在线游戏和股票行情等场景。

速度上 Flash-Lite 确实快。内容质量两边都够用，GPT-5.3 的表述稍微自然一点。

到底该用哪个？

维度	GPT-5.3 Instant	Gemini 3.1 Flash-Lite
对话自然度	⭐⭐⭐⭐⭐	⭐⭐⭐⭐
响应速度	快	更快
价格	中等偏贵	便宜到哭
幻觉控制	很强（-26.8%）	一般
批量任务	不太划算	天生干这个的
创意/对话	更自然	偏模板
可调思考深度	❌	✅ Thinking Levels

我的实际选择：

用户聊天/客服 → GPT-5.3 Instant（说话终于像人了，幻觉也少）
批量翻译/分类/审核 → Gemini 3.1 Flash-Lite（便宜+快，Thinking Level 调 Low）
写代码 → 都行，GPT 略好但 Gemini 也够用
复杂推理 → Flash-Lite 开 High thinking，效果不错还比大模型便宜

一个开发上的建议

现在模型迭代太快了——昨天 OpenAI 和 Google 同天发，过两天 Anthropic 可能又来一个。每家都单独对接一遍 SDK？疯了。

我现在的做法是统一用一个 API 聚合服务。上面的测试代码就是这么写的——base_url 不变，model 字段改一下，GPT/Gemini/Claude 无缝切换。新模型发了改个 model 名字就跑，不用动对接代码。

我用的是 ofox.ai，50 多个模型一个 Key，国内直连不用折腾。模型上新速度对我来说够用，延迟也还行。当然市面上还有别的选择，按自己需求来。

最后

OpenAI 和 Google 同天发模型，释放了个信号：模型厂商开始卷"开发者体验"了。

不光跑分高就行——GPT-5.3 卷的是"好好说话"，Gemini 3.1 Flash-Lite 卷的是"又便宜又快还能调思考深度"。

对开发者来说，选择越来越多，成本越来越低。就是跟着适配有点累 😮‍💨

以上测试基于 2026 年 3 月 3 日发布当天版本。GPT-5.2 Instant 将于 6 月 3 日退役，注意迁移。