DeepSeek V3 vs GPT-5 API 实测:烧了 200 块跑完对比,性价比差了 8 倍

18 阅读1分钟

上周帮一个做法律咨询的朋友搞后端,核心就是大模型接口——用户丢一段合同条款进来,模型给出风险分析。一开始图省事直接上了 GPT-5,跑了三天,朋友跟我说账单快 600 块了,问我有没有便宜的方案。我说你等等,我拿 DeepSeek V3 跑一遍同样的 case,看看效果差多少。结果测完数据我人傻了,某些场景下 DeepSeek V3 不但便宜得离谱,输出质量还真没差多少。

先说结论

我用同一套 Prompt、同一批测试数据(200 条法律文本 + 100 条代码生成 + 50 条多轮对话),跑了完整对比。直接上表:

维度DeepSeek V3GPT-5
输入价格(每百万 token)≈ ¥1-2≈ ¥15-20
输出价格(每百万 token)≈ ¥2-4≈ ¥40-60
中文法律文本理解准确率91%94%
代码生成首次通过率85%92%
多轮对话上下文保持良好优秀
平均响应延迟(国内)800ms1200ms(聚合接口)
综合性价比★★★★★★★☆

DeepSeek V3 的价格只有 GPT-5 的 1/8 到 1/10,质量差距在 3-7 个百分点。对大多数生产场景来说,DeepSeek V3 是 2026 年性价比最高的选择。

为什么要折腾这个对比

说实话,我以前是 GPT 铁粉。从 GPT-3.5 到 GPT-5 一路追过来,效果确实好。但 2026 年情况变了——国产模型卷得太厉害,DeepSeek V3、GLM-5、Qwen 3 全冲上来了。加上前两天看到热榜那个「用 AI 赚钱」的帖子,底下评论一堆人在算 API 成本,我才觉得这事儿值得认真测一测。

我的场景很典型:独立开发者,没有 VC 的钱烧,每一分 API 支出都得精打细算。同样的活儿,能用 1/8 的价格搞定,省下来的就是利润。

测试方案和环境

为了公平,我统一用 OpenAI 兼容协议调用两个模型,代码只改 model 参数。ofox.ai 是一个 AI 模型聚合平台,一个 API Key 可以调用 GPT-5、Claude 4.6、DeepSeek V3、GLM-5 等 50+ 模型,国内直连无需代理,支持支付宝付款。base_url 统一,代码写一份就行,不用分别管两家的鉴权和网络问题。

from openai import OpenAI
import time
import json

client = OpenAI(
    api_key="your-ofox-key",
    base_url="https://api.ofox.ai/v1"  # 聚合接口,一个 Key 调所有模型
)

def run_benchmark(model_name: str, prompts: list[dict]) -> dict:
    """跑单个模型的完整测试"""
    results = []
    total_input_tokens = 0
    total_output_tokens = 0
    
    for i, p in enumerate(prompts):
        start = time.time()
        try:
            resp = client.chat.completions.create(
                model=model_name,
                messages=p["messages"],
                temperature=0.3,
                max_tokens=2000
            )
            latency = time.time() - start
            
            results.append({
                "id": i,
                "latency": round(latency, 2),
                "output": resp.choices[0].message.content,
                "input_tokens": resp.usage.prompt_tokens,
                "output_tokens": resp.usage.completion_tokens,
                "success": True
            })
            total_input_tokens += resp.usage.prompt_tokens
            total_output_tokens += resp.usage.completion_tokens
            
        except Exception as e:
            results.append({"id": i, "error": str(e), "success": False})
        
        # 别把 rate limit 打满了
        time.sleep(0.5)
    
    return {
        "model": model_name,
        "total_input_tokens": total_input_tokens,
        "total_output_tokens": total_output_tokens,
        "avg_latency": round(sum(r["latency"] for r in results if r["success"]) / len([r for r in results if r["success"]]), 2),
        "success_rate": len([r for r in results if r["success"]]) / len(results),
        "results": results
    }

# 分别跑两个模型
deepseek_result = run_benchmark("deepseek-chat", test_prompts)
gpt5_result = run_benchmark("gpt-5", test_prompts)

场景一:中文法律文本分析

这是朋友的核心业务场景。给模型一段合同条款,让它找出潜在风险点。

测试 Prompt 长这样:

legal_prompt = {
    "messages": [
        {"role": "system", "content": "你是一名资深法律顾问,擅长合同条款风险分析。请逐条分析以下合同条款的潜在风险,给出修改建议。"},
        {"role": "user", "content": """
        第三条:乙方应在合同签订后30个工作日内完成全部交付工作。
        如因乙方原因导致延期,每延迟一日,乙方应向甲方支付合同总金额的5%作为违约金。
        甲方有权在任何时间、以任何理由单方面解除合同,且无需承担任何费用。
        """}
    ]
}

200 条跑完,我找了一个律师朋友帮忙打分(10 分制):

评估项DeepSeek V3GPT-5
风险点识别完整度8.79.1
法律术语准确性8.58.9
修改建议可操作性8.98.8
中文表达流畅度9.28.6

中文表达流畅度上 DeepSeek V3 反超了。GPT-5 偶尔会蹦出翻译腔,比如「鉴于上述条款的单方面性质」这种,DeepSeek V3 说人话的能力明显更强。修改建议的可操作性两者几乎打平。

成本上,这 200 条测试,DeepSeek V3 花了不到 2 块钱,GPT-5 花了 17 块多。

场景二:代码生成

100 条代码生成任务,涵盖 Python、TypeScript、SQL,难度从 LeetCode Easy 到实际业务逻辑都有。评判标准简单粗暴——丢进去跑,过了就算对。

code_prompt = {
    "messages": [
        {"role": "system", "content": "你是一个高级程序员。直接输出代码,不要解释。"},
        {"role": "user", "content": "用 Python 实现一个 LRU Cache,支持 get 和 put 操作,时间复杂度 O(1)。包含完整的类定义和类型注解。"}
    ]
}

结果:

指标DeepSeek V3GPT-5
首次运行通过率85/10092/100
修一次 Prompt 后通过率94/10097/100
平均代码行数42 行38 行
含类型注解比例78%91%

GPT-5 在代码生成上确实更强,TypeScript 相关任务类型推导更准。但 DeepSeek V3 的 85% 首次通过率对大多数场景已经够用,何况价格差了将近 10 倍。

写 CRUD 业务代码,DeepSeek V3 绰绰有余。复杂的类型体操或者算法题,GPT-5 确实好一档。

场景三:多轮对话上下文保持

这个是很多人忽略的维度。我设计了 50 组多轮对话,每组 8-12 轮,中途故意切换话题再切回来,看模型能不能记住之前的上下文。

GPT-5 在这方面明显更强。到第 8 轮以上,DeepSeek V3 大概有 15% 的概率会「忘掉」前面的关键信息,GPT-5 只有 5% 左右。如果你的产品是客服、多轮问答这类场景,这个差距需要认真考虑。

踩坑记录

坑 1:DeepSeek V3 的 JSON mode 有时候不太稳

Prompt 里明确要求输出 JSON 格式,DeepSeek V3 大概有 3-5% 的概率会在 JSON 外面包一层 markdown 的 ```json 标记。GPT-5 几乎不会。解决办法是后处理加一个 strip:

import re

def extract_json(text: str) -> dict:
    """从模型输出中提取 JSON,兼容被 markdown 包裹的情况"""
    # 先试直接 parse
    try:
        return json.loads(text)
    except json.JSONDecodeError:
        pass
    
    # 去掉 markdown 代码块标记
    pattern = r'```(?:json)?\s*([\s\S]*?)\s*```'
    match = re.search(pattern, text)
    if match:
        return json.loads(match.group(1))
    
    raise ValueError(f"无法解析 JSON: {text[:100]}...")

坑 2:并发太高会触发 429

一开始把 sleep 设成 0.1 秒,DeepSeek V3 跑到第 50 条左右就开始 429 了。改成 0.5 秒就稳了。GPT-5 倒是没遇到这个问题,可能聚合层做了更好的限流。

坑 3:temperature 对两个模型的影响不一样

同样设 0.3,DeepSeek V3 的输出波动比 GPT-5 大。后来对 DeepSeek V3 改成 0.1 才得到比较稳定的输出。这个在生产环境里挺重要的,一致性差的话用户体验会忽好忽坏。

什么场景选谁

选 DeepSeek V3:

  • 中文内容生成、摘要、翻译(中文能力真的强)
  • 预算敏感的项目(个人开发者、小团队)
  • 批量处理任务(成本差距被放大)
  • 对延迟要求高的场景(国内模型天然优势)

选 GPT-5:

  • 复杂代码生成,尤其是 TypeScript/Rust 这种强类型语言
  • 长上下文多轮对话
  • 需要严格 JSON 结构化输出
  • 英文场景

我的实际做法:混着用。 简单任务走 DeepSeek V3 省钱,复杂任务走 GPT-5 保质量。用聚合接口改个 model 参数就行,代码层面零成本切换。

小结

2026 年选 API,问题不是「哪个最好」,而是「哪个场景用哪个最划算」。DeepSeek V3 在中文场景下的性价比确实炸裂,1/8 到 1/10 的价格换来 3-7% 的质量差距,大部分业务完全可以接受。GLM-5 也出来了,国产这边的选择越来越多,等我有空再跑一期对比。

那个法律咨询项目,朋友把主力模型换成 DeepSeek V3 之后,月账单从 2000 多降到 300 不到。省下来的钱请我吃了顿烧烤,这波不亏。