Deepseek V3性能比肩顶尖模型:解读与使用

844 阅读2分钟

Deepseek在年关前发布了V3版本,并对模型做了比较详细的介绍,首先我们来看一下模型的参数与指标。

1.模型对比

DeepSeek V3 版本在多个关键指标上相比 V2.5 版本有显著提升。以下是与其他主流模型的对比:

●DeepSeek V3

●DeepSeek V2.5

●Qwen-Plus

●GPT-4o

●Claude 3.5 Sonnet

●Llama 3.1 405B

V3 版本在多个领域表现优异,基本上是在与Claude3.5 sonnet争第一。  

image.png

2.性能提升

百科知识

●MMLU, MMLU-Pro, GPQA, SimpleQA:DeepSeek-V3 在知识类任务上的表现显著提升,接近当前表现最好的模型 Claude-3.5-Sonnet-1022。

长文本

●DROP, FRAMES, LongBench v2:DeepSeek-V3 在长文本测评中平均表现超越其他模型。

代码

●算法类代码场景(Codeforces):DeepSeek-V3 远远领先于市面上已有的全部非 o1 类模型。

●工程类代码场景(SWE-Bench Verified):DeepSeek-V3 逼近 Claude-3.5-Sonnet-1022。

数学

●美国数学竞赛(AIME 2024, MATH) 和 全国高中数学联赛(CNMO 2024):DeepSeek-V3 大幅超过了所有开源闭源模型。

中文能力

●教育类测评 C-Eval 和 代词消歧:DeepSeek-V3 与 Qwen2.5-72B 表现相近。

●事实知识 C-SimpleQA:DeepSeek-V3 更为领先。  

image.png

  # 3.生成速度

●提升至 3 倍:通过算法和工程上的创新,DeepSeek-V3 的生成吐字速度从 20 TPS 大幅提高至 60 TPS,相比 V2.5 模型实现了 3 倍的提升,为用户带来更加迅速流畅的使用体验。 

4.模型费用

●新价格:输入为 2 元/百万 tokens,输出为 8 元/百万 tokens,缓存命中0.5元/百万tokens。

●优惠价格:在 2 月 8 日之前,保持原价,输入为 1 元/百万 tokens,输出为 2 元/百万 tokens,缓存命中0.1元/百万tokens。

5.模型使用

●上下文长度:目前仍然支持 64K 上下文。

●最大输出:最大输出升级到8K。

●多模态支持:未来可能会支持多模态,值得期待。

●使用平台:可以在高通智匠(MindCraft AI)上使用这款模型,并且支持在开发者平台调用 API。

image.png

image.png

以上是 DeepSeek V3 版本的详细介绍,期待其在未来的表现和升级。高通智匠MindCraft AI上可以了解更多详情。