Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜03.04

44 阅读3分钟

在当前的开源大模型竞争中,Llama、Qwen和DeepSeek形成了三足鼎立之势。Llama曾是开源领域的标杆,但随着Qwen和DeepSeek的崛起,其地位受到挑战。Qwen凭借多样化开源尺寸和强劲性能,在Hugging Face等开源社区中超越Llama,成为新的标杆。DeepSeek则通过基于Qwen等模型的蒸馏技术,快速构建高性能模型,推动开源生态发展。谁优谁劣,我们直接上榜单!评测维度:医疗、教育、法律、行政公务、推理与数学计算、语言与指令遵从。

排名大模型机构输出价格(元/M tok)总分
DeepSeek-R1深度求索16.0 87.34 
qwq-32b-preview阿里巴巴7.0 77.85 
DeepSeek-R1-Distill-Qwen-32B深度求索1.3 77.49 
qwen2.5-72b-instruct阿里巴巴12.0 76.89 
qwen2.5-32b-instruct阿里巴巴7.0 75.85 
deepseek-chat-v3深度求索8.0 75.03 
qwen2.5-14b-instruct阿里巴巴6.0 72.77 
DeepSeek-R1-Distill-Qwen-14B深度求索0.7 72.77 
DeepSeek-R1-Distill-Llama-70B深度求索4.1 71.37 
10 internlm2_5-20b-chat上海人工智能实验室1.0 70.20 
11 Meta-Llama-3.1-405B-InstructMeta21.0 69.55 
12 qwen2.5-7b-instruct阿里巴巴2.0 69.11 
13 internlm2_5-7b-chat上海人工智能实验室0.4 68.05 
14 Llama-3.3-70B-Instructmeta4.1 67.86 
15 glm-4-9b-chat智谱AI0.6 67.12 
16 qwen2.5-math-72b-instruct阿里巴巴12.0 67.03 
17 Llama-3.3-70B-Instruct-fp8meta2.2 66.86 
18 Llama-3.1-Nemotron-70B-Instruct-fp8nvidia2.2 66.67 
19 Yi-1.5-34B-Chat零一万物1.3 66.64 
20 Hermes-3-Llama-3.1-405BNousResearch5.8 65.65 
21 phi-4微软1.0 62.92 
22 qwen2.5-3b-instruct阿里巴巴0.0 58.64 
23 Yi-1.5-9B-Chat零一万物0.4 58.56 
24 gemma-2-27b-itGoogle1.3 57.89 
25 gemma-2-9b-itGoogle0.6 55.41 
26 Llama-3.1-8B-InstructMeta0.4 53.03 
27 DeepSeek-R1-Distill-Qwen-7B深度求索0.4 52.42 
28 DeepSeek-R1-Distill-Llama-8B深度求索0.4 52.35 
29 Mistral-Nemo-Instruct-2407Mistral0.6 52.24 
30 Meta-Llama-3.1-8B-Instruct-fp8meta0.4 51.39 
31 qwen2.5-1.5b-instruct阿里巴巴0.0 49.03 
32 Llama-3.2-3B-Instructmeta0.2 46.76 
33 Mistral-7B-Instruct-v0.3Mistral0.4 42.19 
34 DeepSeek-R1-Distill-Qwen-1.5B深度求索0.1 40.43 
35 qwen2.5-0.5b-instruct阿里巴巴0.0 37.89 
36 Llama-3.2-1B-Instructmeta0.2 36.59 

各细分领域完整评测结果详见:github.com/jeinlee1991…


大模型评测EasyLLM,目前已就DeepSeek和各个大模型的不同能力维度进行了综合评测(详情可回顾以下链接👇),接下来还会针对大模型当律师、医生、老师等各个岗位角色进行测评,看看谁是各个垂直领域的最强打工人!宝子们看好哪个大模型可以在哪些岗位胜任最强牛马?或者想评测大模型的哪方面能力?评论区留言,有求必测,一一公布结果!有评测样本、有图有真相!图片


  • 关于大模型评测EasyLLM:
  1. 最全——全球最全大模型产品评测平台,已囊括~200个大模型

  2. 最新——日更各个大模型各项能力指标评测,输出排行榜

  3. 最方便——无需注册/梯子,国内外各个大模型可一键评测

  4. 结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯!

目前已囊括195个大模型,覆盖chatgpt、gpt-4o、o3-mini、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言、qwen-max、百川、讯飞星火、商汤senseChat、minimax等商用模型, 以及DeepSeek-R1、deepseek-v3、qwen2.5、llama3.3、phi-4、glm4、书生internLM2.5等开源大模型。

image.png