Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜:行政公务领域03.05

27 阅读2分钟

开源模型综合能力见:Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜03.04

以下为行政公务领域排行榜:

输出价格单位:(元/M tok)

排名大模型机构输出价格行政公务
1DeepSeek-R1深度求索1688.6
2qwq-32b-preview阿里巴巴778.0
3DeepSeek-R1-Distill-Llama-70B深度求索4.177.5
4DeepSeek-R1-Distill-Qwen-32B深度求索1.376.2
5deepseek-chat-v3深度求索872.7
6qwen2.5-72b-instruct阿里巴巴1271.7
7qwen2.5-32b-instruct阿里巴巴770.0
8DeepSeek-R1-Distill-Qwen-14B深度求索0.768.0
9qwen2.5-math-72b-instruct阿里巴巴1268.0
10qwen2.5-14b-instruct阿里巴巴667.0
11internlm2_5-20b-chat上海人工智能实验室166.4
12Llama-3.3-70B-Instructmeta4.166.4
13phi-4微软166.1
14Llama-3.3-70B-Instruct-fp8meta2.264.8
15Hermes-3-Llama-3.1-405BNousResearch5.864.7
16Meta-Llama-3.1-405B-InstructMeta2164.2
17glm-4-9b-chat智谱AI0.664.1
18Llama-3.1-Nemotron-70B-Instruct-fp8nvidia2.263.7
19internlm2_5-7b-chat上海人工智能实验室0.462.4
20qwen2.5-7b-instruct阿里巴巴259.6
21Yi-1.5-34B-Chat零一万物1.359.0
22gemma-2-27b-itGoogle1.357.1
23gemma-2-9b-itGoogle0.653.6
24qwen2.5-3b-instruct阿里巴巴051.3
25DeepSeek-R1-Distill-Llama-8B深度求索0.449.9
26Llama-3.1-8B-InstructMeta0.449.6
27DeepSeek-R1-Distill-Qwen-7B深度求索0.448.8
28Yi-1.5-9B-Chat零一万物0.445.3
29Meta-Llama-3.1-8B-Instruct-fp8meta0.443.2
30Mistral-Nemo-Instruct-2407Mistral0.642.4
31Mistral-7B-Instruct-v0.3Mistral0.440.9
32qwen2.5-1.5b-instruct阿里巴巴040.5
33Llama-3.2-3B-Instructmeta0.237.8
34Llama-3.2-1B-Instructmeta0.232.7
35qwen2.5-0.5b-instruct阿里巴巴030.7
36DeepSeek-R1-Distill-Qwen-1.5B深度求索0.126.4

行政公务领域目前囊括1个维度:公务员考试。

完整评测结果详见:github.com/jeinlee1991…

往期文章  
教育行业|小学至高中3个阶段、9个学科、110个大模型应用实测!医疗行业|110个大模型,12个分类、18科目应用实测!Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜03.04那些免费的大模型API效果到底好不好?——CLiB大模型排行榜参数量5B以下端侧大模型03.13——CLiB大模型排行榜DeepSeek|到底强在哪?这个评测一目了然!


  关于大模型评测EasyLLM  

  1. 最全——全球最全大模型产品评测平台,已囊括203个大模型
  2. 最新——月更各个大模型各项能力指标评测,输出排行榜
  3. 最方便——无需注册/梯子,国内外各个大模型可一键评测
  4. 结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯!
  5. 错题本——百万级大模型错题本

大模型评测EasyLLM目前已囊括203个大模型,覆盖chatgpt、gpt-4o、o3-mini、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言、qwen-max、百川、讯飞星火、商汤senseChat、minimax等商用模型, 以及DeepSeek-R1、deepseek-v3、qwen2.5、llama3.3、phi-4、glm4、书生internLM2.5等开源大模型。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!
完整评测题集及结果详见:github.com/jeinlee1991…