超越Deepseek v3!手把手教你开始入门通问千义最强最新开源模型qwen2.5-max

869 阅读3分钟

随着数据规模和模型规模的不断扩大,模型智能的提升已成为普遍共识。

然而,研究界和行业界在有效扩展超大规模模型方面经验有限,无论是密集型模型还是专家混合模型(MoE)。

关于这一扩展过程的许多关键细节,直到最近DeepSeek V3发布时才被公开。

与此同时,我们也在研发Qwen2.5-Max,这是一款超大规模的MoE模型,已经在超过20万亿个标记上进行了预训练,并通过精心设计的监督微调(SFT)和基于人类反馈的强化学习(RLHF)方法进一步优化。

今天,我们很高兴与大家分享Qwen2.5-Max的性能成果,并宣布其API已通过阿里云开放。同时,欢迎大家在Qwen Chat中体验Qwen2.5-Max!

性能表现

我们在一系列重要的基准测试中评估了Qwen2.5-Max的表现,涵盖了社区关注的多个领域。包括:MMLU-Pro(测试大学水平的知识)、LiveCodeBench(评估编码能力)、LiveBench(全面测试模型的通用能力)以及Arena-Hard(评估人类偏好)。我们还对比了Qwen2.5-Max与领先模型的表现,包括DeepSeek V3、GPT-4o和Claude-3.5-Sonnet。

image.png Qwen2.5-Max在Arena-Hard、LiveBench、LiveCodeBench和GPQA-Diamond等基准测试中,超越了DeepSeek V3,并且在其他测试中也展现了强劲的竞争力,包括MMLU-Pro。

image.png 在与基础模型的比较中,由于无法访问GPT-4o和Claude-3.5-Sonnet这些专有模型,我们将Qwen2.5-Max与DeepSeek V3(领先的开源MoE模型)、Llama-3.1-405B(最大的开源密集模型)和Qwen2.5-72B(也是顶尖的开源密集模型)进行了对比。结果表明,Qwen2.5-Max在大多数基准测试中表现优异,并且我们有信心,通过后续的训练技术,Qwen2.5-Max的下一版本将进一步提升。

如何使用Qwen2.5-Max

目前,Qwen2.5-Max已经在Qwen Chat中上线,您可以直接与模型对话,或进行其他交互式操作如搜索等。

Qwen2.5-Max的API(模型名称为qwen-max-2025-01-25)也已开放。您可以通过注册阿里云账号并激活阿里云模型工作室服务,然后在控制台创建API密钥。

由于Qwen的API与OpenAI API兼容,使用方法与OpenAI API类似。以下是一个Python代码示例:

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.getenv("API_KEY"),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen-max-2025-01-25",
    messages=[
        {'role': 'system', 'content': '你是一个有帮助的助手。'},
        {'role': 'user', 'content': '9.11和9.8,哪个更大?'}
    ]
)

print(completion.choices[0].message)

未来展望

数据和模型规模的不断扩大,不仅展示了模型智能的提升,也体现了我们对前沿研究的坚持。我们致力于通过大规模的强化学习,进一步提升大语言模型的思维与推理能力。未来,这将为我们的模型超越人类智能开辟新天地,探索未知的知识和理解领域。