随着数据规模和模型规模的不断扩大,模型智能的提升已成为普遍共识。
然而,研究界和行业界在有效扩展超大规模模型方面经验有限,无论是密集型模型还是专家混合模型(MoE)。
关于这一扩展过程的许多关键细节,直到最近DeepSeek V3发布时才被公开。
与此同时,我们也在研发Qwen2.5-Max,这是一款超大规模的MoE模型,已经在超过20万亿个标记上进行了预训练,并通过精心设计的监督微调(SFT)和基于人类反馈的强化学习(RLHF)方法进一步优化。
今天,我们很高兴与大家分享Qwen2.5-Max的性能成果,并宣布其API已通过阿里云开放。同时,欢迎大家在Qwen Chat中体验Qwen2.5-Max!
性能表现
我们在一系列重要的基准测试中评估了Qwen2.5-Max的表现,涵盖了社区关注的多个领域。包括:MMLU-Pro(测试大学水平的知识)、LiveCodeBench(评估编码能力)、LiveBench(全面测试模型的通用能力)以及Arena-Hard(评估人类偏好)。我们还对比了Qwen2.5-Max与领先模型的表现,包括DeepSeek V3、GPT-4o和Claude-3.5-Sonnet。
Qwen2.5-Max在Arena-Hard、LiveBench、LiveCodeBench和GPQA-Diamond等基准测试中,超越了DeepSeek V3,并且在其他测试中也展现了强劲的竞争力,包括MMLU-Pro。
在与基础模型的比较中,由于无法访问GPT-4o和Claude-3.5-Sonnet这些专有模型,我们将Qwen2.5-Max与DeepSeek V3(领先的开源MoE模型)、Llama-3.1-405B(最大的开源密集模型)和Qwen2.5-72B(也是顶尖的开源密集模型)进行了对比。结果表明,Qwen2.5-Max在大多数基准测试中表现优异,并且我们有信心,通过后续的训练技术,Qwen2.5-Max的下一版本将进一步提升。
如何使用Qwen2.5-Max
目前,Qwen2.5-Max已经在Qwen Chat中上线,您可以直接与模型对话,或进行其他交互式操作如搜索等。
Qwen2.5-Max的API(模型名称为qwen-max-2025-01-25)也已开放。您可以通过注册阿里云账号并激活阿里云模型工作室服务,然后在控制台创建API密钥。
由于Qwen的API与OpenAI API兼容,使用方法与OpenAI API类似。以下是一个Python代码示例:
from openai import OpenAI
import os
client = OpenAI(
api_key=os.getenv("API_KEY"),
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
completion = client.chat.completions.create(
model="qwen-max-2025-01-25",
messages=[
{'role': 'system', 'content': '你是一个有帮助的助手。'},
{'role': 'user', 'content': '9.11和9.8,哪个更大?'}
]
)
print(completion.choices[0].message)
未来展望
数据和模型规模的不断扩大,不仅展示了模型智能的提升,也体现了我们对前沿研究的坚持。我们致力于通过大规模的强化学习,进一步提升大语言模型的思维与推理能力。未来,这将为我们的模型超越人类智能开辟新天地,探索未知的知识和理解领域。