Qwen1.5-32B和Qwen1.5-32B-Chat两款模型

530 阅读2分钟

通义千问团队发布了一篇关于最新推出的Qwen1.5系列语言模型的博文,重点介绍了其中的Qwen1.5-32B和Qwen1.5-32B-Chat两款模型。在开源社区中,人们一直在寻找能够完美平衡性能、效率和内存占用的模型。尽管已有如Qwen1.5-72B和DBRX等尖端模型出现,但它们仍面临着大内存消耗、推理速度慢以及显著的微调成本等挑战。

当前领域内普遍认为,约300亿参数规模的模型是实现强大性能与适度资源需求的理想“黄金点”。因此,通义千问团队顺应这一趋势,精心研发了Qwen1.5-32B基础模型,并在后续训练技术方面取得突破,特别是在RLHF方面提升Qwen1.5-32B-Chat的对话能力。

Qwen1.5-32B作为Qwen1.5系列的新成员,在模型架构上除了引入分组查询注意力(GQA)之外,与其他模型几乎无异,从而具备在模型服务中实现更高效推理性能的潜力。以下是该模型在基础能力评估、聊天评估及多语言评估等方面与大约300亿参数或更大规模的SOTA模型性能对比:

结果显示,Qwen1.5-32B在MMLU、GSM8K、HumanEval和BBH等多个任务上展现出颇具竞争力的性能表现。相较于720亿参数模型,Qwen1.5-32B的性能虽略有下降,但在大部分任务中仍然优于其他300亿参数级别的模型如Llama2-34B和Mixtral-8x7B。

在聊天模型方面,Qwen1.5-32B-Chat在MT-Bench和Alpaca-Eval 2.0上的测试结果显示出其得分超过8分,与Qwen1.5-72B-Chat之间的差距相对较小,这表明对于寻求高效且成本效益更高的聊天应用解决方案的用户而言,320亿参数模型是一个可行的选择。

此外,Qwen1.5-32B在包含阿拉伯语、西班牙语、法语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语和印尼语在内的12种语言的多语言能力测试中也表现出色,尽管略逊于720亿参数模型,但整体表现依然不俗。

最后,在长上下文评估“Needle in a Haystack”场景下,Qwen1.5-32B展现出了顶级水平的表现,能够在32K个令牌的上下文中运行良好。

通义千问团队发布了中等尺寸的Qwen1.5-32B及其聊天版本,相比720亿参数模型,新模型的内存占用大大减少,运行速度显著提高。希望通过此次发布,能帮助用户针对下游应用场景找到更为理想的解决方案,既能解决140亿参数模型(尤其是在智能代理交互场景下)能力不足的问题,又能应对720亿参数模型高昂的推理成本问题。