微软科技大佬推出Phi-3性能超Llama-3或GPT并可在手机端运行。
Created: April 23, 2024 10:20 PM
在数据驱动的大模型能力提升中,微软刚刚发布了自研的小型模型Phi-3,它不仅性能卓越,而且可以部署在手机上。
本周二,微软推出了三个版本的Phi-3模型,其中Phi-3 mini以其38亿参数的语言模型在3.3万亿token的训练后,展现出了在学术基准和内部测试中的优异成绩。尽管Phi-3 mini被优化至可在手机上运行,性能可与Mixtral 8x7B和GPT-3.5等大型模型相媲美。微软强调这一创新主要得益于其用于训练的高质量数据集。
Phi-3与Llama-2采用了相同的架构,这为开源社区提供了便利,使其能够在此基础上进行进一步的开发。此前,微软的Phi系列模型已经引起了广泛关注。去年6月,微软发布了《Textbooks Are All You Need》论文,展示了使用7B token的高质量数据训练出的1.3B参数模型phi-1,该模型表现出了良好的性能。
去年9月,微软进一步探索了这一领域,让1.3B参数的Transformer架构语言模型Phi-1.5展现出了强大的编码能力。去年底,微软提出的Phi-2在2.7B的规模上,在多个基准测试中超过了Llama2 7B、Llama2 13B、Mistral 7B等先进模型。
Phi-3的技术报告可在此处查阅。新提出的phi-3-mini在3.3万亿个token上进行了训练,实验测试表明,其整体性能可与Mixtral 8x7B和GPT-3.5等模型相媲美。例如,在MMLU上达到了69%,在MT-bench上达到了8.38。
微软之前的研究表明,高质量的“小数据”能够使较小的模型具备良好的性能。phi-3-mini在经过严格筛选的网络数据和合成数据上进行训练,并进一步调整了稳健性、安全性和聊天格式。
此外,研究团队还提供了针对4.8T token训练的7B和14B模型的初始参数扩展结果,分别称为phi-3-small和phi-3-medium,两者都比phi-3-mini更强大。
在标准开源基准测试中,phi-3-mini与phi-2、Mistral-7b-v0.1、Mixtral-8x7B、Gemma 7B、Llama-3-instruct8B和GPT-3.5的比较结果如下表所示,所有结果都是通过完全相同的流程得到的,以确保可比性。
安全性: Phi-3-mini是根据微软负责任人工智能原则开发的,旨在保证大模型的安全性。这包括训练后的安全调整、红队测试、自动化测试和对数十个RAI(负责任人工智能)危害类别的评估。微软利用受[BSA+ 24]启发修改的有用和无害偏好数据集[BJN+ 22、JLD+ 23],以及多个内部生成的数据集来解决安全性后训练的RAI危害类别。一个独立的红队反复检查了phi-3-mini,以确定后训练过程中需要改进的领域。
根据红队的反馈,研究团队整理了额外的数据集,从而完善了后训练数据集。这一过程显著降低了有害响应率,如图所示。
下表显示了phi-3-mini-4k和phi-3-mini-128k与phi-2、Mistral-7B-v0.1、Gemma 7B的内部多轮对话RAI基准测试结果。该基准测试利用GPT-4模拟了五个不同类别的多轮对话,并评估了模型的响应。
缺陷: 微软指出尽管phi-3-mini模型在语言理解和推理能力上达到了与大型模型相似的水平,但它在某些任务上仍然受到其规模的限制。例如存储大量“事实知识”方面存在局限,这从其在TriviaQA上的低评分中可见一斑。研究人员相信,通过搜索引擎增强的方式,这些问题可以得到解决。
如果您觉得本文对您有帮助,欢迎关注我的公众号(梦兽编程)/网站,我会持续分享更多资讯和开发经验。也欢迎加入我的微信群,一起交流web开发,共同进步。