微软Phi - 4模型:小参数下的大潜力 一、微软发布的Phi - 4最小模型是什么 微软于2024年12月13日发布了14B参数的小型语言模型(SLM)Phi - 4 。它是Phi系列小型语言模型的最新成员,除了传统的语言处理功能外,还擅长数学等领域的复杂推理,展示了微软在探索小型语言模型(SLM)边界方面的成果 。Phi - 4的发布体现了微软在人工智能领域持续创新的能力,官方表示其在数学推理方面超越了同类和更大规模的模型,例如在数学竞赛问题上的表现超过了GeminiPro1.5等更大规模的模型,并且得益于多方面的技术进步,包括采用高质量的合成数据集、精心挑选的高质量有机数据,以及训练后的创新等 。目前,Phi - 4已在AzureAIFoundry上开放使用,微软也宣布将“强大且负责任”的AI能力提供给所有使用Phi系列模型(包括Phi - 3.5 - mini)的客户 。
二、Phi - 4与GPT - 4o的性能对比 (一)数学推理能力
- 在数学基准测试方面,Phi - 4表现优异。在MATH数学基准中,Phi - 4以80.4%的准确率超过了GPT - 4o的74.6%;在美国数学竞赛AMC的测试中,Phi - 4达到了91.8分,超过了GPT - 4o等知名模型 。
- 在研究生水平STEM问答GPQA上,Phi - 4准确率达到56.1%,高于GPT - 4o的50.6%;在MMLU上,Phi - 4以84.8%的准确率超过了GPT - 4o - mini的81.8% 。 (二)编程能力
- Phi - 4在HumanEval上以82.6%超过了其他开源模型,以及GPT - 4o - mini。不过在难度稍高的MMLU和HumanEval+上,Phi - 4虽然表现超过其他开源模型,但在ArenaHard、LiveBench和IFEval上则表现欠佳 。 (三)多模态处理能力
- GPT - 4o能够接受文本、音频和图像的任意组合作为输入,并可生成文本、音频和图像的任意组合作为输出,在多模态处理方面能力较为全面 。而关于Phi - 4的多模态处理能力,目前仅知道它具有多模态处理能力,能够同时处理文本、图像和音频等多种数据类型,但没有更多关于与GPT - 4o在这方面对比的详细数据和信息 。
三、Phi - 4是否超越GPT - 4o 从目前的多项基准测试结果来看,Phi - 4在很多方面超越了GPT - 4o。在数学推理方面,无论是在专门的数学基准测试(如MATH),还是像美国数学竞赛AMC这样的实际测试中,Phi - 4都取得了比GPT - 4o更好的成绩 。在研究生水平的STEM问答(GPQA)以及一些编程能力测试(如HumanEval)中,Phi - 4也展现出了超越GPT - 4o或其相关版本(如GPT - 4o - mini)的性能 。然而,GPT - 4o也有其自身的优势,例如在多模态处理方面能够接受和生成多种类型组合的数据,而Phi - 4虽然具备多模态处理能力,但在这方面与GPT - 4o的详细对比还缺乏足够信息。所以不能简单地说Phi - 4在所有方面完全超越了GPT - 4o,但在数学和部分编程相关的性能上,Phi - 4确实表现得更为出色。
四、微软Phi - 4的技术特点 (一)训练数据的创新
- 高质量合成数据集:Phi - 4使用了种子策划、多Agent提示、自我修订工作流、重写和增强以及指令反转等多种合成方法来生成训练数据。种子策划是合成数据生成的起点,从多个领域(如网页、书籍和代码库)提取高质量的数据种子,为合成数据生成打下基础,能够创建针对模型训练目标的练习、讨论和推理任务。并且采用两阶段过滤过程来确保质量,先是识别具有强教育潜力的页面,再将选定页面分割成段落并对段落进行事实和推理内容的评分。通过这些方法,一共生成了50种不同类型的合成数据集,涵盖广泛主题和技能,总计约400B未加权的高质量token数据 。
- 注重数据平衡:Phi - 4特别注重不同类型数据之间的平衡,避免某类数据过多导致其他方面性能下降的情况发生。除了合成数据,还使用了精心挑选的高质量有机数据,例如从学术文章、书籍、代码库等高质量非合成文本中筛选数据用于训练,并且在训练的midtraining阶段,对不同长度的样本(如长度大于8Ktokens和超过16Ktokens的样本)进行特殊处理以匹配目标长度,同时引入新合成数据与真实长文本数据共同组成midtraining阶段的数据集,该阶段的数据包含30%新引入的长文本数据(筛选 + 合成)和70%预训练阶段的历史数据,规模为2500亿tokens 。 (二)后训练强化方法
- 两种形式的DPO数据:在phi - 4的后训练过程中,采用了两种形式的DPO数据对模型进行强化训练。第一种是基于人工标注的SFT数据,即由专家精心挑选并标记好的问答对;第二种是自动构建的DPO对,这种方法通过搜索重要的转折点,将原始对话片段拆分成多个选项,让模型从中选择最优解。此外,还引入了一些创新性的后训练方法来增强其在特定领域内的表现,例如在STEM领域问题解答方面,利用名为Math - Shepherd的工具进行验证和强化学习,该工具可以自动检查模型生成的答案是否正确,并在必要时提供额外指导,帮助模型逐步掌握正确的解题思路 。 (三)长文本处理能力的优化
- 针对长上下文理解能力的需求,Phi - 4增加了rope位置编码的基础频率至25万次,并相应地降低了最大学习率,以更好地适应更长的文本序列,从而有效提升了模型对于复杂结构化信息的理解力,使其在面对需要综合分析多个段落甚至整篇文章的问题时也能游刃有余 。
五、GPT - 4o的优势与不足 (一)优势
- 多模态处理能力强:GPT - 4o能够接受文本、音频和图像的任意组合作为输入,并可生成文本、音频和图像的任意组合作为输出,这使得它在处理复杂的多模态信息时具有很大的优势,能够满足多种不同类型的任务需求,例如在需要同时处理声音、图像和文字的场景中表现出色 。
- 实时数据处理和推理性能好:在实时数据处理和推理方面表现出色,这对于需要即时响应的应用场景尤为重要,能够快速对输入的数据进行处理并生成合适的输出,例如在一些实时交互的对话系统或者需要快速决策的智能应用场景中具有较好的表现 。
- 用户功能扩展丰富:为用户提供了更多高级功能,特别是在免费用户层面,这大大提升了用户体验。并且与GPT - 4相比,GPT - 4o在保持相似智能水平的同时,提供了更高的效率和更低的成本,具有较好的性能与成本平衡 。 (二)不足
- 资源消耗问题:虽然GPT - 4o在效率上有所提升,但它在处理多模态数据时仍需消耗较多资源。这可能限制了其在一些资源有限的设备或者场景中的应用,例如在移动设备或者边缘计算场景中,如果资源不足可能会影响其性能表现 。
- 特定任务的性能优化需求:在某些特定任务上,GPT - 4o可能需要进一步的技术优化以达到最佳性能。例如在一些专业领域的任务(如特定的数学推理或者编程任务)中,根据与Phi - 4的对比,其性能可能不如专门针对这些领域优化的模型,如Phi - 4在数学推理方面的多项测试中表现优于GPT - 4o 。
六、Phi - 4在行业中的应用前景 (一)科学研究领域
- 由于Phi - 4尤其擅长数学推理,在美国数学协会美国数学竞赛(AMC)的标准化数学竞赛问题上取得了令人印象深刻的成绩,所以它在科学研究领域有着很大的应用潜力。在物理学、化学、生物学等需要大量数学计算和推理的学科研究中,Phi - 4可以帮助科学家更高效地处理数据、建立模型和进行理论推导。例如在物理中的量子力学研究,需要处理复杂的数学公式和数据关系,Phi - 4能够快速准确地进行计算和推理,辅助科学家进行研究 。 (二)工程领域
- 在工程领域,从机械工程到电气工程,再到土木工程等,都需要精确的计算和设计优化。Phi - 4的数学推理能力可以用于工程设计中的结构计算、电路分析、流体力学计算等方面。以建筑工程为例,在设计大型建筑结构时,需要考虑各种力学因素,Phi - 4可以帮助工程师快速分析不同结构方案下的受力情况,优化设计方案,提高工程的安全性和经济性 。 (三)金融建模方面
- 在金融行业,风险评估、投资策略制定、金融产品定价等都依赖于复杂的数学模型。Phi - 4可以凭借其强大的数学推理能力,对金融市场数据进行分析,构建更准确的风险评估模型,为投资决策提供更可靠的依据。例如在股票市场中,Phi - 4可以分析大量的历史数据和实时市场数据,预测股票价格走势,帮助投资者制定合理的投资策略 。 (四)对小型企业和资源受限环境的意义
- 目前的大型语言模型需要大量的计算资源,从而增加了部署AI解决方案的企业的成本和能源消耗。而Phi - 4以较小的参数规模(14B参数)就能展现出优秀的性能,这对于计算预算有限的中型公司和组织来说意义重大,使他们更容易获得复杂的AI功能。并且在部署、应用和推理方面极大减少了对AI算力和环境的要求,这也使得Phi - 4在一些资源受限的环境(如边缘计算设备、小型数据中心等)中更具应用优势,可以促进AI技术在这些场景中的更广泛应用 。