近日,微软人工智能推出了LLMLingua:一种独特的快速压缩技术,旨在加速大型语言模型(LLM)的推理过程。
在人工智能(AI)领域中,大型语言模型(LLM)以其强大的泛化和推理能力,为技术社群带来了显著的进步。这些模型展现出了卓越的能力,巩固了自然语言处理(NLP)、自然语言生成(NLG)、计算机视觉等领域的地位。然而,最新的发展,如上下文学习(ICL)和思维链条(CoT)提示技术,导致了更长提示语的使用,有时甚至超过数万个标记(tokens)。这对模型推理的成本效益和计算效率提出了挑战。
为了解决这些挑战,微软公司的研究团队提出了LLMLingua,这是一种独特的粗到细的快速压缩技术。LLMLingua的主要目的是减少处理冗长提示语所需的开销,并加快模型推理的速度。为此,LLMLingua采取了以下几个关键策略:
-
预算控制器:团队创建了一个动态预算控制器,用以管理原始提示语不同部分之间的压缩比率分配。这确保即使在高压缩比率下,也能保持提示语的语义完整性。
-
标记级迭代压缩算法:LLMLingua集成了一个标记级迭代压缩算法。这种技术通过捕捉压缩元素之间的相互依赖性,实现了更为精细的压缩,同时保留了提示语的关键信息。
-
基于指令调整的方法:为了解决语言模型分布不一致的问题,团队提出了一种基于指令调整的方法。将语言模型分布对齐,可以提高用于快速压缩的小语言模型与目标LLM之间的兼容性。
研究团队使用四个不同场景的数据集进行了分析和实验,以验证LLMLingua的有效性。这些数据集包括GSM8K和BBH用于推理,ShareGPT用于对话,以及Arxiv-March23用于摘要。实验结果表明,该方法在这些场景中都取得了最先进的性能。结果甚至显示,LLMLingua允许高达20倍的显著压缩,而对性能的牺牲极小。
实验中使用的小型语言模型是LLaMA-7B,而封闭的LLM是GPT-3.5-Turbo-0301。LLMLingua通过在最高20倍的压缩比下仍保留推理、总结和话语能力,超越了以往的压缩技术,显示出其韧性、经济性、效率和恢复能力。
LLMLingua在一系列封闭的LLM和小型语言模型中的有效性得到了观察。即使使用GPT-2-small,LLMLingua也展现出了良好的性能结果,几乎与更大的模型相匹配。它还在强大的LLM中证明了自己的成功,超越了预期的快速结果。
LLMLingua的一个值得注意的方面是恢复能力,当它被用来恢复压缩的提示语时,GPT-4有效地从完整的九步CoT提示中恢复了重要的推理信息,保持了原始提示语的意义和相似性。这一功能确保了恢复能力,并在转换后保留了关键信息,增加了LLMLingua的整体印象。
总之,LLMLingua为LLM应用中长提示语带来的困难提供了全面的解决方案。该方法展示了出色的性能,并提供了一种提高基于LLM应用的效率和负担能力的有用方法。
本文由mdnice多平台发布