微软推出LLMLingua：旨在加速LLM的推理过程近日，微软人工智能推出了LLMLingua：一种独特的快速压缩技术，

近日，微软人工智能推出了LLMLingua：一种独特的快速压缩技术，旨在加速大型语言模型（LLM）的推理过程。

在人工智能（AI）领域中，大型语言模型（LLM）以其强大的泛化和推理能力，为技术社群带来了显著的进步。这些模型展现出了卓越的能力，巩固了自然语言处理（NLP）、自然语言生成（NLG）、计算机视觉等领域的地位。然而，最新的发展，如上下文学习（ICL）和思维链条（CoT）提示技术，导致了更长提示语的使用，有时甚至超过数万个标记（tokens）。这对模型推理的成本效益和计算效率提出了挑战。

为了解决这些挑战，微软公司的研究团队提出了LLMLingua，这是一种独特的粗到细的快速压缩技术。LLMLingua的主要目的是减少处理冗长提示语所需的开销，并加快模型推理的速度。为此，LLMLingua采取了以下几个关键策略：

预算控制器：团队创建了一个动态预算控制器，用以管理原始提示语不同部分之间的压缩比率分配。这确保即使在高压缩比率下，也能保持提示语的语义完整性。
标记级迭代压缩算法：LLMLingua集成了一个标记级迭代压缩算法。这种技术通过捕捉压缩元素之间的相互依赖性，实现了更为精细的压缩，同时保留了提示语的关键信息。
基于指令调整的方法：为了解决语言模型分布不一致的问题，团队提出了一种基于指令调整的方法。将语言模型分布对齐，可以提高用于快速压缩的小语言模型与目标LLM之间的兼容性。

研究团队使用四个不同场景的数据集进行了分析和实验，以验证LLMLingua的有效性。这些数据集包括GSM8K和BBH用于推理，ShareGPT用于对话，以及Arxiv-March23用于摘要。实验结果表明，该方法在这些场景中都取得了最先进的性能。结果甚至显示，LLMLingua允许高达20倍的显著压缩，而对性能的牺牲极小。

实验中使用的小型语言模型是LLaMA-7B，而封闭的LLM是GPT-3.5-Turbo-0301。LLMLingua通过在最高20倍的压缩比下仍保留推理、总结和话语能力，超越了以往的压缩技术，显示出其韧性、经济性、效率和恢复能力。

LLMLingua在一系列封闭的LLM和小型语言模型中的有效性得到了观察。即使使用GPT-2-small，LLMLingua也展现出了良好的性能结果，几乎与更大的模型相匹配。它还在强大的LLM中证明了自己的成功，超越了预期的快速结果。

LLMLingua的一个值得注意的方面是恢复能力，当它被用来恢复压缩的提示语时，GPT-4有效地从完整的九步CoT提示中恢复了重要的推理信息，保持了原始提示语的意义和相似性。这一功能确保了恢复能力，并在转换后保留了关键信息，增加了LLMLingua的整体印象。

总之，LLMLingua为LLM应用中长提示语带来的困难提供了全面的解决方案。该方法展示了出色的性能，并提供了一种提高基于LLM应用的效率和负担能力的有用方法。

本文由mdnice多平台发布