1、Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
大型预训练语言模型已被证明可以将事实知识存储在其参数中,并在对下游NLP任务进行微调时获得最先进的结果。然而,它们访问和精确操作知识的能力仍然有限,因此在知识密集型任务中,它们的性能落后于特定任务的体系结构。此外,为他们的决定提供出处和更新他们的世界知识仍然是悬而未决的研究问题。具有对显式非参数记忆的可微访问机制的预训练模型可以克服这一问题,但迄今为止只针对提取下游任务进行了研究。我们探索了一种用于检索增强生成(RAG)的通用微调方法——该模型将预先训练的参数和非参数记忆相结合,用于语言生成。我们介绍了RAG模型,其中参数记忆是预训练的seq2seq模型,非参数记忆是维基百科的密集向量索引,由预训练的神经检索器访问。我们比较了两种RAG公式,一种是在整个生成序列中条件相同的检索段落,另一种是每个标记可以使用不同的段落。我们在广泛的知识密集型NLP任务上微调和评估我们的模型,并在三个开放域QA任务上设置了最先进的模型,优于参数seq2seq模型和特定任务的检索和提取架构。对于语言生成任务,我们发现RAG模型生成的语言比最先进的仅参数seq2seq基线更具体、更多样、更真实。
2、Lost in the Middle: How Language Models Use Long Contexts
尽管最近的语言模型能够将长上下文作为输入,但对它们在使用较长上下文方面的表现知之甚少。我们分析了语言模型在两个需要识别输入上下文中相关信息的任务上的表现:多文档问答和键值检索。我们发现,当改变相关信息的位置时,性能可能会显著下降,这表明当前的语言模型在使用长输入上下文中的信息时并不稳健。特别是,我们观察到,当相关信息出现在输入上下文的开头或结尾时,性能通常最高,而当模型必须访问长上下文中间的相关信息时,性能显著下降,即使对于明确设计用于长上下文的模型也是如此。我们的分析为如何理解语言模型使用其输入上下文提供了更好的理解,并为未来的长上下文语言模型提供了新的评估协议。
3、Precise Zero-Shot Dense Retrieval without Relevance Labels❤️🔥
虽然密集检索已被证明在各种任务和语言中是有效和高效的,但当没有相关标签可用时,仍然很难创建有效的完全零样本密集检索系统。在本文中,我们认识到零样本学习和编码相关性的困难。相反,我们建议通过假设文档嵌入(==HyDE==)进行调整。给定一个查询,HyDE首先零样本提示一个指令-下面的语言模型(例如,InstructionGPT)来生成一个假设文档。该文档捕获了相关模式,但是“伪造的”,可能包含幻觉。然后,无监督对比学习编码器(例如,Contriever)将文档编码为嵌入向量。该向量识别语料库嵌入空间中的邻域,基于向量相似度从该邻域检索相似的真实文档。第二步将生成的文档建立在实际语料库的基础上,编码器的密集瓶颈过滤掉幻觉。我们的实验表明,HyDE显著优于最先进的无监督密集检索器Contriever,并在各种任务(如网络搜索、QA、事实验证)和非英语语言(如sw、ko、ja、bn)中显示出与微调检索器相当的强大性能。
4、Towards Unsupervised Dense Information Retrieval with Contrastive Learning⭕️
信息检索是自然语言处理中的一个重要组成部分,用于回答问题和事实核查等知识密集型任务。最近,信息检索出现了基于神经网络的密集检索器,作为基于项频率的经典稀疏方法的替代方案。这些模型在有大型训练集的数据集和任务上获得了最先进的结果。然而,在没有训练数据的情况下,它们不能很好地转移到新的领域或应用程序,并且经常被没有监督的项频率方法(如BM25)所超越。因此,一个自然的问题是,是否有可能在没有监督的情况下训练密集的寻回犬。在这项工作中,我们探索了对比学习作为一种训练无监督密集检索器的方法的局限性,并表明它能带来强大的检索性能。更准确地说,我们在BEIR基准上表明,我们的模型在15个数据集中的11个数据集上优于BM25。此外,当有数千个例子可用时,我们表明,与BM25相比,在这些例子上微调我们的模型会带来很大的改进。最后,当在MS-MARCO数据集上用作微调前的预训练时,我们的技术在BEIR基准上获得了最先进的结果。
5、Active Retrieval Augmented Generation
尽管大型语言模型具有非凡的理解和生成语言的能力,但它们有产生幻觉和产生事实上不准确的输出的倾向。通过从外部知识资源中检索信息来增强LMs是一个很有前途的解决方案。大多数现有的检索增强型LMs采用仅基于输入检索信息一次的检索和生成设置。然而,在涉及长文本生成的更一般的场景中,这是有限的,在整个生成过程中不断收集信息是至关重要的。在这项工作中,我们提供了主动检索增强生成的一般观点,即在生成过程中主动决定何时检索以及检索什么的方法。==我们提出了前瞻性主动三重生成(FLARE),这是一种通用方法,它迭代地使用对即将到来的句子的预测来预测未来的内容,然后将其用作检索相关文档的查询,以便在句子包含低置信度标记的情况下重新生成该句子。==我们在4个长格式知识密集型生成任务/数据集上全面测试FLARE和基线。FLARE在所有任务中都实现了卓越或有竞争力的性能,证明了我们的方法的有效性。代码和数据集可在github.com/jzbjyb/FLAR….
6、Dense Passage Retrieval for Open-Domain Question Answering❤️🔥
开放域问答依赖于有效的文章检索来选择候选上下文,其中传统的稀疏向量空间模型(如TF-IDF或BM25)是事实上的方法。在这项工作中,我们表明,检索实际上可以单独使用稠密表示来实现,其中嵌入通过简单的双编码器框架从少量问题和段落中学习。在广泛的开放域QA数据集上进行评估时,我们的密集检索器在前20个通道检索精度方面比强大的Lucene-BM25系统的绝对性能强9%-19%,并帮助我们的端到端QA系统在多个开放域QA-基准测试上建立新的最先进技术。
7、REALM: Retrieval-Augmented Language Model Pre-Training❤️🔥
语言模型预训练已被证明能够捕获惊人数量的世界知识,这对于NLP任务(如问答)至关重要。然而,该知识隐式存储在神经网络的参数中,需要更大的网络来覆盖更多的事实。为了以更模块化和可解释的方式捕获知识,我们使用潜在知识检索器来增强语言模型预训练,该检索器允许模型从大型语料库(如维基百科)中检索和处理文档,这些语料库在预训练、微调和推理过程中使用。我们首次展示了如何以无监督的方式预训练这样的知识检索器,使用屏蔽语言建模作为学习信号,并通过考虑数百万文档的检索步骤进行反向传播。通过对开放域问答(Open QA)这一具有挑战性的任务进行微调,我们证明了检索增强语言模型预训练(REALM)的有效性。我们在三个流行的开放QA基准测试上与最先进的显式和隐式知识存储模型进行了比较,发现我们比所有以前的方法都有很大的优势(4-16%的绝对准确性),同时还提供了定性优势,如可解释性和模块性。
8、Billion-Scale Similarity Search with GPUs
相似性搜索在处理复杂数据(如图像或视频)的专用数据库系统中找到应用,这些复杂数据通常由高维特征表示,并需要特定的索引结构。本文解决了更好地利用GPU完成这项任务的问题。虽然GPU擅长于数据并行任务,但先前的方法受到并行性较差的算法(如k-min选择)或内存层次利用率低下的限制。我们提出了一种k选择的设计,该设计以高达55%的理论峰值性能运行,实现了比现有GPU技术快8.5倍的最近邻实现。我们通过提出基于乘积量化的蛮力、近似和压缩域搜索的优化设计,将其应用于不同的相似性搜索场景。在所有这些设置中,我们的表现远远超过了最先进的水平。我们的实现能够在35分钟内从Yfcc100M数据集的9500万个图像上构建高精度k-NN图,并在4个Maxwell Titan X GPU上在不到12小时的时间内连接10亿个向量。为了比较和再现,我们开源了我们的方法。
9、LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models
大型语言模型(LLM)因其惊人的能力而被应用于各种应用中。随着思想链(CoT)提示和上下文学习(ICL)等技术的进步,提供给LLM的提示变得越来越长,甚至超过数万个令牌。为了加速模型推理并降低成本,本文提出了LLMLingua,这是一种粗略到精细的即时压缩方法,涉及预算控制器以在高压缩比下保持语义完整性,以及令牌级迭代压缩算法,以更好地建模压缩内容之间的相互依赖性,以及用于语言模型之间的分布对齐的基于指令调整的方法。我们对来自不同场景的四个数据集进行了实验和分析,即GSM8K、BBH、ShareGPT和Arxiv-March23;表明所提出的方法产生了最先进的性能,并允许高达20倍的压缩,而性能损失很小。我们的代码位于aka.ms/LLMLingua.
10、LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models
我们提出了LongLoRA,这是一种有效的微调方法,它以有限的计算成本扩展了预训练大型语言模型(LLM)的上下文大小。通常,训练具有长上下文大小的LLM在计算上很昂贵,需要大量的训练时间和GPU资源。例如,与2048相比,关于8192的上下文长度的训练在自我注意层中需要16倍的计算成本。本文从两个方面加速了LLM的上下文扩展。一方面,虽然在推理过程中需要密集的全局关注,但通过稀疏的局部关注可以有效地对模型进行微调。所提出的移位稀疏注意(S-Attn)有效地实现了上下文扩展,从而节省了大量计算,与普通注意的微调性能类似。特别是,它在训练中只能用两行代码来实现,而在推理中是可选的。另一方面,我们重新审视了用于上下文扩展的参数有效微调机制。值得注意的是,我们发现用于上下文扩展的LoRA在可训练嵌入和规范化的前提下工作良好。LongLoRA将这种改进的LoRA与S-收件人相结合。LongLoRA在7B/13B到70B的Llama2模型上的各种任务上展示了强大的实证结果。LongLoRA在单个8x A100机器上采用Llama2 7B,从4k上下文到100k,或Llama270B到32k。LongLoRA扩展了模型的上下文,同时保留了它们的原始架构,并与大多数现有技术兼容,如Flash-Atention2。此外,我们还使用LongLoRA和遵循LongAlpaca数据集的长指令进行监督微调。
11、QLoRA: Efficient Finetuning of Quantized LLMs
我们提出了QLoRA,这是一种有效的微调方法,它可以减少足够的内存使用量,以便==在单个48GB GPU上微调65B参数模型==,同时保持完整的16位微调任务性能。QLoRA通过冻结的4位量化预处理语言模型将梯度反向传播到低秩适配器~(LoRA)中。我们最好的模型系列(我们命名为Guanaco)在Vicuna基准测试上优于所有以前公开发布的模型,达到ChatGPT性能水平的99.3%,而在单个GPU上只需要24小时的微调。QLoRA引入了许多创新,以在不牺牲性能的情况下节省内存:(a)4位NormalFloat(NF4),这是一种新的数据类型,在理论上是正态分布权重的最佳信息(b)双重量化,通过量化量化常数来减少平均内存占用,以及(c)分页优化程序,以管理内存峰值。我们使用QLoRA微调1000多个模型,在8个指令数据集、多个模型类型(LLaMA、T5)和不可能使用常规微调运行的模型规模(例如33B和65B参数模型)中提供指令跟踪和聊天机器人性能的详细分析。我们的结果表明,即使使用比以前的SoTA更小的模型,在小型高质量数据集上进行QLoRA微调也会导致最先进的结果。我们基于人类评估和GPT-4评估对聊天机器人性能进行了详细分析,表明GPT-4评价是人类评估的廉价合理的替代方案。此外,我们发现当前的聊天机器人基准测试对于准确评估聊天机器人的性能水平是不可信的。一项柠檬精选分析表明,与ChatGPT相比,Guanaco的失败之处。我们发布了所有的模型和代码,包括用于4位训练的CUDA内核。
12、Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection
尽管大型语言模型(LLM)具有显著的功能,但由于它们仅依赖于它们封装的参数化知识,因此通常会产生包含事实不准确的响应。检索增强生成(RAG)是一种通过检索相关知识来增强LM的特别方法,减少了此类问题。然而,不加区别地检索和合并固定数量的检索段落,无论检索是否必要,还是段落是否相关,都会削弱LM的通用性,或者可能导致无用的响应生成。我们引入了一种新的框架,称为自反射检索增强生成(Self-RAG),该框架通过检索和自反射来增强LM的质量和真实性。我们的框架训练单个任意LM,该LM根据需要自适应地检索通道,并使用称为反射令牌的特殊令牌生成和反射检索的通道及其自己的代。生成反射令牌使LM在推理阶段可控,使其能够根据不同的任务需求调整其行为。实验表明,在不同的任务集上,Self-RAG(7B和13B参数)显著优于最先进的LLM和检索增强模型。具体来说,Self-RAG在开放域QA、推理和事实验证任务上优于ChatGPT和检索增强Llama2聊天,并且相对于这些模型,它在提高长形式生成的真实性和引用准确性方面显示出显著的收益。
13、UDAPDR: Unsupervised Domain Adaptation via LLM Prompting and Distillation of Rerankers
许多信息检索任务需要大型标记数据集进行微调。然而,这样的数据集往往不可用,而且由于领域的变化,它们对现实世界应用程序的效用可能会迅速减少。为了应对这一挑战,我们开发并激励了一种使用大型语言模型(LLM)以低成本生成大量合成查询的方法。该方法首先使用昂贵的LLM生成少量合成查询。之后,使用一个成本低得多的查询来创建大量的合成查询,这些查询用于微调一系列的重新排序模型。然后,这些重新排序器被提炼成一个有效的检索器,用于目标域。我们表明,这项技术提高了长尾域零样本的准确性,并实现了比标准重新排序方法低得多的延迟。
14、Retrieval-Augmented Generation for Large Language Models: A Survey
大型语言模型(LLM)展示了强大的能力,但面临着幻觉、过时的知识和不透明、无法追踪的推理过程等挑战。通过将来自外部数据库的实时数据纳入LLM响应,增强生成(RAG)已成为解决这些问题的一种很有前途的解决方案。这增强了模型的准确性和可信度,特别是对于知识密集型任务,并允许持续更新知识和集成特定领域的信息。RAG将LLM的内在知识与外部数据库的庞大动态存储库协同融合。这篇调查论文对RAG的演变进行了深入分析,重点关注三个关键范式:Naive RAG、Advanced RAG和Modular RAG。它有条不紊地检查了RAG系统的三个基本组件:检索器、生成器和增强方法,强调了每个组件中的尖端技术。此外,本文还介绍了评估RAG模型的新指标和能力,以及最新的评估框架。最后,本文从三个角度概述了未来的研究方向:未来的挑战、模态扩展以及RAG技术堆栈和生态系统的发展
15、Text Segmentation by Cross Segment Attention
文档和语篇分割是两个基本的NLP任务,涉及将文本分解为成分,通常用于帮助下游任务,如信息检索或文本摘要。在这项工作中,我们提出了三种基于转换器的架构,并在三个标准数据集上与之前提出的方法进行了全面比较。我们建立了一种新的最先进技术,特别是在所有情况下都大大降低了错误率。我们进一步分析了模型大小,发现我们可以用更少的参数构建模型,同时保持良好的性能,从而促进现实世界中的应用。
16、Sequence Model with Self-Adaptive Sliding Window for Efficient Spoken Document Segmentation
由自动语音识别(ASR)系统为口语文档生成的转录本缺乏段落等结构注释,这大大降低了它们的可读性。自动预测口语文档的段落分割可以提高可读性和下游NLP性能,如摘要和机器阅读理解。==为了实现准确高效的段落分割,我们提出了一种具有自适应滑动窗口的序列模型。==我们还提出了一种利用视觉信息的方法,该方法显著提高了口语文档分割对ASR错误的鲁棒性。评估是在英语Wiki-727K文档分割基准、我们创建的基于维基百科的中文文档分割数据集和内部中文口语文档数据集上进行的。我们提出的模型优于基于相同BERT基础的最先进的(SOTA)模型,在英语基准上和在中文数据集上分别提高了4.2点和4.3-10.1点的分割F1,同时将推理时间减少到当前SOTA推理时间的1/6以下。
17、Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing
本文调查并组织了自然语言处理中一种新范式的研究工作,我们称之为“基于提示的学习”。与传统的监督学习不同,传统的监督教学训练模型接受输入x并将输出y预测为P(y|x),基于提示的学习基于直接对文本概率建模的语言模型。为了使用这些模型来执行预测任务,使用模板将原始输入x修改为具有一些未填充槽的文本字符串提示x′,然后使用语言模型来概率地填充未填充的信息,以获得最终字符串x′,从中可以导出最终输出y。该框架功能强大且具有吸引力,原因有很多:它允许对大量原始文本进行语言模型的预训练,通过定义新的提示函数,该模型能够执行很少的搜索甚至零样本学习,适应很少或没有标记数据的新场景。在这篇文章中,我们介绍了这一有前景的范式的基本原理,描述了一组统一的数学符号,可以涵盖各种现有工作,并沿着几个维度组织现有工作,例如,选择预先训练的语言模型、提示和调整策略。为了让感兴趣的初学者更容易进入该领域,我们不仅对现有作品进行了系统的审查,并对基于提示的概念进行了高度结构化的类型学,还发布了其他资源,例如NLPedia–Pretrain网站,包括不断更新的调查和论文列表。
18、Chain of Thought Prompting Elicits Reasoning in Large Language Models
我们探讨了生成思想链(一系列中间推理步骤)如何显著提高大型语言模型执行复杂推理的能力。特别是,我们展示了这种推理能力是如何通过一种称为思维链提示的简单方法在足够大的语言模型中自然出现的,其中提供了一些思维链演示作为提示的示例。在三个大型语言模型上的实验表明,思维链提示提高了一系列算术、常识和符号推理任务的性能。经验上的收益可能是惊人的。例如,提示一个只有八个思维链示例的540B参数语言模型,在GSM8K数学单词问题基准上实现了最先进的准确性,甚至超过了带有验证器的微调GPT-3。
19、The Probabilistic Relevance Framework: BM25 and Beyond
概率相关框架(PRF)是一个正式的文档检索框架,建立在1970年代至1980年代的工作基础上,这导致了最成功的文本检索算法之一BM25的发展。近年来,PRF的研究产生了能够考虑文档元数据(尤其是结构和链接图信息)的新检索模型。同样,这导致了最成功的网络搜索和公司搜索算法之一,BM25F。这项工作从概念的角度介绍了PRF,描述了框架背后的概率建模假设及其应用所产生的不同排序算法:二进制独立模型、相关性反馈模型、BM25和BM25F。它还讨论了PRF和其他IR统计模型之间的关系,并涵盖了一些相关主题,如非文本特征的使用,以及具有自由参数的模型的参数优化。
20、Natural Questions: A Benchmark for Question Answering Research
我们提出了自然问题语料库,一个问答数据集。问题包括发布给谷歌搜索引擎的真实匿名聚合查询。注释者会从前5个搜索结果中获得一个问题和一个维基百科页面,如果页面上有长答案(通常是一段)和短答案(一个或多个实体),则会注释,如果没有长/短答案,则会标记为空。公开发布包含307373个带有单个注释的训练示例;7830个示例,具有用于开发数据的5向注释;以及另外7842个具有作为测试数据隔离的5向注释的实例。我们通过实验验证了数据的质量。我们还描述了对302个例子的25种方式注释的分析,深入了解了注释任务中的人类可变性。我们引入了稳健的指标来评估问答系统;证明在这些指标上有很高的人为上限;并使用相关文献中的竞争性方法建立基线结果。
21、Language Models as Knowledge Bases?
最近在大型文本语料库上预训练语言模型的进展导致下游NLP任务的改进激增。在学习语言知识的同时,这些模型还可以存储训练数据中存在的关系知识,并且可以回答构造为“填空”完形填空语句的查询。与结构化知识库相比,语言模型有很多优点:它们不需要模式工程,允许从业者查询开放的关系类,易于扩展到更多的数据,并且不需要人工监督来进行培训。我们对各种最先进的预训练语言模型中已经存在的关系知识进行了深入分析(无需微调)。我们发现,(i)在没有微调的情况下,BERT包含的关系知识与传统的NLP方法相比是有竞争力的,后者可以访问一些预言知识,(ii)BERT在对照监督基线的开放领域问答方面也做得非常好,以及(iii)通过标准语言模型预训练方法,某些类型的事实知识比其他类型的知识更容易学习。这些模型在不进行任何微调的情况下回忆事实知识的惊人强大的能力证明了它们作为无监督的开放领域QA系统的潜力。重现我们分析的代码可在github.com/facebookres….
22、SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems
在过去的一年里,用于预训练和迁移学习的新模型和方法推动了一系列语言理解任务的显著性能提高。一年多前推出的GLUE基准提供了一个单一的数字指标,总结了一系列不同任务的进展,但该基准的表现最近已经超过了非专业人员的水平,这表明进一步研究的空间有限。在本文中,我们介绍了SuperGLUE,这是一个以GLUE为原型的新基准,它有一组新的更难理解的语言任务、一个软件工具包和一个公共排行榜。SuperGLUE可在此http URL中找到。