书生大模型实战营第四期基础岛-LlamaIndex RAG实践
前置
检索增强生成(Retrieval Augmented Generation, RAG)
首先需要明确的是,给模型注入新知识的方式,可以简单分为两种方式,一种是内部的,即更新模型的权重,另外一个则是通过外部的方式,给模型注入格外的上下文或者说外部信息,不改变模型本身的权重。
第一种方式,改变了模型的权重进行模型训练,这是一件代价很大的事情。第二种方式,并不改变权重,只是给模型引入格外的信息。类比人类编程的过程,第一种方式相当于你记住了某个函数的用法,第二种方式相当于你阅读函数文档然后短暂的记住了某个函数的用法。
显然,第二种方式更加容易实现。RAG正是这种方法,它能够让基础模型实现非参数知识更新,无需训练就可以掌握新领域的知识。
LlamaIndex是一个上下文增强的LLM框架,旨在通过将其与特定上下文数据集集成,增强大型语言模型的能力。它允许你构建应用程序的时候,既利用LLMs的优势,又融入到您的私有或领域特定信息。
闯关任务
任务
基于LlamaIndex构建自己的RAG知识库,寻找一个问题A在使用LlamaIndex之前 浦语API不会回答,借助LlamaIndex后浦语API具备回答A的能力,截图保存。
没借助LlamaIndex之前:
使用LlamaIndex后:
LlamaIndex web: