LangChain实战课第三讲 | 豆包MarsCode AI刷题1.概述第三讲直接开始教我们搭建一个是关于一个名为“

1.概述

第三讲直接开始教我们搭建一个是关于一个名为“易速鲜花”的内部员工知识库问答系统的开发教程，通过使用LangChain框架和大语言模型（LLM）来实现。整个文档详细介绍了从项目准备到最终部署的完整流程，包括数据的准备和载入、文本的分割、向量数据库存储、相关信息的获取、生成回答并展示等关键步骤。

2.搭建步骤

LangChain框架的应用开发

LangChain是一个基于大语言模型的应用开发框架，它可以处理从员工手册中产生的各种问题，理解员工的问题，并基于最新的员工手册给出精准答案。LangChain通过整合不同的工具和模型，提供了一个完整的解决方案，用于构建和部署基于文档的问答系统。这大大简化了开发流程，使得非专业的开发者也能构建出功能强大的NLP应用。
文档的加载与分割

文档加载和分割是预处理的关键步骤，它们使得非结构化的文档数据可以被LangChain框架进一步处理。分割策略（如chunk_size和chunk_overlap）对模型的理解和回答的准确性有直接影响。使用LangChain的document_loaders加载不同格式的文档，并使用RecursiveCharacterTextSplitter将文档分割成小块，以便进行嵌入和存储。
词嵌入与向量数据库

词嵌入技术将文本转换为机器可理解的向量形式，而向量数据库则提供了高效的存储和检索这些向量的方法。这是实现语义搜索和文本相似度比较的基础。使用OpenAIEmbeddings生成文档的嵌入，并将这些嵌入存储在Qdrant这样的向量数据库中。
向量之间的比较

余弦相似度关注向量的方向而非大小，适合于文本数据的语义比较。这种方法可以帮助模型从大量文档中找到最相关的信息，从而提供准确的回答。使用余弦相似度作为度量标准，比较问题和答案向量在语义空间中的方向，找到与问题最匹配的答案。
问答系统的实现

RetrievalQA链是问答系统的核心，它结合了大模型的理解和生成能力以及检索机制的准确性。这种结合使得系统能够提供基于企业内部知识的精准回答。通过RetrievalQA链结合大模型（如OpenAI的GPT-3.5）和检索机制，生成问题的答案。

LangChain实战课第三讲 | 豆包MarsCode AI刷题

1.概述

2.搭建步骤

回顾了整个流程，从文档的加载、分割、存储到信息的检索和答案的生成，整个流程体现了LangChain+LLM的配置使得复杂的任务变得简单易懂。