构建“易速鲜花”内部员工知识库问答系统 | 豆包MarsCode AI 刷题学习笔记：构建“易速鲜花”内部员工知识库问答

学习笔记：构建“易速鲜花”内部员工知识库问答系统

引言

随着企业规模的扩大，“易速鲜花”作为一个大型在线鲜花销售平台，面临着如何有效管理内部知识和提升员工工作效率的问题。传统的文档管理方式存在诸多不足，如信息分散、文档过长难以快速定位、版本更新不及时等。为了应对这些问题，我们决定采用现代的技术手段——构建一个基于大模型和LangChain框架的内部员工知识库问答系统。本文将详细介绍该系统的构建过程，包括数据准备、文本处理、模型应用、系统部署等关键步骤，并结合个人的学习体会和思考。

数据准备与文本处理

构建知识库的第一步是数据的准备。对于“易速鲜花”而言，内部资料涵盖了PDF、Word和TXT等多种格式的文件。这些文件包含了公司的规章制度、业务流程、员工手册等重要信息。为了使这些非结构化数据能够在系统中被有效利用，我们首先需要将它们加载到系统中。这一过程中，我们使用了LangChain提供的document_loaders模块，通过PyPDFLoader、Docx2txtLoader和TextLoader等加载器来读取不同格式的文档。

from langchain.document_loaders import PyPDFLoader, Docx2txtLoader, TextLoader

base_dir = '.\OneFlower'
documents = []
for file in os.listdir(base_dir):
    file_path = os.path.join(base_dir, file)
    if file.endswith('.pdf'):
        loader = PyPDFLoader(file_path)
    elif file.endswith('.docx'):
        loader = Docx2txtLoader(file_path)
    elif file.endswith('.txt'):
        loader = TextLoader(file_path)
    documents.extend(loader.load())

加载完成后，文档需要进一步处理才能适应后续的模型训练和应用需求。在这个阶段，我们采用了LangChain的RecursiveCharacterTextSplitter工具对文档进行了切割，目的是将长篇幅的文本分解成更小的段落，以便于后续的嵌入和存储。

from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(chunk_size=200, chunk_overlap=10)
chunked_documents = text_splitter.split_documents(documents)

嵌入与向量存储

文本切割后，下一步是将这些文本片段转换为数值形式，以便机器学习模型能够理解和处理。这一步骤被称为“嵌入”，是自然语言处理中的一项关键技术。我们使用了OpenAI提供的嵌入模型来完成这一任务，并选择了Qdrant作为向量数据库来存储嵌入后的数据。

from langchain.vectorstores import Qdrant
from langchain.embeddings import OpenAIEmbeddings

vectorstore = Qdrant.from_documents(
    documents=chunked_documents,
    embedding=OpenAIEmbeddings(),
    location=":memory:",
    collection_name="my_documents",
)

模型应用与系统部署

有了准备好的数据和高效的存储解决方案，我们就可以构建问答系统的主体——检索式问答模型（RetrievalQA）。在这个模型中，大模型负责根据输入的问题生成答案，而检索器则负责从向量数据库中找到与问题相关的文档片段。这两部分共同作用，确保了系统能够基于最新的内部知识，准确地回答员工的问题。

from langchain.chat_models import ChatOpenAI
from langchain.retrievers.multi_query import MultiQueryRetriever
from langchain.chains import RetrievalQA

llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0)
retriever_from_llm = MultiQueryRetriever.from_llm(retriever=vectorstore.as_retriever(), llm=llm)
qa_chain = RetrievalQA.from_chain_type(llm, retriever=retriever_from_llm)

最后，为了让系统能够与用户进行交互，我们使用了Flask框架搭建了一个简单的Web界面。用户可以通过这个界面输入问题，系统则会调用先前构建的问答链来生成答案，并将结果显示在界面上。

from flask import Flask, request, render_template

app = Flask(__name__)

@app.route('/', methods=['GET', 'POST'])
def home():
    if request.method == 'POST':
        question = request.form.get('question')
        result = qa_chain({"query": question})
        return render_template('index.html', result=result)
    return render_template('index.html')

if __name__ == "__main__":
    app.run(host='0.0.0.0', debug=True, port=5000)

总结与反思

通过本次实践，我对构建企业内部知识管理系统有了更加深刻的理解。数据的质量和预处理至关重要，它直接影响到后续模型的效果。选择合适的嵌入模型和向量数据库是优化系统性能的关键。此外，将大模型与实际应用场景相结合，不仅需要技术上的创新，还需要对业务流程有深入的了解，这样才能真正发挥出技术的价值。

在未来的探索中，我认为可以从以下几个方面入手改进现有系统：

增强系统的可扩展性和灵活性：随着企业的发展，内部知识会不断积累和更新。因此，构建一个易于维护和扩展的系统架构是非常重要的。
提高系统的智能化水平：虽然现有的问答系统已经能够提供较为准确的答案，但在某些特定场景下，仍然存在误判的情况。未来可以通过引入更多的训练数据和优化算法来提高系统的智能化程度。
优化用户体验：良好的用户体验是吸引用户持续使用系统的重要因素。除了提供准确的信息外，还可以通过增加多语言支持、语音输入等功能来丰富用户的交互体验。