易速鲜花

152 阅读2分钟

项目名称:易速鲜花内部员工知识库问答系统

项目背景
“易速鲜花”是一个大型在线鲜花销售平台,拥有丰富的员工手册和操作规范,涵盖业务流程、SOP(标准操作程序)等信息。然而,员工在实际工作中经常面临以下困境:

  • 内部文档分散,信息获取不便;
  • 文件过于冗长,难以快速定位所需信息;
  • 由于文档更新滞后,员工常常查询到的还是过时版本的政策或流程。

为了提升员工工作效率和提升知识共享,易速鲜花决定开发一套基于内部员工手册的智能问答系统—— “Doc-QA” 。该系统将基于最新的员工手册内容,帮助员工快速、精准地获取所需信息。

开发框架

本项目基于 LangChain 框架,采用先进的自然语言处理技术,利用大语言模型(LLM)构建问答系统。LangChain框架提供了强大的工具和流程,可以帮助我们轻松实现文档的加载、文本分割、嵌入、存储、检索和生成答案等功能。

整体框架包括以下三个主要部分:

  1. 数据源(Data Sources) :包括PDF、Word文档、txt文件等非结构化数据来源。
  2. 大模型应用(LLM Application) :利用大语言模型处理数据并生成回答。
  3. 用例(Use-Cases) :通过生成的回答,构建实际的问答系统或聊天机器人。

核心实现机制

整个系统的核心实现机制是基于数据处理管道(Pipeline),并分为五个关键步骤:

  1. Loading(数据加载) :使用LangChain的文档加载工具,将PDF、Word和txt文件加载为可处理的文档对象。
  2. Splitting(文本分割) :为了处理大型文档,使用文本分割器将文档切分为更小的文档块,以便后续处理。
  3. Storage(存储嵌入) :通过OpenAI的Embedding模型将文档块转换为向量,并存储到向量数据库中。
  4. Retrieval(信息检索) :根据用户输入的问题,将问题转换为向量并与存储的文档嵌入进行相似度匹配,检索最相关的文档块。
  5. Output(生成回答) :将检索到的相关文档块与用户的问题一同输入到大语言模型中,生成精准的答案。