LangChain 文档OA系统 -Beaten|豆包MarsCode AI刷题

69 阅读2分钟

知识梳理

首先梳理下用LangChain快速构建基于“易速鲜花”本地知识库的智能问答系统

image.png

整个框架分为三部分: 数据源大模型用例

核心实现机制: 数据处理管道(Pipeline)

image.png

每一步的具体流程:

1.loading documents

2.splitting documents -> "文档块""文档片"

RecursiveCharacterTextSplitter

3.以嵌入的形式(embedding)storage -> Vector DB

涉及大量非结构化数据,如图

image.png

向量数据库存储。什么是词嵌入?

将文本或词语转换成向量,其优点是提供了一种将文本数据转化为计算机可以理解和处理的形式,并且保留词语之间的语义关系。提及到:自然语言处理->文本分类、机器翻译、情感分析

4.retrieval

检索,相关信息的获取。把问题也转换为向量,去和数据库里的向量作比较。

欧式距离余弦相似度:方向反映语义,越接近1,向量方向越接近。

image.png

数量大小差异用欧式距离,文本语义差异用余弦相似度

创建一个检索式问答模型,这里需要创建RetrievalQA链。

5.output

404问题应对方法

补充说明之前小伙伴的404情况的解决方案

倘若你先前使用的就是火山方舟,那么我只能说你来对地方了。在这之前我们早就创建了一个在线推理点,显然是不够的,我们再创建一个。

1730896912592.png

图中第二个是我们先前创建的,模型为Doubao-pro-32k

我们选择Doubao-embedding,至于为什么,你跟着做就行了嘻嘻 1730896965428.png 接下来,我们进入home/cloudide/.cloudiderc 然后

export EMBEDDING_MODELEND=yours

1730897059528.png 问题来了这里的yours是什么呢?看图

1730897267577.png

做完以后记得在终端命令行执行source ~/.cloudiderc。 这样似乎就ok了,应该可以运行DocQA.py了吧,嘶昨天做的,怎么忘记了捏!

放在最后 有话说

该说不说这个小册真的不错,即使标价99我也觉得也很值啊(没花钱喔!

非常形象且简单通俗的让我一个对大模型感兴趣但是不懂得人有了一个清楚得概念,而且似乎越看越上瘾真的好评!因为这是汲取知识的感觉。

之前不懂是什么词嵌入,在这里居然提及了篇幅不多但是依然看得懂能理解,这是小册最吸引我的地方,同时也将多个模块知识串联起来,反正就是极大的满足了我对这部分知识的渴望,小册内容极其丰富与合理,总之相当适合我哈哈哈,好评好评!