框架原生的数据处理流 Data Connection

2024-05-14 62 阅读1分钟

一个复杂的应用是通过多个chain 串联选择判断运行的使用统一的数据处理更规范

Data Connection 数据流介绍

Source 数据来源
- 文字代码
- 载体
  - github
  - youtube
  - 各种blog网站
  - doc文档
Load 文档数据加载能力
- Document loader
- 视频代码的量很大无法将所有的数据换换成一个embedding向量
Transform
- 数据格式化、处理切割成我们要的形式
- 例如将文章内容转换成一段段
- Document Transforms
Embed
- Text
- 注意数据的颗粒度
Store 存储向量
Retrieve 检索

Document Loaders: 快速接入各类数据源

数据格式

CSV
HTML
JSON
Markdown
PDF
File Directory
•...

代码剖析

BaseLoader and Document Class

BaseLoader基类

load返回一个doc的列表
load_and_split 将文档加载后切割

DOcument基类

跟前面# OpenAI-Translator BOOK类有点类似

Document Transformers: 原生数据转换模块

Text Embedding Models: 文本嵌入模型

支持的embeding模型

Vector Stores: 向量数据库

详见 juejin.cn/post/736020…

向量数据库的列表

注意问题

同一个单词使用不同的embeding model 进行处理可能出现不一样的向量

所以存储和读取需要使用同一个embeding model

embeding model 其实就是一个桥梁自然语言转换成向量大模型可以识别

整体流程

最佳实践的方法

mysql可以通过一些计算公式抽取数据因为这是标量数据

检索模式

余弦相似度
欧氏距离

根据问题找到相关的数据

Retrieves: 数据检索器

数据检索器的列表