【AIGC】GPT私有数据整合原理

339 阅读1分钟

如何让自己的私有数据和GPT相结合

  1. Token限制:OpenAI API对每个模型都有token数量限制,这意味着不能传输大量的数据。可以通过Tokenizer来计算文本对应的token数量,或者对文本进行切割。

  2. Embeddings模型:OpenAI提供了一个用于计算文本关联性的模型,可以用于搜索,聚类,推荐等场景。通过调用接口,可以把文本转换成一个1536维的向量。

  3. 向量相似性与数据库:通过Embeddings模型获取到的向量,可以利用余弦相似性来计算两个向量之间的相关度。需要使用专门的向量数据库来存储和查询向量,比如Pinecone,Qdrant,pgvector等。

  4. 私有数据整合:通过上述的操作,可以把流程串起来。首先对原始文本内容进行切割,逐一对chunk调用Embeddings模型后获取对应的vector向量后,存储本地的向量数据库。根据用户问题调用Embeddings模型后获取该问题的vector,在本地向量数据库进行查询,可以获取相似度TopN的chunks。把TopN的chunks作为chat接口的context,再加上用户问题作为Prompt,通过GPT模型获取相应的结果。

可以在公众号一起交流:

公众号.jpg