引言
在现代数据驱动的世界中,快速访问和处理数据变得至关重要。SAP HANA Cloud Vector Engine 提供了一种高效的方式来存储和查询矢量数据,尤其是在结合大语言模型(LLM)时。本篇文章将带您了解如何在SAP HANA中设置矢量存储,并通过自查询提高查询效率。
主要内容
SAP HANA 矢量存储的设置
为了高效存储矢量数据,我们首先需要在SAP HANA中创建自定义表。以下是如何使用hdbcli库连接到SAP HANA数据库:
import os
from hdbcli import dbapi
# 使用API代理服务提高访问稳定性
connection = dbapi.connect(
address=os.environ.get("HANA_DB_ADDRESS"),
port=os.environ.get("HANA_DB_PORT"),
user=os.environ.get("HANA_DB_USER"),
password=os.environ.get("HANA_DB_PASSWORD"),
autocommit=True,
sslValidateCertificate=False,
)
创建自定义表
接下来,我们创建一张包含矢量和元数据的表:
# 创建自定义表
cur = connection.cursor()
cur.execute("DROP TABLE LANGCHAIN_DEMO_SELF_QUERY", ignoreErrors=True)
cur.execute(
(
"""CREATE TABLE "LANGCHAIN_DEMO_SELF_QUERY" (
"name" NVARCHAR(100), "is_active" BOOLEAN, "id" INTEGER, "height" DOUBLE,
"VEC_TEXT" NCLOB,
"VEC_META" NCLOB,
"VEC_VECTOR" REAL_VECTOR
)"""
)
)
添加文档
使用LangChain库,我们可以将文档添加到数据库中:
from langchain_community.vectorstores.hanavector import HanaDB
from langchain_core.documents import Document
from langchain_openai import OpenAIEmbeddings
embeddings = OpenAIEmbeddings()
# 准备测试文档
docs = [
Document(
page_content="First",
metadata={"name": "adam", "is_active": True, "id": 1, "height": 10.0},
),
Document(
page_content="Second",
metadata={"name": "bob", "is_active": False, "id": 2, "height": 5.7},
),
Document(
page_content="Third",
metadata={"name": "jane", "is_active": True, "id": 3, "height": 2.4},
),
]
db = HanaDB(
connection=connection,
embedding=embeddings,
table_name="LANGCHAIN_DEMO_SELF_QUERY",
specific_metadata_columns=["name", "is_active", "id", "height"],
)
# 删除已有文档
db.delete(filter={})
db.add_documents(docs)
代码示例
自查询检索器
构造自查询检索器,使用大语言模型和自定义查询翻译器:
from langchain.chains.query_constructor.base import AttributeInfo
from langchain.retrievers.self_query.base import SelfQueryRetriever
from langchain_community.query_constructors.hanavector import HanaTranslator
from langchain_openai import ChatOpenAI
llm = ChatOpenAI(model="gpt-3.5-turbo")
metadata_field_info = [
AttributeInfo(name="name", description="The name of the person", type="string"),
AttributeInfo(name="is_active", description="Whether the person is active", type="boolean"),
AttributeInfo(name="id", description="The ID of the person", type="integer"),
AttributeInfo(name="height", description="The height of the person", type="float"),
]
document_content_description = "A collection of persons"
hana_translator = HanaTranslator()
retriever = SelfQueryRetriever.from_llm(
llm,
db,
document_content_description,
metadata_field_info,
structured_query_translator=hana_translator,
)
# 执行查询
query_prompt = "Which person is not active?"
docs = retriever.invoke(input=query_prompt)
for doc in docs:
print("-" * 80)
print(doc.page_content, " ", doc.metadata)
查询构造
展示如何构造查询并翻译为HANA可用的格式:
from langchain.chains.query_constructor.base import (
StructuredQueryOutputParser,
get_query_constructor_prompt,
)
prompt = get_query_constructor_prompt(document_content_description, metadata_field_info)
output_parser = StructuredQueryOutputParser.from_components()
query_constructor = prompt | llm | output_parser
sq = query_constructor.invoke(input=query_prompt)
print("Structured query: ", sq)
print("Translated for hana vector store: ", hana_translator.visit_structured_query(sq))
常见问题和解决方案
-
连接问题:确保使用正确的API代理服务来提高访问稳定性。
-
查询性能:优化数据库表结构,确保元数据字段正确索引。
-
数据一致性:定期检查并维护数据库中的数据完整性。
总结和进一步学习资源
通过SAP HANA和LangChain的结合,开发者可以构建高效且具备优秀自查询能力的数据解决方案。建议阅读以下资源以获取更多信息:
参考资料
- SAP HANA Developer Guide
- LangChain Documentation
如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!
---END---