Jina embeddings v3 现已在 Gemini Enterprise Agent Platform Model Garden 上可用

0 阅读8分钟

作者:来自 Elastic Sa Zhang

Jina 搜索基础模型 jina-embeddings-v3 现在可以在 Gemini Enterprise Agent Platform Model Garden 上自行部署,后续还会有更多。你可以在你自己的 VPC 内使用单个 L4 GPU 运行 jina-embeddings-v3。

亲自上手 Elasticsearch:深入体验我们在 Elasticsearch Labs 仓库中的示例 notebooks,开始免费的云试用,或者现在就在你的本地机器上试用 Elastic。


今天我们发布了 jina-embeddings-v3,这是第一个在 Gemini Enterprise Agent Platform Model Garden 上作为可自行部署合作伙伴模型提供的 Jina 搜索基础模型。自行部署意味着该模型运行在你自己的 Google Cloud 项目和虚拟私有云( VPC )内的 GPU 实例上。没有外部 API 调用,没有按 token 计费,也没有速率限制。

通过这项集成,Elasticsearch 用户获得了一种新的部署选项,可以将数据保留在其安全边界内,提供可预测的基础设施成本,并在 Google Cloud 上原生运行。同时,更广泛的 Google Cloud 生态系统也获得了访问 Jina 专门构建的、最先进的搜索和检索模型的能力。

这是更广泛发布的第一阶段。结合接下来推出的模型,这一系列将形成一个完整的检索栈:对你的数据进行嵌入,对查询进行嵌入,检索并重排候选结果,并通过多模态嵌入将搜索扩展到图像,所有这些都运行在你可控的基础设施上。你可以从今天开始使用 jina-embeddings-v3,该模型已经通过 Elastic Inference Service( EIS )为 Elasticsearch 生态系统中的生产搜索流水线提供支持。

模型类型参数量核心能力Model Garden 上的状态
jina-embeddings-v3文本嵌入572M经过验证的多语言主力模型,8K 上下文,1024 维输出,可截断至 32现已可用
jina-embeddings-v5-text-small文本嵌入677M最先进的 sub-1B 多语言模型,32K 上下文,1024 维输出,可截断至 32即将推出
jina-embeddings-v5-text-nano文本嵌入239M500M 参数以下同类最佳,8K 上下文,768 维输出,可截断至 32即将推出
jina-reranker-v3重排序模型600M列表式重排序,131K 上下文,最多 64 个文档即将推出
jina-clip-v2多模态嵌入900M文本 + 图像共享空间,支持 89 种语言,8K 文本上下文,512×512 图像即将推出

每个模型都运行在单个 NVIDIA L4(24 GB)上,这是 Google Cloud 上最具成本效益的 GPU 层级。Google Cloud Model Garden 上的大多数其他嵌入模型需要使用 A100 80 GB 或 H100,在你开始计算 token 之前,其每小时实例成本大约是其三倍。

通过 Vertex AI 部署时不需要额外的商业许可。

为什么选择 Model Garden?

为什么通过 Model Garden 部署,而不是直接调用 API?答案归结为三点:控制、成本和上下文。

你的数据永远不会离开本地环境

对大多数开发者来说,最大的吸引力是自部署架构。当你通过 Model Garden 部署 Jina 模型时,模型权重运行在你自己的 Google Cloud 项目和你自己的 VPC 内的 GPU 实例上。这对于在金融或医疗等对数据安全有要求的行业工作的人来说是一个改变游戏规则的特性。因为没有外部 API 调用,你的敏感数据始终保留在你的安全边界内。

通过预测实现扩展

你不再是每次嵌入一个句子或重排一个文档时付费,而是支付固定的每小时实例成本。而且由于每个 Jina 模型都可以运行在单个 NVIDIA L4 上(这是 Google Cloud 上最实惠的 GPU 层级),进入门槛很低。无论你处理一千次请求还是十亿次请求,你的基础设施成本都保持可预测。这种模式实际上会随着你的流量增长而奖励你,而不是对你进行额外收费。

一切尽在同一平台

如果你的数据已经存储在 Google Cloud 上的 Elasticsearch、BigQuery 或 Cloud Storage 中,那么将推理引擎部署在附近是很合理的选择。通过 Model Garden 部署,Jina 搜索基础模型可以继承你已经在使用的所有企业级功能:用于访问控制的 IAM(身份与访问管理)、统一计费(直接计入你现有的 Google Cloud 账单),以及能够接入 Vertex AI Pipelines 以支持机器学习运维( MLOps )工作流的能力。

虽然 Jina AI Cloud API 和 Elastic Cloud 为突发流量或现有搜索工作流提供了最快的路径,但 Model Garden 更适用于需要严格数据安全性和大规模可预测成本的企业级应用。Elastic 希望在你所在的环境中为你提供支持。

Jina AI 模型

jina-embeddings-v3

我们经过验证的多语言嵌入模型,具有 572M 参数和 8K token 上下文。在 Massive Text Embedding Benchmark( MTEB )英语上得分 65.5。支持五种任务特定的 Low-Rank Adaptation( LoRA )适配器(检索 query / passage、文本匹配、分类、聚类)以及从 1024 到 64 维的 Matryoshka 截断。已经通过 EIS 在 Elasticsearch 生态系统中被广泛采用。

我们优先推出 v3,是因为许多生产系统已经依赖它。如果你正在将基于 v3 的流水线迁移到 Google Cloud,现在你可以在不更改嵌入维度或重新建立索引的情况下原生运行相同的模型。

jina-embeddings-v5-text( small 和 nano )

我们第五代文本嵌入模型,于 2026 年 2 月发布,实现了顶级性能,可与体量大得多的模型竞争。

v5-text-small( 677M )在 Multilingual MTEB( MMTEB )基准套件上得分 67.0(涵盖 9 种任务类型的 131 个任务),并在 MTEB 英语基准上得分 71.7。它是 MTEB Leaderboard 上最强的 sub-1B 多语言嵌入模型。

v5-text-nano( 239M )在 MMTEB 上得分 65.5。在 500M 参数以下,没有其他模型达到这一水平。其尺寸不到大多数可比模型的一半,是边缘计算和对延迟敏感部署的自然选择。

这两个模型都支持:

  • 四种任务特定的 LoRA 适配器:Retrieval、文本匹配、分类、聚类。在推理时通过任务参数选择合适的适配器。
  • Matryoshka 维度截断:将嵌入维度从 1024( nano 为 768 )降低到 32。在适度截断(例如 256 维)下质量损失很小。维度减半大致意味着存储减半。
  • 二值量化:通过二值化将 1024 维嵌入从 2KB 压缩到 128 字节。专门的训练使这种压缩带来的损失最小。
  • 多语言:支持 119 种语言( small )和 93 种语言( nano )。

jina-reranker-v3

一个 0.6B 参数的多语言列表式重排序模型,基于 last but not late 交互架构构建。query 和最多 64 个候选匹配会被输入到一个单一的 131K token 上下文窗口中,模型在评分之前执行跨文档比较。Jina Reranker v3 在 BEIR 上实现了 61.94 的 nDCG@10,在模型体积小 6 倍的情况下表现更优。这与逐点重排序模型(对每个文档单独评分)有本质区别,在从单个文档中进行段落检索时能产生更好的结果。

jina-clip-v2

一个 0.9B 的多模态、多语言嵌入模型,将文本和图像映射到共享的 1024 维空间。它支持:

  • 用于文本-图像检索的 89 种语言
  • 512×512 图像分辨率
  • 8K token 文本输入
  • 对两种模态都支持从 1024 到 64 维的 Matryoshka 截断

在图像到文本基准(包括多语言任务)上具有很强的竞争力。

开始使用

Jina Embeddings v3 今天已经在 Model Garden 上线。以下是运行它的方法。

你需要一个启用了 Vertex AI API 的 Google Cloud 项目,并且至少具备一个 g2-standard-8 实例( NVIDIA L4 )的 GPU 配额。如果你是 Google Cloud 新手,可以从设置指南开始

Jina Embeddings v3 的 Model Garden 页面会引导你完成整个流程:上传模型、创建端点、选择机器类型并部署。在你自己的项目中打开它,并按照引导步骤操作。在区域和配额允许的情况下,也可以使用 A100 和 H100 机器,但开始时只需要 L4。

从点击到生成第一个 embedding,整个过程只需几分钟。

接下来

Jina Embeddings v3 只是起点。在接下来的几周内,我们会将 Jina 检索栈的其余部分带到 Model Garden:v5 文本嵌入( small 和 nano )、jina-reranker-v3,以及用于多模态搜索的 jina-clip-v2。所有模型都将在单个 L4 GPU 上运行,并采用相同的自部署模式。

原文:www.elastic.co/search-labs…