引入
2026年3月10日,Google 发布 Gemini Embedding 2,这是首个原生多模态嵌入模型。
什么是 Embedding?
定义
Embedding(嵌入)是将数据转换为数值向量的过程。相似的内容在向量空间中距离更近。
应用场景
- 语义搜索:找到含义相似的内容
- 分类:自动归类内容
- 聚类:发现相似内容组
- RAG:检索增强生成
Gemini Embedding 2 核心特性
1. 多模态统一
- 支持类型:文本、图像、视频、音频、文档
- 统一空间:所有模态映射到同一向量空间
- 跨模态搜索:用文本搜图片,用图片搜视频
2. 多语言支持
- 100+ 语言
- 跨语言搜索:中文查询匹配英文内容
3. 模型信息
- 模型名:
gemini-embedding-2-preview - 文本模型:
gemini-embedding-001(文本专用)
代码示例
Python
from google import genai
client = genai.Client()
# 文本嵌入
result = client.models.embed_content(
model="gemini-embedding-001",
contents="What is the meaning of life?"
)
print(result.embeddings)
# 批量嵌入
result = client.models.embed_content(
model="gemini-embedding-001",
contents=[
"What is the meaning of life?",
"What is the purpose of existence?",
"How do I bake a cake?"
]
)
for embedding in result.embeddings:
print(embedding)
Node.js
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});
// 文本嵌入
const response = await ai.models.embedContent({
model: 'gemini-embedding-001',
contents: 'What is the meaning of life?',
});
console.log(response.embeddings);
// 批量嵌入
const response = await ai.models.embedContent({
model: 'gemini-embedding-001',
contents: [
'What is the meaning of life?',
'What is the purpose of existence?',
'How do I bake a cake?'
],
});
console.log(response.embeddings);
cURL
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-embedding-001:embedContent" \
-H "Content-Type: application/json" \
-H "x-goog-api-key: ${GEMINI_API_KEY}" \
-d '{
"model": "models/gemini-embedding-001",
"content": {
"parts": [{
"text": "What is the meaning of life?"
}]
}
}'
应用场景
1. RAG 系统
# 构建知识库
documents = ["文档1内容", "文档2内容", ...]
embeddings = client.models.embed_content(
model="gemini-embedding-001",
contents=documents
)
# 存储到向量数据库
# ...
# 查询
query_embedding = client.models.embed_content(
model="gemini-embedding-001",
contents="用户问题"
)
# 相似度搜索
# 返回最相关的文档
2. 跨模态搜索
# 用图片搜索相关文档
image_embedding = client.models.embed_content(
model="gemini-embedding-2-preview",
contents=image_data
)
# 在文档向量库中搜索
# 返回与图片语义相关的文档
3. 内容推荐
# 用户兴趣向量
user_interests = client.models.embed_content(
model="gemini-embedding-001",
contents=user_history
)
# 计算相似度推荐
# ...
与其他 Embedding 模型对比
| 模型 | 模态 | 语言数 | 定价 |
|---|---|---|---|
| Gemini Embedding 2 | 多模态 | 100+ | 查看 Google AI 定价 |
| OpenAI text-embedding-3-large | 文本 | 多语言 | $0.13/1M tokens |
| OpenAI text-embedding-3-small | 文本 | 多语言 | $0.02/1M tokens |
| Cohere embed-v3 | 文本 | 多语言 | $0.10/1M tokens |
变现机会
内容创作
| 内容 | 平台 | 预估流量 |
|---|---|---|
| Gemini Embedding 2 入门教程 | 掘金 | 10000+ |
| RAG 系统实战 | 知乎 | 5000+ |
| 跨模态搜索应用 | B站 | 20000+ |
服务
- RAG 系统开发:¥5000-50000
- 跨模态搜索应用:¥10000-100000
- 企业知识库构建:¥20000-200000
产品
- AI 搜索引擎 SaaS:¥99-999/月
- 文档智能检索工具:¥49-199/月
学习资源
创建时间:2026-03-12