12.1 Chroma 向量存储Chroma 向量存储概述本节将指导您完成设置 Chroma VectorStore

Chroma 向量存储

概述

本节将指导您完成设置 Chroma VectorStore 以存储文档嵌入并执行相似性搜索。

Chroma 是开源的嵌入数据库。它为您提供了存储文档嵌入、内容和元数据的工具，以及搜索这些嵌入的功能，包括元数据过滤。

前提条件

访问 ChromaDB：兼容 Chroma Cloud，或在附录中设置本地 ChromaDB展示了如何使用 Docker 容器在本地设置数据库。
- 对于 Chroma Cloud：您需要从 Chroma Cloud 控制台获取 API 密钥、租户名称和数据库名称。
- 对于本地 ChromaDB：除了启动容器外，不需要额外配置。
EmbeddingModel 实例：用于计算文档嵌入。有多个选项可用：
- 如果需要，为 EmbeddingModel 提供 API 密钥以生成存储在 ChromaVectorStore 中的嵌入。

启动时，ChromaVectorStore 会创建所需的集合（如果尚未提供）。

自动配置

注意

Spring AI 的自动配置和启动器模块的工件名称发生了重大变化。请参阅升级说明了解更多信息。

Spring AI 为 Chroma Vector Store 提供 Spring Boot 自动配置。要启用它，请将以下依赖项添加到您项目的 Maven pom.xml 文件中：

<dependency>
    <groupId>org.springframework.ai</groupId>
    <artifactId>spring-ai-starter-vector-store-chroma</artifactId>
</dependency>

或者添加到您的 Gradle build.gradle 构建文件中：

dependencies {
    implementation 'org.springframework.ai:spring-ai-starter-vector-store-chroma'
}

提示

请参考依赖管理部分，将 Spring AI BOM 添加到您的构建文件中。

提示

请参考工件仓库部分，将 Maven Central 和/或 Snapshot 仓库添加到您的构建文件中。

向量存储实现可以为您初始化所需的模式，但您必须通过在适当的构造函数中指定 initializeSchema 布尔值或在 application.properties 文件中设置 …initialize-schema=true 来选择加入。

注意

这是一个破坏性变更！在早期版本的 Spring AI 中，此模式初始化默认发生。

此外，您需要一个配置的 EmbeddingModel bean。有关更多信息，请参阅 EmbeddingModel 部分。

以下是所需 bean 的示例：

@Bean
public EmbeddingModel embeddingModel() {
    // 可以是任何其他 EmbeddingModel 实现。
    return new OpenAiEmbeddingModel(OpenAiApi.builder().apiKey(System.getenv("OPENAI_API_KEY")).build());
}

要连接到 Chroma，您需要为您的实例提供访问详细信息。可以通过 Spring Boot 的 application.properties 提供简单的配置：

# Chroma Vector Store 连接属性
spring.ai.vectorstore.chroma.client.host=<您的 Chroma 实例主机>  # 对于 Chroma Cloud: api.trychroma.com
spring.ai.vectorstore.chroma.client.port=<您的 Chroma 实例端口> # 对于 Chroma Cloud: 443
spring.ai.vectorstore.chroma.client.key-token=<您的访问令牌（如果配置）> # 对于 Chroma Cloud: 使用 API 密钥
spring.ai.vectorstore.chroma.client.username=<您的用户名（如果配置）>
spring.ai.vectorstore.chroma.client.password=<您的密码（如果配置）>

# Chroma Vector Store 租户和数据库属性（Chroma Cloud 必需）
spring.ai.vectorstore.chroma.tenant-name=<您的租户名称> // 默认: SpringAiTenant
spring.ai.vectorstore.chroma.database-name=<您的数据库名称> // 默认: SpringAiDatabase

# Chroma Vector Store 集合属性
spring.ai.vectorstore.chroma.initialize-schema=<true 或 false>
spring.ai.vectorstore.chroma.collection-name=<您的集合名称>

# Chroma Vector Store 配置属性

# 如果使用 OpenAI 自动配置，则需要 OpenAI API 密钥。
spring.ai.openai.api.key=<OpenAI API 密钥>

请查看向量存储的配置参数列表，了解默认值和配置选项。

现在您可以在应用程序中自动装配 Chroma Vector Store 并使用它：

@Autowired VectorStore vectorStore;

// ...

List <Document> documents = List.of(
    new Document("Spring AI rocks!! Spring AI rocks!! Spring AI rocks!! Spring AI rocks!! Spring AI rocks!!", Map.of("meta1", "meta1")),
    new Document("The World is Big and Salvation Lurks Around the Corner"),
    new Document("You walk forward facing the past and you turn back toward the future.", Map.of("meta2", "meta2")));

// 添加文档
vectorStore.add(documents);

// 检索与查询相似的文档
List<Document> results = this.vectorStore.similaritySearch(SearchRequest.builder().query("Spring").topK(5).build());

配置属性

您可以在 Spring Boot 配置中使用以下属性来自定义向量存储。

属性	描述	默认值
`spring.ai.vectorstore.chroma.client.host`	服务器连接主机	http://localhost
`spring.ai.vectorstore.chroma.client.port`	服务器连接端口	`8000`
`spring.ai.vectorstore.chroma.client.key-token`	访问令牌（如果配置）	-
`spring.ai.vectorstore.chroma.client.username`	访问用户名（如果配置）	-
`spring.ai.vectorstore.chroma.client.password`	访问密码（如果配置）	-
`spring.ai.vectorstore.chroma.tenant-name`	租户（Chroma Cloud 必需）	`SpringAiTenant`
`spring.ai.vectorstore.chroma.database-name`	数据库名称（Chroma Cloud 必需）	`SpringAiDatabase`
`spring.ai.vectorstore.chroma.collection-name`	集合名称	`SpringAiCollection`
`spring.ai.vectorstore.chroma.initialize-schema`	是否初始化所需模式（如果租户/数据库/集合不存在则创建）	`false`

注意

对于使用静态 API 令牌身份验证保护的 ChromaDB，使用 ChromaApi#withKeyToken(<您的令牌凭证>) 方法设置凭据。查看 ChromaWhereIT 获取示例。

对于使用基本身份验证保护的 ChromaDB，使用 ChromaApi#withBasicAuth(<您的用户>, <您的密码>) 方法设置凭据。查看 BasicAuthChromaWhereIT 获取示例。

Chroma Cloud 配置

对于 Chroma Cloud，您需要提供 Chroma Cloud 实例中的租户和数据库名称。以下是配置示例：

# Chroma Cloud 连接
spring.ai.vectorstore.chroma.client.host=api.trychroma.com
spring.ai.vectorstore.chroma.client.port=443
spring.ai.vectorstore.chroma.client.key-token=<您的-chroma-cloud-api-密钥>

# Chroma Cloud 租户和数据库（必需）
spring.ai.vectorstore.chroma.tenant-name=<您的-租户-id>
spring.ai.vectorstore.chroma.database-name=<您的-数据库名称>

# 集合配置
spring.ai.vectorstore.chroma.collection-name=my-collection
spring.ai.vectorstore.chroma.initialize-schema=true

注意

对于 Chroma Cloud：

主机应为 api.trychroma.com

端口应为 443 (HTTPS)

您必须通过 key-token 提供 API 密钥

租户和数据库名称必须匹配您的 Chroma Cloud 配置

设置 initialize-schema=true 可自动创建集合（如果不存在）（不会重新创建现有的租户/数据库）

元数据过滤

您也可以利用通用的、可移植的元数据过滤器与 ChromaVector store 一起使用。

例如，您可以使用文本表达式语言：

vectorStore.similaritySearch(
                    SearchRequest.builder()
                            .query("The World")
                            .topK(TOP_K)
                            .similarityThreshold(SIMILARITY_THRESHOLD)
                            .filterExpression("author in ['john', 'jill'] && article_type == 'blog'").build());

或使用 Filter.Expression DSL 以编程方式：

FilterExpressionBuilder b = new FilterExpressionBuilder();

vectorStore.similaritySearch(SearchRequest.builder()
                    .query("The World")
                    .topK(TOP_K)
                    .similarityThreshold(SIMILARITY_THRESHOLD)
                    .filterExpression(b.and(
                            b.in("john", "jill"),
                            b.eq("article_type", "blog")).build()).build());

注意

那些（可移植的）过滤器表达式会自动转换为专有的 Chroma where 过滤器表达式。

例如，这个可移植的过滤器表达式：

author in ['john', 'jill'] && article_type == 'blog'

被转换为专有的 Chroma 格式：

{
  "$and":[
	{"author": {"$in": ["john", "jill"]}},
	{"article_type":{"$eq":"blog"}}
]
}

手动配置

如果您更喜欢手动配置 Chroma Vector Store，可以通过在 Spring Boot 应用程序中创建 ChromaVectorStore bean 来实现。

向您的项目添加这些依赖项：

Chroma VectorStore：

<dependency>
  <groupId>org.springframework.ai</groupId>
  <artifactId>spring-ai-chroma-store</artifactId>
</dependency>

OpenAI：计算嵌入所需。您可以使用任何其他嵌入模型实现。

<dependency>
 <groupId>org.springframework.ai</groupId>
 <artifactId>spring-ai-starter-model-openai</artifactId>
</dependency>

提示

请参考依赖管理部分，将 Spring AI BOM 添加到您的构建文件中。

示例代码

创建具有适当 ChromaDB 授权配置的 RestClient.Builder 实例，并使用它创建 ChromaApi 实例：

@Bean
public RestClient.Builder builder() {
    return RestClient.builder().requestFactory(new SimpleClientHttpRequestFactory());
}

@Bean
public ChromaApi chromaApi(RestClient.Builder restClientBuilder) {
   String chromaUrl = "http://localhost:8000";
   ChromaApi chromaApi = new ChromaApi(chromaUrl, restClientBuilder);
   return chromaApi;
}

通过向项目添加 Spring Boot OpenAI 启动器来与 OpenAI 的嵌入集成。这为您提供了嵌入客户端的实现：

@Bean
public VectorStore chromaVectorStore(EmbeddingModel embeddingModel, ChromaApi chromaApi) {
 return ChromaVectorStore.builder(chromaApi, embeddingModel)
    .tenantName("your-tenant-name") // 默认: SpringAiTenant
    .databaseName("your-database-name") // 默认: SpringAiDatabase
    .collectionName("TestCollection")
    .initializeSchema(true)
    .build();
}

在您的主要代码中，创建一些文档：

List<Document> documents = List.of(
 new Document("Spring AI rocks!! Spring AI rocks!! Spring AI rocks!! Spring AI rocks!! Spring AI rocks!!", Map.of("meta1", "meta1")),
 new Document("The World is Big and Salvation Lurks Around the Corner"),
 new Document("You walk forward facing the past and you turn back toward the future.", Map.of("meta2", "meta2")));

将文档添加到您的向量存储：

vectorStore.add(documents);

最后，检索与查询相似的文档：

List<Document> results = vectorStore.similaritySearch("Spring");

如果一切顺利，您应该检索到包含文本"Spring AI rocks!!"的文档。

本地运行 Chroma

docker run -it --rm --name chroma -p 8000:8000 ghcr.io/chroma-core/chroma:1.0.0

在 localhost:8000/api/v1 启动 chroma 存储