Weaviate

本节将引导您设置 Weaviate VectorStore 来存储文档嵌入并执行相似性搜索。

Weaviate 是一个开源向量数据库,它允许您存储数据对象和来自您喜爱的 ML 模型的向量嵌入,并无缝扩展到数十亿个数据对象。它提供了存储文档嵌入、内容和元数据以及通过这些嵌入进行搜索的工具,包括元数据过滤。

先决条件

  • 运行中的 Weaviate 实例。以下选项可用

  • 如果需要,需要 EmbeddingModel 的 API 密钥,用于生成由 WeaviateVectorStore 存储的嵌入。

依赖关系

Spring AI 自动配置、启动模块的工件名称发生了重大变化。请参阅 升级说明 以获取更多信息。

将 Weaviate Vector Store 依赖项添加到您的项目

<dependency>
    <groupId>org.springframework.ai</groupId>
    <artifactId>spring-ai-weaviate-store</artifactId>
</dependency>

或添加到您的 Gradle build.gradle 构建文件中。

dependencies {
    implementation 'org.springframework.ai:spring-ai-weaviate-store'
}
请参阅 依赖项管理 部分,将 Spring AI BOM 添加到您的构建文件中。

配置

要连接到 Weaviate 并使用 WeaviateVectorStore,您需要提供您的实例的访问详细信息。配置可以通过 Spring Boot 的 application.properties 提供

spring.ai.vectorstore.weaviate.host=<host_of_your_weaviate_instance>
spring.ai.vectorstore.weaviate.scheme=<http_or_https>
spring.ai.vectorstore.weaviate.api-key=<your_api_key>
# API key if needed, e.g. OpenAI
spring.ai.openai.api-key=<api-key>

如果您更喜欢将环境变量用于 API 密钥等敏感信息,您有多种选择

选项 1:使用 Spring Expression Language (SpEL)

您可以使用自定义环境变量名称并在您的应用程序配置中引用它们

# In application.yml
spring:
  ai:
    vectorstore:
      weaviate:
        host: ${WEAVIATE_HOST}
        scheme: ${WEAVIATE_SCHEME}
        api-key: ${WEAVIATE_API_KEY}
    openai:
      api-key: ${OPENAI_API_KEY}
# In your environment or .env file
export WEAVIATE_HOST=<host_of_your_weaviate_instance>
export WEAVIATE_SCHEME=<http_or_https>
export WEAVIATE_API_KEY=<your_api_key>
export OPENAI_API_KEY=<api-key>

选项 2:以编程方式访问环境变量

或者,您可以在 Java 代码中访问环境变量

String weaviateApiKey = System.getenv("WEAVIATE_API_KEY");
String openAiApiKey = System.getenv("OPENAI_API_KEY");
如果您选择创建 shell 脚本来管理环境变量,请务必在启动应用程序之前通过“source”文件来运行它,即 source <您的脚本名称>.sh

自动配置

Spring AI 为 Weaviate Vector Store 提供了 Spring Boot 自动配置。要启用它,请将以下依赖项添加到您的项目的 Maven pom.xml 文件中

<dependency>
    <groupId>org.springframework.ai</groupId>
    <artifactId>spring-ai-starter-vector-store-weaviate</artifactId>
</dependency>

或添加到您的 Gradle build.gradle 构建文件中。

dependencies {
    implementation 'org.springframework.ai:spring-ai-starter-vector-store-weaviate'
}
请参阅 依赖项管理 部分,将 Spring AI BOM 添加到您的构建文件中。

请查看向量存储的配置参数列表,以了解默认值和配置选项。

请参阅Artifact Repositories(工件仓库)部分,将 Maven Central 和/或 Snapshot Repositories 添加到您的构建文件中。

此外,您还需要一个配置的 `EmbeddingModel` bean。有关更多信息,请参阅EmbeddingModel部分。

这是一个所需 bean 的示例

@Bean
public EmbeddingModel embeddingModel() {
    // Retrieve API key from a secure source or environment variable
    String apiKey = System.getenv("OPENAI_API_KEY");

    // Can be any other EmbeddingModel implementation
    return new OpenAiEmbeddingModel(OpenAiApi.builder().apiKey(apiKey).build());
}

现在您可以将 WeaviateVectorStore 自动装配为应用程序中的向量存储。

手动配置

除了使用 Spring Boot 自动配置,您还可以使用构建器模式手动配置 WeaviateVectorStore

@Bean
public WeaviateClient weaviateClient() {
    return new WeaviateClient(new Config("http", "localhost:8080"));
}

@Bean
public VectorStore vectorStore(WeaviateClient weaviateClient, EmbeddingModel embeddingModel) {
    return WeaviateVectorStore.builder(weaviateClient, embeddingModel)
        .options(options)                              // Optional: use custom options
        .consistencyLevel(ConsistentLevel.QUORUM)      // Optional: defaults to ConsistentLevel.ONE
        .filterMetadataFields(List.of(                 // Optional: fields that can be used in filters
            MetadataField.text("country"),
            MetadataField.number("year")))
        .build();
}

元数据过滤

您也可以在 Weaviate 存储中使用通用的、可移植的元数据过滤器

例如,您可以使用文本表达式语言

vectorStore.similaritySearch(
    SearchRequest.builder()
        .query("The World")
        .topK(TOP_K)
        .similarityThreshold(SIMILARITY_THRESHOLD)
        .filterExpression("country in ['UK', 'NL'] && year >= 2020").build());

或使用 `Filter.Expression` DSL 以编程方式

FilterExpressionBuilder b = new FilterExpressionBuilder();

vectorStore.similaritySearch(SearchRequest.builder()
    .query("The World")
    .topK(TOP_K)
    .similarityThreshold(SIMILARITY_THRESHOLD)
    .filterExpression(b.and(
        b.in("country", "UK", "NL"),
        b.gte("year", 2020)).build()).build());
这些(可移植的)过滤表达式会自动转换为专有的 Weaviate where filters

例如,这个可移植的过滤器表达式

country in ['UK', 'NL'] && year >= 2020

被转换为专有的 Weaviate GraphQL 过滤器格式

operator: And
operands:
    [{
        operator: Or
        operands:
            [{
                path: ["meta_country"]
                operator: Equal
                valueText: "UK"
            },
            {
                path: ["meta_country"]
                operator: Equal
                valueText: "NL"
            }]
    },
    {
        path: ["meta_year"]
        operator: GreaterThanEqual
        valueNumber: 2020
    }]

在 Docker 中运行 Weaviate

要快速开始使用本地 Weaviate 实例,您可以在 Docker 中运行它

docker run -it --rm --name weaviate \
    -e AUTHENTICATION_ANONYMOUS_ACCESS_ENABLED=true \
    -e PERSISTENCE_DATA_PATH=/var/lib/weaviate \
    -e QUERY_DEFAULTS_LIMIT=25 \
    -e DEFAULT_VECTORIZER_MODULE=none \
    -e CLUSTER_HOSTNAME=node1 \
    -p 8080:8080 \
    semitechnologies/weaviate:1.22.4

这将启动一个可在 localhost:8080 访问的 Weaviate 实例。

WeaviateVectorStore 属性

您可以在 Spring Boot 配置中使用以下属性来自定义 Weaviate 向量存储。

财产 描述 默认值

spring.ai.vectorstore.weaviate.host

Weaviate 服务器的主机

localhost:8080

spring.ai.vectorstore.weaviate.scheme

连接方案

http

spring.ai.vectorstore.weaviate.api-key

用于身份验证的 API 密钥

spring.ai.vectorstore.weaviate.object-class

用于存储文档的类名。

SpringAiWeaviate

spring.ai.vectorstore.weaviate.content-field-name

内容的字段名

content

spring.ai.vectorstore.weaviate.meta-field-prefix

元数据的字段前缀

meta_

spring.ai.vectorstore.weaviate.consistency-level

一致性和速度之间所需的权衡

ConsistentLevel.ONE

spring.ai.vectorstore.weaviate.filter-field

配置可在过滤器中使用的元数据字段。格式:spring.ai.vectorstore.weaviate.filter-field.<字段名>=<字段类型>

对象类名应以大写字母开头,字段名应以小写字母开头。参见 data-object-concepts

访问原生客户端

Weaviate Vector Store 实现通过 getNativeClient() 方法提供对底层原生 Weaviate 客户端(WeaviateClient)的访问

WeaviateVectorStore vectorStore = context.getBean(WeaviateVectorStore.class);
Optional<WeaviateClient> nativeClient = vectorStore.getNativeClient();

if (nativeClient.isPresent()) {
    WeaviateClient client = nativeClient.get();
    // Use the native client for Weaviate-specific operations
}

原生客户端使您能够访问 VectorStore 接口可能未公开的 Weaviate 特定功能和操作。

© . This site is unofficial and not affiliated with VMware.