转录 API

Spring AI 通过 TranscriptionModel 接口提供统一的语音转文本转录 API。这允许您编写可跨不同转录提供商工作的可移植代码。

通用接口

所有转录提供商都实现以下共享接口

TranscriptionModel

TranscriptionModel 接口提供将音频转换为文本的方法

public interface TranscriptionModel extends Model<AudioTranscriptionPrompt, AudioTranscriptionResponse> {

    /**
     * Transcribes the audio from the given prompt.
     */
    AudioTranscriptionResponse call(AudioTranscriptionPrompt transcriptionPrompt);

    /**
     * A convenience method for transcribing an audio resource.
     */
    default String transcribe(Resource resource) {
        AudioTranscriptionPrompt prompt = new AudioTranscriptionPrompt(resource);
        return this.call(prompt).getResult().getOutput();
    }

    /**
     * A convenience method for transcribing an audio resource with options.
     */
    default String transcribe(Resource resource, AudioTranscriptionOptions options) {
        AudioTranscriptionPrompt prompt = new AudioTranscriptionPrompt(resource, options);
        return this.call(prompt).getResult().getOutput();
    }
}

AudioTranscriptionPrompt

AudioTranscriptionPrompt 类封装了输入音频和选项

Resource audioFile = new FileSystemResource("/path/to/audio.mp3");
AudioTranscriptionPrompt prompt = new AudioTranscriptionPrompt(
    audioFile,
    options
);

AudioTranscriptionResponse

AudioTranscriptionResponse 类包含转录的文本和元数据

AudioTranscriptionResponse response = model.call(prompt);
String transcribedText = response.getResult().getOutput();
AudioTranscriptionResponseMetadata metadata = response.getMetadata();

编写与提供商无关的代码

共享转录接口的关键好处之一是能够编写适用于任何转录提供商而无需修改的代码。实际提供商(OpenAI、Azure OpenAI 等)由您的 Spring Boot 配置决定,允许您在不更改应用程序代码的情况下切换提供商。

基本服务示例

共享接口允许您编写适用于任何转录提供商的代码

@Service
public class TranscriptionService {

    private final TranscriptionModel transcriptionModel;

    public TranscriptionService(TranscriptionModel transcriptionModel) {
        this.transcriptionModel = transcriptionModel;
    }

    public String transcribeAudio(Resource audioFile) {
        return transcriptionModel.transcribe(audioFile);
    }

    public String transcribeWithOptions(Resource audioFile, AudioTranscriptionOptions options) {
        AudioTranscriptionPrompt prompt = new AudioTranscriptionPrompt(audioFile, options);
        AudioTranscriptionResponse response = transcriptionModel.call(prompt);
        return response.getResult().getOutput();
    }
}

该服务与 OpenAI、Azure OpenAI 或任何其他转录提供商无缝协作,实际实现由您的 Spring Boot 配置决定。

提供商特定功能

虽然共享接口提供了可移植性,但每个提供商还通过提供商特定选项类(例如,OpenAiAudioTranscriptionOptionsAzureOpenAiAudioTranscriptionOptions)提供特定功能。这些类实现 AudioTranscriptionOptions 接口,同时添加提供商特定的功能。

有关提供商特定功能的详细信息,请参阅各个提供商的文档页面。

© . This site is unofficial and not affiliated with VMware.