F5-TTS Qwen3-TTS SenseVoiceSmall Whisper large-v3 turbo

本地语音统一面板

当前正在使用 Whisper large-v3 turbo。现在 ASR 和 TTS 都共用这一个入口，你可以随时在顶部切换。

当前是直接调用模式。识别时按需加载模型，完成后返回结果，不会长期常驻占用资源。

直接调用

调用方式

目前先走直接调用模式。每次上传音频后按需加载模型，识别完成就返回结果，适合先验证两套 ASR 的实际效果。

识别音频

常用参数

audio_file（要识别的音频文件）?

output_name（转写结果文件名）?

language（语言提示）?

format（输出格式）?

word_timestamps（单词级时间戳）?

Whisper 更偏稳妥的通用转写能力，适合做对照基线或字幕类任务。

接口调用

你之后也可以把当前模型当本地 API 用。

POST /api/asr/whisper
Content-Type: application/json

{
  "audio_path": "/absolute/path/to/audio.m4a",
  "output_name": "whisper-test",
  "language": "auto",
  "format": "json",
  "word_timestamps": false
}

本地语音统一面板

调用方式

识别音频

常用参数

最近转写

接口调用