F5-TTS Qwen3-TTS SenseVoiceSmall Whisper large-v3 turbo

本地语音统一面板

当前正在使用 SenseVoiceSmall。现在 ASR 和 TTS 都共用这一个入口，你可以随时在顶部切换。

当前是直接调用模式。识别时按需加载模型，完成后返回结果，不会长期常驻占用资源。

直接调用

调用方式

目前先走直接调用模式。每次上传音频后按需加载模型，识别完成就返回结果，适合先验证两套 ASR 的实际效果。

识别音频

常用参数

audio_file（要识别的音频文件）?

output_name（转写结果文件名）?

language（语言提示）?

format（输出格式）?

use_itn（数字与标点规范化）?

SenseVoice 更偏向低延迟、多语言和中文语音输入，很适合先拿来试本地语音对话。

接口调用

你之后也可以把当前模型当本地 API 用。

POST /api/asr/sensevoice
Content-Type: application/json

{
  "audio_path": "/absolute/path/to/audio.m4a",
  "output_name": "sensevoice-test",
  "language": "auto",
  "format": "txt",
  "use_itn": true
}

本地语音统一面板

调用方式

识别音频

常用参数

最近转写

接口调用