F5-TTS Qwen3-TTS SenseVoiceSmall Whisper large-v3 turbo

本地语音统一面板

当前正在使用 F5-TTS。现在 TTS 和 ASR 都共用这一个入口，你可以随时在顶部切换。

当前是按需模式。平时只保留 Web 服务，生成时才临时加载模型，结束后自动退出推理进程。

按需模式

运行模式

运行模式按模型分别管理。偶尔生成时保持按需模式更省资源；连续试音很多次时，再临时开启常驻模式会更顺手。

生成语音

常用参数

text（要合成的文本内容）?

output_name（输出音频文件名）?

ref_audio（参考音频，可选）?

ref_text（参考音频里实际说了什么）?

做音色克隆时建议填写，模型会更容易对齐语气和时长。

steps（采样步数，越高通常越稳但更慢）?

speed（语速倍率）?

q / quantization_bits（量化位数，省内存）?

高级参数

这些参数更适合你在已经能正常出声后，继续细调风格、速度和复现性时再动。

method（采样算法）?

cfg（提示词约束强度）?

sway_coef（采样节奏微调）?

duration（指定输出时长，单位秒）?

estimate_duration（用启发式估算时长）?

seed（随机种子，复现实验用）?

常驻模式下会固定使用预加载模型；如果你要切换 4-bit 或 8-bit，先关闭常驻模式再生成。

接口调用

你之后也可以把当前模型当本地 API 用。

POST /api/tts/f5
Content-Type: application/json

{
  "text": "你好，这是接口测试",
  "output_name": "api-test.wav",
  "steps": 8,
  "speed": 1.0,
  "quantization_bits": 4
}

本地语音统一面板

运行模式

生成语音

常用参数

最近生成

接口调用