评分 7.7 · 来源:HuggingFace Papers · 发布于 2026-03-17
完整的开源 TTS 技术报告,有生产级性能和详细 benchmark,但属于 TTS 领域常规进展
要点
Fish Audio 发布 S2 版本,这是一个开源的文本转语音系统,支持多说话人、多轮对话生成,最重要的是通过自然语言描述实现指令跟随控制。系统采用 Dual-AR 架构,将时序语义建模与深度声学建模解耦,在 H200 GPU 上实现 RTF 0.195 和低于 100ms 的首音频延迟。
训练流程包括多阶段数据管道:视频字幕、语音字幕、音质评估和奖励建模。关键创新是双用途数据管道——语音质量模型和富转录 ASR 模型既作为预训练过滤器,又作为 RL 奖励信号,消除了阶段间的分布偏移。RL 后训练采用多维度奖励(语义准确性、声学质量、说话人相似度)联合优化。
在 Seed-TTS、MiniMax 多语言测试集、CV3-Eval 和 Long-TTS-Eval 等基准上,Fish Audio S2 展现出领先的客观性能。在 Audio Turing Test 上达到 0.483 后验均值,指令重写后提升至 0.515。团队开源了模型权重、微调代码和基于 SGLang 的推理引擎。
🤖 AI 点评
TTS 系统的工程完整度很高,从架构到数据管道到推理优化都有详细阐述。双用途数据管道的设计巧妙地解决了预训练和 RL 对齐的分布偏移问题。不过 TTS 领域已有多个开源和闭源方案,这更像是一个高质量的开源实现而非技术突破。