Skip to content
AI Feed
Go back

Fish Audio 开源 S2:可精细控制情感的新一代 TTS 模型

Fish Audio 正式开源 S2-Pro,这是其新一代文本转语音模型,核心特性是通过自然语言指令精细控制语音的情感与风格——从激动到低沉、从戏剧性停顿到急促节奏,全部可以用语言描述来驾驭。

技术亮点:S2-Pro 采用分层 Dual-AR 架构,将语言建模与声学细节建模分离,在序列长度和音质之间取得了更好的平衡。训练管线包含视频字幕、语音字幕、语音质量评估和奖励建模四个阶段,从而形成高质量的自监督数据飞轮。

开源内容:模型权重、微调代码、基于 SGLang 的生产级推理引擎——不是只放个 checkpoint,而是完整的系统交付。支持多发言人对话一次性生成,已在 GitHub(fishaudio/fish-speech)上冲上 trending 榜单。

在 ElevenLabs 和各大闭源 TTS 服务主导市场的背景下,一个开源的、情感可控的高质量 TTS 系统意义不小——尤其对需要本地化部署语音能力的 Agent 和应用开发者来说。


Share this post on:

Previous Post
2026 年后训练技术全景:GRPO、DAPO、RLVR 如何取代 RLHF
Next Post
SWE-Bench 上 LLM 的 PR 合并率没有提高