微新创想:Fish Audio 正式发布新一代文本转语音(TTS)模型 S2 标志着开源 TTS 技术在表现力和可控性上迎来重大突破
Fish Audio 推出的 S2 模型主打超强情感可控性 用户可以通过自然语言指令实现精细化的韵律与情绪调节
例如在文本中插入 [laugh](笑)、[whispers](耳语)、[super happy](超级开心) 等标签 甚至支持自由描述如 [professional broadcast tone](专业播音腔) 或 [pitch up](升高音调) 在词级或短语级实现精准控制 生成极富表现力 自然生动的语音
核心亮点包括 完全开源 模型权重 微调代码及基于 SGLang 的流式推理引擎全部公开 可在 GitHub 与 Hugging Face 获取 S2-Pro 为旗舰版本 约 44 亿参数
超低延迟 推理延迟低于 150 毫秒 适合实时应用场景如对话机器人 虚拟主播等
原生多说话人支持 单次推理即可处理多个说话人 支持对话轮转 打断 自然情感传递与音色一致性 无需额外处理
Fish Audio 表示 S2 基于约 1000 万小时 覆盖近 50 种语言的音频数据训练 结合强化学习对齐与双自回归架构 在多项基准测试中展现出领先的自然度与表现力 被誉为当前开源与闭源 TTS 中最具情感智能的系统之一
“真正的语言自由 从现在开始” Fish Audio 以这句话宣告 从机械朗读走向真正富有情感与个性的 AI 语音时代已来
