阿里发布Fun-CosyVoice3.5与Fun-AudioGen-VD语音模型提升多语种与场景化音频生成能力

2026-03-02 11:24:07 快讯 3 次阅读

微新创想：2026年3月2日，阿里通义实验室语音团队正式发布两款支持FreeStyle自然语言指令的语音生成模型：Fun-CosyVoice3.5与Fun-AudioGen-VD。这两款模型的推出标志着语音合成技术在可控性与沉浸感方面迈出了重要一步。

Fun-CosyVoice3.5主要面向多语种语音复刻与精细化表达控制。该模型新增了包括泰语在内的四种语言支持，极大拓展了其应用场景。同时，模型在生僻字识别方面也取得了显著提升，读错率从原来的15.2%下降至5.3%，有效提高了语音生成的准确性和自然度。

Fun-AudioGen-VD则专注于声音设计与场景化音频生成。它能够联合建模音色、情绪、角色及环境音效，使生成的音频更加贴近真实场景，增强用户的听觉体验。这一功能对于需要高度定制化音频内容的开发者来说具有极大的价值。

两款模型均面向开发者开放API调用，这意味着更多的开发者可以借助这些工具进行创新应用的开发。无论是语音助手、虚拟主播还是其他需要语音生成的场景，都可以从中受益。通过API调用，开发者能够更灵活地控制语音生成的各个方面，从而创造出更加丰富和个性化的语音内容。

此次发布的模型不仅提升了语音合成的技术水平，也为相关行业的应用提供了更强大的支持。随着这些模型的广泛应用，语音技术将在更多领域发挥重要作用，推动人机交互的进一步发展。

2026年03月02日

13:44