
阿里巴巴通义大模型近日正式宣布其“百聆”系列语音模型的重大升级,并惊喜推出开源版本。此次升级的两款核心语音模型——Fun-CosyVoice3与Fun-ASR,实现了令人瞩目的技术突破,能够在用户仅需三秒录音后,即可实现无缝切换至多达九种语言和十八种方言,覆盖普通话、粤语、日语、英语等主流语种,更可模拟多种情感表达,如开心、愤怒等复杂情绪,为语音交互注入了前所未有的生动性。
在此次升级中,Fun-CosyVoice3模型的表现尤为亮眼。其首包延迟大幅降低50%,中英混说的准确率得到了显著提升。更值得一提的是,该模型的音色克隆能力得到了质的飞跃。用户只需提供一段三秒以上的录音样本,便能精准复刻相应音色,并合成全新的语音内容。这一功能的推出,将极大推动实时语音助手、直播配音、无障碍阅读等场景的智能化进程,让语音交互更加高效便捷。
Fun-ASR模型同样实现了跨越式的进步。在噪声环境下,其准确率高达93%,表现堪称卓越。该模型不仅支持歌词和说唱的精准识别,更能实现多语言自由混说,全面覆盖多种中文方言与口音。为了进一步提升用户体验,流式识别的首字延迟已降低至160毫秒,显著增强了语音交互的流畅度与响应速度。

为了促进技术的广泛应用,这两款模型均支持本地部署与二次开发。开发者可以根据自身需求进行定制化调整,充分释放语音技术的无限潜能。开源地址现已公布,用户可前往GitHub平台(https://github.com/FunAudioLLM/CosyVoice)体验和使用这两款强大的语音模型,共同推动语音技术在各个领域的创新应用。
划重点:
🌐 ** 多语言支持 **:三秒录音即可实现9种语言和18种方言的切换,打破语言障碍,畅享全球交流。
⚙️ ** 技术升级 **:延迟降低50%,准确率提升,使语音交互更加流畅自然,体验更上一层楼。
📦 ** 开源开放 **:模型支持本地部署和二次开发,便于个性化应用,助力开发者打造专属语音解决方案。
