2025年12月15日,人工智能领域传来重磅消息,通义大模型正式宣布开源两款革命性的“百聆”语音模型,并完成了一系列关键升级。这两款模型不仅代表了语音技术的最新突破,更将开启语音交互的新纪元。
在音色克隆领域,Fun-CosyVoice3-0.5B模型实现了令人惊叹的零样本音色克隆技术。这意味着用户仅需3秒钟的录音样本,即可实现跨语种、方言乃至情感的精准语音合成。更令人瞩目的是,该模型的首次响应延迟降低了整整50%,中英混说的准确率也实现了显著提升。这一突破性进展,将极大地推动个性化语音交互应用的普及,为虚拟助手、智能客服等领域带来前所未有的可能性。
与此同时,轻量级模型Fun-ASR-Nano-0.8B的推出,则为资源受限的场景提供了完美的解决方案。这款模型支持多达31种语种的混说与方言识别,流式识别的首字延迟低至惊人的160毫秒。无论是移动设备还是嵌入式系统,Fun-ASR-Nano-0.8B都能轻松部署,满足多样化的本地化需求。其高效的性能和广泛的适用性,预示着语音识别技术将更加深入地融入我们的日常生活。
两款模型均已全面开放下载与体验入口。开发者和技术爱好者们可以立即访问官方平台,获取这些前沿的语音技术资源。随着这些开源模型的普及,我们有理由相信,语音交互将变得更加智能、便捷和个性化,为各行各业带来深刻的变革。通义大模型的这一举措,不仅展现了其在语音技术领域的领先地位,更彰显了其推动技术普惠、赋能创新的责任担当。
