阿里巴巴通义实验室近日重磅推出其最新研发的端到端语音识别大模型——FunAudio-ASR,为语音识别领域带来了革命性突破。该模型的核心创新在于其独特的“Context 模块”,这一技术显著提升了高噪声环境下的语音识别准确率,将幻觉率从惊人的78.5%锐减至10.7%,降幅高达近70%。这一技术突破不仅刷新了行业标杆,更在嘈杂场景如会议、公共场所等应用中展现出卓越性能。
FunAudio-ASR模型在训练过程中融合了数千万小时的音频数据,并创新性地将大语言模型的语义理解能力融入其中。这使得模型在远场、嘈杂环境及多说话人等复杂条件下的表现,已全面超越Seed-ASR、KimiAudio-8B等主流语音识别系统。通过这一技术的应用,用户将享受到前所未有的清晰、精准的语音识别体验。
为满足不同用户需求,阿里还推出了轻量化版本FunAudio-ASR-nano。该版本在保持高识别准确率的同时,大幅降低了推理成本,特别适合资源受限的部署环境。无论是大型企业还是小型团队,都能找到最适合自己的解决方案。
目前,FunAudio-ASR已成功应用于钉钉的“AI听记”功能、视频会议系统以及DingTalk A1硬件中,展现出强大的实际应用能力。此外,其API已在阿里云百炼平台上正式上线,为开发者提供便捷的集成渠道。对于企业用户而言,这意味着他们能够借助这一先进技术显著提升会议效率,增强沟通效果。
FunAudio-ASR不仅为语音识别技术带来了历史性突破,更为用户的实际应用提供了强大支持,有力推动了AI技术的普及与落地。官方介绍:https://mp.weixin.qq.com/s/7l5EPTU7cpz7GSN4RP91rg