2025年12月23日,阿里巴巴通义智能实验室重磅发布新一代端到端语音交互模型——Fun-Audio-Chat,为语音技术领域带来革命性突破。该模型开源8B版本,凭借卓越性能在多项权威基准测试中脱颖而出,同尺寸模型综合排名第一,全面超越GLM4-Voice等主流竞品,再次巩固了阿里在AI语音交互领域的领先地位。
Fun-Audio-Chat采用创新的端到端S2S架构,实现了从语音输入到文本输出的全流程无缝转换,彻底摆脱传统多模态处理流程的效率瓶颈。其独特的双分辨率设计理念,通过智能分层处理机制,将GPU计算开销降低高达50%,在保证高性能的同时显著优化了资源利用率,为大规模应用部署奠定了坚实基础。
经过百万小时海量多任务数据的深度训练,Fun-Audio-Chat展现出惊人的泛化能力。模型不仅支持精准的情绪感知,能够根据用户语气变化动态调整回应策略,更实现了在自然语音指令下的复杂函数调用,真正做到了像人类对话般流畅自然。这种接近真人交互的体验,将极大提升智能助手在实际场景中的应用价值。
为了促进技术生态发展,阿里巴巴已将Fun-Audio-Chat的完整代码与预训练模型公开发布在GitHub、HuggingFace等主流平台。开发者可立即获取并基于此框架构建各类创新应用,共同推动语音交互技术的进步。这一开放举措标志着AI语音技术正迈向更加普惠、高效的全新阶段。
