9月30日,通义千问重磅推出基于大语言模型的多语言实时音视频翻译系统——Qwen3-LiveTranslate-Flash,为全球跨语言交流开启全新篇章。这一创新系统不仅支持18种语言的离线与实时翻译,更实现了对中文、英语、法语、德语、俄语、西班牙语等主流语言以及普通话、粤语、北京话、吴语等方言的全面覆盖,为国际交流搭建起无障碍沟通的桥梁。
Qwen3-LiveTranslate-Flash的核心突破在于其先进的视觉上下文增强技术。该系统不仅能精准识别语音内容,更通过深度学习技术同步解析口型、动作、文字及实体等多模态信息,从而全面理解交流场景的深层含义。这种创新的多模态融合机制,显著提升了在嘈杂环境及复杂语境下的翻译准确率,有效解决了传统翻译中的一词多译难题,让跨语言沟通更加精准自然。
在实时性方面,Qwen3-LiveTranslate-Flash采用轻量混合专家架构与动态采样策略,将同传延迟降至历史最低的3秒以内,大幅增强了实时翻译的流畅度与互动性。此外,系统通过语义单元预测技术,巧妙应对跨语言翻译中的语序差异问题,确保输出结果接近离线翻译的高品质标准。测试数据显示,该系统在中英及多语言翻译准确率上全面超越Gemini-2.5-Flash、GPT-4o-Audio-Preview和Voxtral Small-24B等业界领先模型,在多领域复杂声学环境下的表现尤为突出。
在语音合成技术方面,Qwen3-LiveTranslate-Flash依托海量真实语音数据进行深度训练,能够根据原始语音内容智能调整语气与表现力,生成极具感染力的自然音色。通义千问团队表示,未来将持续优化算法模型,进一步提升翻译的精准度与自然度,逐步扩展语种覆盖范围,并增强系统在极端语音环境下的鲁棒性,致力于为全球用户提供更加智能、便捷的跨语言沟通解决方案。