阿里云重磅推出Qwen3-Omni模型,标志着全球首个原生端到端全模态AI技术的正式诞生,并且该突破性模型现已全面开源。Qwen3-Omni能够无缝处理文本、图像、音频和视频等多种输入类型,实现实时流式输出,无论是通过文本交互还是自然语音指令,都能提供闪电般的响应速度。这一创新模型在多个领域展现出卓越的跨模态性能,通过早期以文本为核心的预训练和混合多模态深度训练,成功构建了强大的多模态理解能力。特别是在音频和视频处理方面表现尤为突出,同时在文本和图像领域也始终保持行业领先水准。根据涵盖36项音频和视频的权威基准测试,Qwen3-Omni在22项测试中取得了当前最佳成绩,其自动语音识别和音频理解等核心功能已与行业标杆Gemini2.5Pro实现全面对标。
Qwen3-Omni支持119种文本语言和19种语音输入语言,并配备10种语音输出语言(包括英语、中文、法语、德语等主流语言),这一全球化的语言矩阵使其能够为全球用户提供无障碍的智能服务。其创新的架构设计融合了MoE(专家混合)系统与AuT预训练技术,不仅赋予模型强大的通用表征能力,更通过多码本设计实现了低延迟的实时音频视频交互,确保自然对话的流畅性。这一系列技术突破为用户带来了前所未有的跨模态智能体验。
除了Qwen3-Omni,阿里云还同步发布了Qwen3-TTS文本转语音模型,该模型提供17种丰富音色选择,在多项权威评估中全面超越竞品,尤其在语音稳定性和音色相似度方面表现惊艳。此外,新推出的Qwen-Image-Edit-2509工具专注于多图像编辑场景,通过创新的拼接编辑技术显著提升了图像处理的一致性和艺术效果,不仅支持单图像编辑,更能处理多图像的复杂编辑需求,为专业用户带来全新的创作可能。
GitHub:https://github.com/QwenLM/Qwen3-Omnihuggingface:https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe
划重点:
🌟 Qwen3-Omni是全球首个原生端到端全模态AI模型,实现文本、图像、音频和视频的统一智能处理
🌐 模型支持119种文本语言和19种语音输入,构建了覆盖全球的多语言服务网络
🖼️ 新发布的Qwen-Image-Edit-2509支持多图像编辑,大幅提升专业图像处理的一致性和创作自由度