阿里云Qwen3-Omni开源全模态AI模型引领跨媒体处理新纪元

2025-09-23 09:32:46 AI动态 21 次阅读

阿里云重磅推出Qwen3-Omni模型，标志着全球首个原生端到端全模态AI技术的正式诞生，并且该突破性模型现已全面开源。Qwen3-Omni能够无缝处理文本、图像、音频和视频等多种输入类型，实现实时流式输出，无论是通过文本交互还是自然语音指令，都能提供闪电般的响应速度。这一创新模型在多个领域展现出卓越的跨模态性能，通过早期以文本为核心的预训练和混合多模态深度训练，成功构建了强大的多模态理解能力。特别是在音频和视频处理方面表现尤为突出，同时在文本和图像领域也始终保持行业领先水准。根据涵盖36项音频和视频的权威基准测试，Qwen3-Omni在22项测试中取得了当前最佳成绩，其自动语音识别和音频理解等核心功能已与行业标杆Gemini2.5Pro实现全面对标。

Qwen3-Omni支持119种文本语言和19种语音输入语言，并配备10种语音输出语言（包括英语、中文、法语、德语等主流语言），这一全球化的语言矩阵使其能够为全球用户提供无障碍的智能服务。其创新的架构设计融合了MoE（专家混合）系统与AuT预训练技术，不仅赋予模型强大的通用表征能力，更通过多码本设计实现了低延迟的实时音频视频交互，确保自然对话的流畅性。这一系列技术突破为用户带来了前所未有的跨模态智能体验。

除了Qwen3-Omni，阿里云还同步发布了Qwen3-TTS文本转语音模型，该模型提供17种丰富音色选择，在多项权威评估中全面超越竞品，尤其在语音稳定性和音色相似度方面表现惊艳。此外，新推出的Qwen-Image-Edit-2509工具专注于多图像编辑场景，通过创新的拼接编辑技术显著提升了图像处理的一致性和艺术效果，不仅支持单图像编辑，更能处理多图像的复杂编辑需求，为专业用户带来全新的创作可能。

GitHub:https://github.com/QwenLM/Qwen3-Omnihuggingface:https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe

划重点:
🌟 Qwen3-Omni是全球首个原生端到端全模态AI模型，实现文本、图像、音频和视频的统一智能处理
🌐 模型支持119种文本语言和19种语音输入，构建了覆盖全球的多语言服务网络
🖼️ 新发布的Qwen-Image-Edit-2509支持多图像编辑，大幅提升专业图像处理的一致性和创作自由度

2025年10月02日

12:50

阿里云Qwen3-Omni开源全模态AI模型引领跨媒体处理新纪元

最新快讯

2025年10月02日

烟台芝罘福朋喜来登酒店盛大开业体验高端舒适之旅

上海佘山世茂艾美酒店全新升级回归度假胜地

中金孙雷预测2025并购规模将创历史新高

Burkhan Capital领投2.7亿猛攻Robo.ai AI智能科技新赛道

西捷航空遭黑客攻击 120万乘客信息泄露黑客组织Scattered Spider涉案

美政府增资1亿美元用AI攻克儿童癌症

北京现代EO羿欧七款东方科幻配色发布

2025人工智能计算大会：浪潮信息元脑SD200与HC1000创新成果亮相

特斯拉Model Y标准版即将上市预计售价39990美元成最亲民SUV

企业AI投资回报率翻倍量子AI关注度飙升

Claude正式登陆Slack AI助手助力团队高效协作

微软CEO纳德拉专注AI 将商业业务交给新任CEO

阿里云Qwen3-Omni开源 全模态AI模型引领跨媒体处理新纪元

最新快讯

2025年10月02日

阿里云Qwen3-Omni开源全模态AI模型引领跨媒体处理新纪元