阿里云近日震撼发布并正式开源其业界首创的原生端到端全模态大模型——Qwen3-Omni,这一突破性技术标志着多模态AI处理进入全新纪元。该模型实现了对文本、图像、音频及视频的统一高效处理,支持实时流式交互,为跨模态AI应用开辟了无限可能。在刚刚公布的36项音视频基准测试中,Qwen3-Omni更是以压倒性优势在22项测试中达到SOTA(State-of-the-Art)水平,其语音处理能力更是媲美业界顶尖的Gemini 2.5 Pro,展现出惊人的性能表现。值得注意的是,该模型全面支持119种文本语言,并具备强大的多语种语音输入输出能力,真正实现了全球化跨语言交互。
与此同时,阿里云还发布了革命性的Qwen3-TTS-Flash模型,在语音合成领域实现了速度与质量的完美平衡。该模型在保持业界领先合成质量的同时,将语音合成速度提升至全新高度,首包延迟低至惊人的97毫秒,远超主流竞品,为实时语音应用提供了无与伦比的性能保障。这一突破性技术将极大推动智能客服、在线教育等场景的智能化升级。
在图像处理方面,Qwen-Image-Edit-2509模型的推出同样令人瞩目。该模型通过创新算法显著提升了图像编辑的一致性,支持多图输入与ControlNet精细化控制,让图像编辑更加智能高效。无论是专业设计师还是普通用户,都能借助这一工具轻松实现复杂图像编辑需求,为AI创意设计领域注入了全新活力。
为了促进技术普惠,阿里云已将这一系列先进模型全面开源,并在Hugging Face、魔搭等主流AI平台上线,向全球开发者开放。这一举措不仅降低了AI技术的使用门槛,更为全球AI创新生态注入了强大动力。随着Qwen系列模型的广泛应用,我们有理由相信,AI技术将更快地渗透到各行各业,为人类社会带来更多智能化解决方案。
