微新创想:2026年3月30日晚,阿里巴巴正式发布全模态大模型Qwen3.5-Omni。这一全新模型的推出标志着阿里巴巴在人工智能领域又迈出了坚实的一步。
该模型支持文本、图片、音频及音视频输入,具备细粒度带时间戳的音视频理解与Caption生成能力。这意味着用户不仅可以上传文字或图像,还能直接输入音频或视频内容,获得更加精准和全面的分析结果。
Qwen3.5-Omni在音频与音视频分析等215项任务中刷新了SOTA(State-of-the-Art)记录。在多个关键指标上,其表现甚至超越了Gemini-3.1-Pro,展现了强大的技术实力和广泛的应用潜力。
此外,该模型新增了语义打断、音色克隆、语音控制及WebSearch原生支持等功能。这些创新特性不仅提升了模型的交互体验,还进一步拓展了其在实际场景中的应用范围。
Qwen3.5-Omni能够处理长达10小时的音频或1小时的视频内容,满足用户对长时间媒体数据处理的需求。同时,它支持256K的上下文长度和113种语言,为全球用户提供更加便捷和高效的使用体验。
用户可以通过阿里云百炼平台调用Qwen3.5-Omni的API,选择适合自身需求的Plus、Flash、Light三种版本。不同版本在性能和功能上有所差异,能够灵活适应各种应用场景。
