
微新创想:阿里巴巴在AI领域持续发力,近日以“日更”方式三连发新模型,展现出强大的研发实力与战略布局。半个月前,阿里巴巴成立Alibaba Token Hub(ATH)事业群,外界的关注还集中在组织调整、人员变动与战略磨合等话题上。然而,短短一周内,阿里便在全模态、图像生成与编辑、编程Agent三大技术方向上密集推出新模型,标志着其AI业务进入了一个全新的发展阶段。
3月30日,阿里发布千问新一代全模态大模型Qwen3.5-Omni,新模型在音视频理解、识别、交互等215项任务中取得SOTA表现。该模型能够对音视频内容生成详细、可控的结构化描述,支持多达113种语言识别。基于原生的多模态理解能力,Qwen3.5-Omni还具备音视频驱动的Vibe Coding能力,用户只需对着视频提出需求,模型便可自主生成应用、网页、游戏等复杂产品代码。
两天之后,阿里又发布了图像生成与编辑统一模型Wan2.7-Image。此次更新重点解决生图“AI味”与“色彩盲盒”问题。Wan2.7-Image不仅提升了图像生成质量,还具备图像指令编辑和交互式编辑等全链路能力,实现了“千人千面”的虚拟形象捏脸功能。用户可以通过Hex Code一键提取或输入参考图的各种颜色占比,自定义配色方案,从而获得更贴近真实需求的图像输出。
4月2日,阿里千问发布了新一代大语言模型Qwen3.6-Plus。相较上一代模型,Qwen3.6全面提升了编程Coding能力、智能体Agent能力以及工具调用能力。在多项权威编程与智能体评测中,该模型表现优异,成为全球AI编程能力榜单Code Arena中排名第二的中国大模型,超越了OpenAI、Google、xAI等国际巨头。
Qwen3.6-Plus支持百万Tokens的上下文窗口,并针对OpenClaw、Qwen Code、Cline等Agent框架进行了优化。它能够自主拆解任务、执行终端操作、完成长程代码工程,真正实现可落地的代理式开发。结合百万上下文与多模态理解,千问3.6可直接依据设计稿、界面截图生成并修改代码,让“氛围编程”从概念走向实用。
这一突破不仅提升了开发效率,更将AI变成可直接调用的新型生产资料,大幅降低编程门槛。即便普通人也能通过自然语言完成复杂开发任务,为企业智能化与AI原生应用落地筑牢底层能力。
三款模型各有主攻、互不偏科,分别落在全模态、文生图、编程Agent三条关键技术线上,且均达到领先的性能水平。这说明阿里AI的根基没有因为人员流动与组织调整而动摇,通义实验室并非单点强势,而是呈现多点布局、全面开花的情况。
模型迭代的效率与稳定性,来自长期沉淀的机制、平台、数据与流程。它可以稳定产出、持续迭代,甚至在组织整合后更快发力。三连发表明ATH整合之后,阿里AI以一个真正具备长期主义能力的纯血AI玩家的身份,站稳在全球竞争的主航道中。
模型迭代的三连发后,阿里内部的反应速度同样值得关注。在三款新模型发布的窗口期,悟空、千问App等阿里AI应用和平台几乎压着哨声完成了接入。这种节奏上的合拍,业内鲜见。过去两年多,研发侧热衷于卷榜单、刷参数、精进SOTA,产品侧则在消费市场或企业市场各自寻找应用切口。模型和产品像两条并行线,彼此都在向前跑,却很难真正咬合到一起。
无需枚举,自2023年大模型全面爆发以来,市场上从来不缺“发布即王炸”的明星模型。很多“前辈”模型在发布后豪取了一段时间的声量,过不了多久便淡出公众视野。原因便在于这些顶尖的技术成果没能快速接入产品中,转化为用户可感知的体验。产品化的窗口期内,模型与产品实际上是“两张皮”。这种现象是行业中长期存在共性困境,导致创新成果在转化过程中遭受高额损耗。
ATH成立后的核心价值正在于此,它让阿里的AI产品线开始从发散走向收敛,模型能力可以在迭代后的第一时间快速进入业务场景中。我们了解到,Qwen3.6-Plus发布后,将很快接入悟空、千问App等阿里AI应用和平台;Wan2.7-Image除了在阿里云百炼、万相官网开放体验,也已明确将接入千问App;Qwen3.5-Omni则同步提供Plus、Flash、Light三种API形态,直接面向开发者和企业开放调用。

模型团队把能力往前推了一步,产品线同步跟进,把这些能力迅速翻译成用户可以接触到的体验与功能。对阿里来说,这种节奏感本身就是一种信号:模型、产品与平台之间的链路正在缩短。
以悟空平台为例,接入Qwen3.6-Plus后,其背后的龙虾军团便具备了匹配Claude4.5的智能体编程能力。这意味着智能体能够自主拆解业务需求,在终端环境中完成代码编写与修复。从模型发布到应用落地的无缝衔接,证明了ATH并非简单的组织整合。它建立了一套从AI实验室到业务前台的价值传导机制:底层能力的每一次突破,都会借由这套机制,更快变成产品、平台和开发接口的共同底层。
AI时代下,组织效率成为将AI从昂贵的实验性技术,快速转化为高效率、高确定性的通用生产力的关键要素。关乎企业能否在快速迭代的基模竞争中,最大限度把握迭代的价值窗口。近乎“零时差”接入平台不同产品线的模型,便是ATH组织效率的一个切面。
“模型即产品”,这个业内反复被提起的口号,在阿里变成了更具体的现实。全栈协同的生态复利通过观察阿里这一轮从模型到业务的迭代,我们可以看到,ATH成立后,阿里AI的战略版图愈发清晰。在模型即产品的逻辑之上,阿里更深层的意图在于构建一种全栈协同的生态复利。
如果将模型视作一个独立的单体,其天花板终究有限。而真正的AI势能,在于将模型能力降维、打碎,并重新注入到所有的业务场景中,使其成为像水电煤一样的基础设施。放眼全球,将Gemini穿透Workspace各项原子化能力与平台搜索业务的谷歌,便是生态复利的典型样本。
回看阿里,三连发的全新模型同样贯穿阿里业已铺开的业务线。尤其是作为阿里当前面向用户侧攻城略地的核心入口的千问,底层模型每往前推一步,千问及悟空等AI应用及平台层的能力就会随之往前推一步。
以全模态大模型Qwen3.5-Omni为例,它在音视频理解与实时交互等215项任务中取得了性能最佳的表现,在核心指标上已经可以与谷歌的Gemini3.1Pro一较高下。底层能力的迭代同步扩张了千问App的半径。继年初的餐食外卖、商超便利后,千问能办的事越来越多,涉及更复杂的线下供给与交互场景。
如日前千问上线的打车功能,便需要完全理解用户通过自然语言表达的用车需求,并在一次服务中调用、理解基于LBS的路线地图、车型推荐、系统预估的价格与到达时间等完整的高德服务。
千问承接的是用户侧需求,悟空承接的是企业与组织侧需求,Qoder更贴近开发者和编程场景。面向三类不同用户,背后都是同一套不断进化的底层能力。
在这种统一底座对不同场景的穿透力之上,阿里还进一步把优势推进到了成本侧。据了解,Qwen3.5-Omni在保持较强全模态能力的同时,API输入价格每百万Tokens不到0.8元,约为Gemini3.1Pro的十分之一。在算力普遍涨价,AI云服务紧俏的当下,Qwen3.5-Omni难能可贵的性价比直接将技术红利转化为市场竞争力,将阿里的竞争优势从“资源层”推向了“模型智能层”。
当模型迭代显著优化了产品体验,体验的跃升会刺激更大规模的调用需求,而调用规模的持续放大,则反过来摊薄了研发与算力成本,并进一步放大阿里云作为AI基础设施的底座价值。
而对于拥有完整AI技术栈的阿里而言,三连发模型只是一个开始。把这些原本可能彼此并行、彼此分散的环节重新组织起来,让它们相互牵引,才是ATH的价值所在。在“以智能带动算力”的飞轮带动下,阿里正在全球AI产业化的坐标系中,划出一条属于自己的确定性曲线。
