
12月4日,北京智源人工智能研究院震撼发布新一代多模态大模型Emu3.5,这一突破性成果被业界誉为“真正理解物理世界的AI”。与以往图像、视频、文本模型各自为战的局限不同,Emu3.5开创性地实现了“世界级统一建模”,标志着AI从“会画画、会写文”的表面能力进化到真正“懂世界”的深度认知阶段。
传统AI的致命短板:缺失物理与因果认知
过去绝大多数图像生成模型虽然能创造出逼真的画面,却严重缺乏对真实世界规律的理解。物体不会无故飞起,重力、碰撞、运动轨迹等基本物理法则对它们而言完全是“黑箱”。即使是顶级视频生成模型,也常出现动作突变、逻辑断裂的尴尬现象。根本原因在于,这些模型仅学习“表面的像素”,而非“世界的运行规则”。Emu3.5的核心突破:预测“世界下一秒”
Emu3.5彻底颠覆了这一局面。研究团队将图像、文本、视频全部统一编码为同一种Token序列,模型专注于学习一个最纯粹的任务——NSP(Next State Prediction,预测下一个世界状态)。具体而言:
– 无论输入是图片、文字还是视频帧,在Emu3.5看来都是“世界当前状态”的不同表达方式;
– 模型的任务始终如一:预测“世界下一秒会变成什么样”;
– 下一秒可能是文字→自动续写对白;
– 下一秒可能是画面→自动生成合理动作;
– 下一秒可能同时包含视觉+语言变化→推演完整的世界演化。
统一Token化:图像、文字、视频彻底打通
Emu3.5最大的技术亮点在于将所有模态统一为同一套“世界积木”。模型不再区分“这是一张图”还是“一句话”还是“视频的一帧”,所有信息都被离散化为Token序列。通过海量数据训练,模型学会了跨模态的因果关系和物理常识,真正具备了“世界级理解力”。

从“像素搬运工”到“世界模拟器”
业内专家评价:Emu3.5是多模态大模型从“生成时代”迈向“世界模型时代”的里程碑。未来基于Emu3.5,不仅能生成更自然的长视频、交互式图像编辑,还可能直接用于机器人具身智能、自动驾驶仿真、物理世界预测等高阶场景。
AIbase独家点评
当所有大厂还在卷参数、卷分辨率、卷视频时长时,北京智源直接把问题本质拉回到“AI到底有没有理解世界”。Emu3.5用最简洁的“预测下一个Token”统一了所有模态,却实现了最深刻的能力跃迁:从画得像,到变得对。这一次,中国团队再次用原创范式引领了全球AI新方向。真正的世界模型,已然到来。
你准备好迎接“可预测的下一秒”了吗?
官网地址:https://zh.emu.world/pages/web/landingPage
体验地址:https://zh.emu.world/pages/web/login
