具身智能领域迎来颠覆性突破,清华大学与生数科技联合研发的Vidar模型,首次让通用视频大模型实现了从虚拟到现实的跨越。7月25日发布的这项成果,通过少样本泛化能力,成功连接了Dream World与Real World的物理执行,彻底改写了具身智能的发展规则。这一创新不仅打破了传统数据壁垒,更开创了“虚实互通”的新范式,为具身智能的规模化发展提供了关键支撑。

清华生数Vidar突破:视频大模型实现机器人物理操作插图

突破跨本体泛化困境:实现精准指令控制

清华生数Vidar突破:视频大模型实现机器人物理操作插图1

作为视频大模型Vidu在具身智能领域的重大突破,Vidar是全球首个基于通用视频大模型实现视频理解向物理决策系统性迁移的多视角具身基座模型。该模型创新性地构建了支持双臂协同任务的多视角视频预测框架,在保持SOTA性能的同时,展现出卓越的少样本学习优势。仅需20分钟机器人真机数据,即可快速泛化到全新机器人本体,所需数据量仅为行业领先RDT的八十分之一,π0.5的一千两百分之一,大幅降低了机器人大规模泛化的数据门槛。经过微调的模型能够精准执行多视角双臂任务,实现“说什么指令,做什么事情”的完美控制。

清华生数Vidar突破:视频大模型实现机器人物理操作插图2

具身数据金字塔:解决数据采集难题

清华生数Vidar突破:视频大模型实现机器人物理操作插图3

当前主流视觉-语言-动作(VLA)模型高度依赖海量多模态数据,但数据收集过程费时费力、成本高昂,且往往适配特定机器人本体。Vidar通过解构具身任务执行范式,将其划分为上游视频预测和下游动作执行两部分,构建了“海量通用视频-中等规模具身视频-少量机器人特定数据”的三级数据金字塔。视频预测部分利用海量视频数据训练的Vidu基座,结合中等规模具身视频数据继续预训练,获得少样本泛化能力;下游执行部分通过学习逆动力学模型(IDM),将视频翻译为机械臂动作,实现视觉-语言模态与动作模态的完全解耦。

清华生数Vidar突破:视频大模型实现机器人物理操作插图4

Vidar整体架构:视频扩散模型与逆动力学模型

清华生数Vidar突破:视频大模型实现机器人物理操作插图5

视频扩散模型通过“预训练+微调”实现精准控制。为提升模型泛化能力,清华大学和生数团队创新性地提出基于统一观测空间的具身预训练方法。该方法通过多视角视频拼接形成统一分辨率的“全景图”,整合本体信息、摄像头信息与任务标注,为海量互联网数据提供共同对话基础。以75万条双臂机器人操作数据对Vidu模型进行深度训练,构建了兼具动作、环境和任务先验知识的具身视频基座模型。仅需20分钟目标机器人操作数据即可完成专属微调,使Vidar在全新机器人平台上精准执行任务。

清华生数Vidar突破:视频大模型实现机器人物理操作插图6

具身预训练前后,Vidu2.0基础模型在VBench视频生成基准上显著提升主体一致性、背景一致性和图像质量,为少样本泛化提供有力支撑。团队引入测试时扩展(Test-Time Scaling),使模型能够根据实际情况选择更贴近现实的预测结果,进一步提升了实际应用中的视频预测表现。

清华生数Vidar突破:视频大模型实现机器人物理操作插图7

逆动力学模型:连接虚拟与现实的桥梁

清华生数Vidar突破:视频大模型实现机器人物理操作插图8

为突破VLA范式面临的机器人动作数据匮乏瓶颈,团队提出“任务无关动作”概念,将动作解耦出基座模型,带来三大核心优势:数据采集更便捷、跨任务泛化更轻松、无需人类监督标注。基于此,团队开发了自动化规模化收集任务无关动作数据的方法ATARA,仅需10小时无干预自动化采集即可实现全动作空间泛化。超高精度预测模型AnyPos通过Arm-Decoupled Estimation和Direction-Aware Decoder,在自动化采集的数据上训练出高精度动作预测模型,准确率远超基线51%,真实世界任务轨迹重放成功率接近100%。

清华生数Vidar突破:视频大模型实现机器人物理操作插图9

为适应不同背景,团队还提出掩码逆动力学模型架构,自动捕捉机械臂相关像素,实现跨背景高效泛化。这些创新使Vidar在16种常见机器人操作任务上取得远超基线方法的成功率,尤其在未见过任务和背景上的泛化能力表现突出。

清华生数Vidar突破:视频大模型实现机器人物理操作插图10

真机操作实验:打通虚拟-物理世界

清华生数Vidar突破:视频大模型实现机器人物理操作插图11

Vidar视频预测结果与真机执行结果对比显示,模型能够准确理解任务意图(如从红色物体中找到苹果并抓取),并精确完成双臂协作抓取等复杂任务。这一突破显著提升了机器人在多任务操作和灵活应对环境变化方面的能力,为服务机器人在居家、医院、工厂等复杂环境中的应用奠定了坚实技术基础。Vidar架起了从虚拟世界算法演练到真实环境自主行动的关键桥梁,让AI真正能够“脚踏实地”服务物理世界。

清华生数Vidar突破:视频大模型实现机器人物理操作插图12

技术溯源:从视频理解到具身执行的创新路径

Vidar(Video Diffusion for Action Reasoning)基于生数科技旗下视频大模型Vidu的创新架构,延续雷达灵敏感知的隐喻,突出其打通虚实结合的多重能力。Vidar与Vidu均致力于解决复杂时空信息的理解与生成,是全球首个采用多模态生成模型架构解决物理世界问题并达到SOTA水平的机器人大模型。这一创新不仅彰显了Vidu的强大基模能力及其架构的卓越扩展性,也将通过强化对物理世界的认知,反哺Vidu在数字世界视频创作中对物理规律的理解与生成能力。

生数科技创始人兼首席科学家朱军教授表示:“我们致力于通过多模态大模型技术推动数字世界与物理世界的深度融合与协同进化。一方面打造新一代数字内容创作引擎,另一方面通过训练具身视频基座模型实现虚拟与现实的深度交互。”团队核心成员来自清华大学计算机系TSAIL实验室,包括冯耀、谭恒楷、毛心怡等,研究方向涵盖具身智能、多模态大模型和强化学习。该项目由两位Co-Lead领导:清华大学计算机系TSAIL实验室的2023级博士生冯耀(Yao Feng)和二年级博士生谭恒楷(Hengkai Tan)。AnyPos和Vidar工作延续了团队“将动作解耦出基座模型”的思路,朝着泛化的视觉交互智能体迈出关键一步。

最新快讯

2026年02月15日

06:12
微新创想:2026年2月15日 三星向Galaxy Watch8 Classic推送L5050ZCU3AZB5等版本固件更新 本次升级优化设备性能并增强安全防护 更新后 用户可通过应用市场安装独立微信手表版App(v1.0.6) 支持消息接收 快捷回复 微信付款等功能 登录时需手机端确认授权 成功后手机微信顶部将提示“手表微信已登录” 该手表版微信自2022...
00:33
微新创想:2026年2月14日,《南京市网络预约出租汽车管理办法》正式施行。新规放宽车辆准入,将车龄要求由‘初次注册登记’调整为‘距初次注册登记不超过2年’,允许符合条件的二手车进入市场。这一调整为更多车辆提供了参与网约车运营的机会,有助于扩大行业覆盖面。 同时取消驾驶员须具本市户籍或居住证的限制。此举打破了以往对驾驶员身份的地域性约束,为更多有驾驶技能但户...

2026年02月14日

23:26
微新创想:2026年2月13日,日本确善能公司正式以福伦达品牌推出SEPTON 40mm f/2 Aspherical全画幅手动镜头。这款镜头不仅标志着确善能在镜头设计上的新突破,也展现了福伦达品牌在光学领域的深厚积累。 该镜头适配索尼E卡口与尼康Z卡口,为摄影师提供了更广泛的设备兼容性。其售价为93500日元,约合4226元人民币,定价合理,兼顾了品质与性...
23:26
微新创想:2026年2月14日 法国巴黎检察官办公室对雀巢、达能、拉克塔利斯等五家婴配奶粉企业启动刑事调查 此次调查主要针对企业涉嫌分销可能受污染的产品。相关企业被指控违反消费者权益保护法规,以危害人类健康的商品进行欺骗 案件由法国公共卫生部门主导展开。调查重点包括企业是否遵守了相关安全规范 是否在发现问题后及时召回产品 以及是否存在因失职而导致婴儿生命受到...
23:26
微新创想:2026年2月14日,云南咖啡豆进入采摘高峰期。这一时期不仅标志着咖啡种植业的繁忙阶段,也预示着新一季咖啡产品的集中供应。本产季出现价格倒挂现象,即国内收购价高于出口价格。这一现象在业内引起了广泛关注,反映出国内咖啡市场正在经历结构性变化。 价格倒挂促使多家企业将经营重心转向内需市场。随着国内消费者对咖啡产品的需求不断增长,企业开始更加重视国内市场...
23:26
微新创想:微软近日宣布,自2026年4月起,将全面关闭Xbox One与Xbox Series X|S平台上的玩家自建“社交俱乐部”功能。这一功能曾是玩家围绕共同兴趣建立社群的重要工具,支持聊天、组队、分享内容等多种互动方式。随着该功能的关闭,用户将需要依赖其他平台或内置功能来维持社交联系。 微新创想:此次调整意味着玩家将无法再通过Xbox平台自行创建和管理...
23:26
微新创想:2026年2月12日,摩尔线程成功在MTT S5000 GPU上完成MiniMax M2.5大模型的Day-0极速适配,实现高性能推理。这一突破标志着摩尔线程在AI计算领域迈出了坚实的一步。 该GPU基于自研MUSA架构,具备强大的计算能力和高效的能效比。其支持原生FP8加速技术,能够在保证精度的同时显著提升运算速度,为大模型的推理任务提供了坚实的...
23:26
微新创想:2026年2月13日,日本成人用品制造商Tenga确认发生数据泄露事件。黑客通过入侵员工工作邮箱,非法获取客户姓名、电子邮件地址及邮件往来记录(含订单与咨询内容),并以此向通讯录联系人发送垃圾邮件。 事件未涉及密码等敏感凭证泄露,但Tenga已重置涉事账户、全系统启用多重验证(MFA),并建议用户更改密码、警惕钓鱼邮件。公司未披露受影响客户数量,其...
23:26
微新创想:育碧确认终止六款游戏开发 2月13日育碧官方宣布将终止六款游戏的开发工作。其中包括已经公布的《波斯王子:时之沙重制版》以及多个未公开项目如Project Ether、Project Pathfinder、Project Crest。此外还有移动端新作《刺客信条:奇点》和《刺客信条:叛乱》也被取消。这一决定是育碧公司整体战略调整的一部分。 部分被取消...
22:48
微新创想:2026年2月13日 巴西反垄断监管机构CADE启动对微软的正式调查 CADE指控微软通过‘Jumpstart’计划间接迫使戴尔、惠普等10家OEM厂商在Windows PC上独家预装Edge浏览器 调查内容主要集中在2020至2025年间的相关销量数据 合同条款以及是否存在惩罚性约束 CADE要求相关厂商与微软提交合作细节 重点核查‘不遵守即罚款...
22:07
微新创想:Unihertz公司宣布全键盘手机Titan 2 Elite将在2026年3月2日至5日于西班牙巴塞罗那的MWC展会正式发布 此次发布标志着Unihertz在全键盘手机领域持续深耕的又一重要节点。Titan 2 Elite延续了前代Titan 2的设计语言,整体造型保持了矮胖机身的特色,同时在细节上进行了优化与升级 该机采用圆角挖孔屏设计,兼顾了屏...
22:07
微新创想:2026年2月14日,LG在海外市场正式推出Xboom Buds Lite与Buds Plus两款TWS耳机。这两款新品在音质表现上有着显著提升,特别强调了低频的强劲输出,满足了用户对沉浸式音乐体验的需求。 新品由知名音乐人will.i.am亲自调音,确保了音质的专业性和独特性。Xboom Buds Lite与Buds Plus均采用了10mm石墨...