具身智能领域迎来颠覆性突破,清华大学与生数科技联合研发的Vidar模型,首次让通用视频大模型实现了从虚拟到现实的跨越。7月25日发布的这项成果,通过少样本泛化能力,成功连接了Dream World与Real World的物理执行,彻底改写了具身智能的发展规则。这一创新不仅打破了传统数据壁垒,更开创了“虚实互通”的新范式,为具身智能的规模化发展提供了关键支撑。

清华生数Vidar突破:视频大模型实现机器人物理操作插图

突破跨本体泛化困境:实现精准指令控制

清华生数Vidar突破:视频大模型实现机器人物理操作插图1

作为视频大模型Vidu在具身智能领域的重大突破,Vidar是全球首个基于通用视频大模型实现视频理解向物理决策系统性迁移的多视角具身基座模型。该模型创新性地构建了支持双臂协同任务的多视角视频预测框架,在保持SOTA性能的同时,展现出卓越的少样本学习优势。仅需20分钟机器人真机数据,即可快速泛化到全新机器人本体,所需数据量仅为行业领先RDT的八十分之一,π0.5的一千两百分之一,大幅降低了机器人大规模泛化的数据门槛。经过微调的模型能够精准执行多视角双臂任务,实现“说什么指令,做什么事情”的完美控制。

清华生数Vidar突破:视频大模型实现机器人物理操作插图2

具身数据金字塔:解决数据采集难题

清华生数Vidar突破:视频大模型实现机器人物理操作插图3

当前主流视觉-语言-动作(VLA)模型高度依赖海量多模态数据,但数据收集过程费时费力、成本高昂,且往往适配特定机器人本体。Vidar通过解构具身任务执行范式,将其划分为上游视频预测和下游动作执行两部分,构建了“海量通用视频-中等规模具身视频-少量机器人特定数据”的三级数据金字塔。视频预测部分利用海量视频数据训练的Vidu基座,结合中等规模具身视频数据继续预训练,获得少样本泛化能力;下游执行部分通过学习逆动力学模型(IDM),将视频翻译为机械臂动作,实现视觉-语言模态与动作模态的完全解耦。

清华生数Vidar突破:视频大模型实现机器人物理操作插图4

Vidar整体架构:视频扩散模型与逆动力学模型

清华生数Vidar突破:视频大模型实现机器人物理操作插图5

视频扩散模型通过“预训练+微调”实现精准控制。为提升模型泛化能力,清华大学和生数团队创新性地提出基于统一观测空间的具身预训练方法。该方法通过多视角视频拼接形成统一分辨率的“全景图”,整合本体信息、摄像头信息与任务标注,为海量互联网数据提供共同对话基础。以75万条双臂机器人操作数据对Vidu模型进行深度训练,构建了兼具动作、环境和任务先验知识的具身视频基座模型。仅需20分钟目标机器人操作数据即可完成专属微调,使Vidar在全新机器人平台上精准执行任务。

清华生数Vidar突破:视频大模型实现机器人物理操作插图6

具身预训练前后,Vidu2.0基础模型在VBench视频生成基准上显著提升主体一致性、背景一致性和图像质量,为少样本泛化提供有力支撑。团队引入测试时扩展(Test-Time Scaling),使模型能够根据实际情况选择更贴近现实的预测结果,进一步提升了实际应用中的视频预测表现。

清华生数Vidar突破:视频大模型实现机器人物理操作插图7

逆动力学模型:连接虚拟与现实的桥梁

清华生数Vidar突破:视频大模型实现机器人物理操作插图8

为突破VLA范式面临的机器人动作数据匮乏瓶颈,团队提出“任务无关动作”概念,将动作解耦出基座模型,带来三大核心优势:数据采集更便捷、跨任务泛化更轻松、无需人类监督标注。基于此,团队开发了自动化规模化收集任务无关动作数据的方法ATARA,仅需10小时无干预自动化采集即可实现全动作空间泛化。超高精度预测模型AnyPos通过Arm-Decoupled Estimation和Direction-Aware Decoder,在自动化采集的数据上训练出高精度动作预测模型,准确率远超基线51%,真实世界任务轨迹重放成功率接近100%。

清华生数Vidar突破:视频大模型实现机器人物理操作插图9

为适应不同背景,团队还提出掩码逆动力学模型架构,自动捕捉机械臂相关像素,实现跨背景高效泛化。这些创新使Vidar在16种常见机器人操作任务上取得远超基线方法的成功率,尤其在未见过任务和背景上的泛化能力表现突出。

清华生数Vidar突破:视频大模型实现机器人物理操作插图10

真机操作实验:打通虚拟-物理世界

清华生数Vidar突破:视频大模型实现机器人物理操作插图11

Vidar视频预测结果与真机执行结果对比显示,模型能够准确理解任务意图(如从红色物体中找到苹果并抓取),并精确完成双臂协作抓取等复杂任务。这一突破显著提升了机器人在多任务操作和灵活应对环境变化方面的能力,为服务机器人在居家、医院、工厂等复杂环境中的应用奠定了坚实技术基础。Vidar架起了从虚拟世界算法演练到真实环境自主行动的关键桥梁,让AI真正能够“脚踏实地”服务物理世界。

清华生数Vidar突破:视频大模型实现机器人物理操作插图12

技术溯源:从视频理解到具身执行的创新路径

Vidar(Video Diffusion for Action Reasoning)基于生数科技旗下视频大模型Vidu的创新架构,延续雷达灵敏感知的隐喻,突出其打通虚实结合的多重能力。Vidar与Vidu均致力于解决复杂时空信息的理解与生成,是全球首个采用多模态生成模型架构解决物理世界问题并达到SOTA水平的机器人大模型。这一创新不仅彰显了Vidu的强大基模能力及其架构的卓越扩展性,也将通过强化对物理世界的认知,反哺Vidu在数字世界视频创作中对物理规律的理解与生成能力。

生数科技创始人兼首席科学家朱军教授表示:“我们致力于通过多模态大模型技术推动数字世界与物理世界的深度融合与协同进化。一方面打造新一代数字内容创作引擎,另一方面通过训练具身视频基座模型实现虚拟与现实的深度交互。”团队核心成员来自清华大学计算机系TSAIL实验室,包括冯耀、谭恒楷、毛心怡等,研究方向涵盖具身智能、多模态大模型和强化学习。该项目由两位Co-Lead领导:清华大学计算机系TSAIL实验室的2023级博士生冯耀(Yao Feng)和二年级博士生谭恒楷(Hengkai Tan)。AnyPos和Vidar工作延续了团队“将动作解耦出基座模型”的思路,朝着泛化的视觉交互智能体迈出关键一步。

最新快讯

2025年07月26日

18:07
2025年7月26日,备受瞩目的2025世界人工智能大会(WAIC 2025)在上海盛大开幕。在此次盛会的重要环节中,上汽智己汽车与上汽友道智途双双斩获上海市新一批智能网联汽车示范运营牌照,这一成就标志着上汽集团在智能网联汽车领域的领先地位再获权威认证。作为行业内首个同时覆盖乘用车与商用车领域的“双牌照”获得者,上汽集团正式迈入智能网联汽车示范运营的新纪元,...
18:07
2025年7月26日,在备受瞩目的世界人工智能大会气象专题论坛上,国家卫星气象中心携手南昌大学与华为公司共同宣布,成功研发并推出了全球首款空间天气链式人工智能预报模型——"风宇"。这一创新模型专为应对太阳风暴对卫星运行、通信导航等关键基础设施的潜在威胁而设计,通过突破传统数值模型在算力与响应速度方面的瓶颈,实现了革命性跨越。作为国际首创的覆盖太阳风、磁层、电...
18:07
近日,宏利基金因违反外汇登记管理规定,被国家外汇管理局北京市分局处以警告并罚款7万元。这一事件引发了业界的广泛关注。据了解,该违规行为发生于五年前,当时宏利基金尚未完成从合资基金到外商独资基金的战略转型。目前,公司已针对相关问题进行了全面整改,并已妥善解决相关事宜,确保合规运营。 作为一家成立于2002年的知名基金管理公司,宏利基金在业内享有较高声誉。截至最...
18:07
2025年7月25日,山西省政府传来重磅消息,宣布将居家适老化改造产品正式纳入消费品以旧换新政策体系,为老年人打造更安全舒适的居住环境提供强力支持。根据新政策规定,个人消费者在购买目录内指定适老化产品时,可享受实际售价30%的补贴优惠,且每人累计最高补贴额度可达18000元。此次政策创新性地采用全省统一的“支付立减”模式,消费者只需在指定销售主体通过线下门店...
17:36
7月24日,韩国知名零食品牌好丽友突然宣布实施大规模召回,涉及两款广受欢迎的鱼形派产品。此次召回事件的原因竟是包装密封不严,导致产品出现发霉问题。据官方公布的数据,被召回产品的总价值高达15亿韩元,引发广泛关注。 此次召回事件背后的原因颇为复杂。好丽友方面表示,主要问题出在部分包装设备存在缺陷,同时叠加今年夏季韩国持续的高温高湿天气,进一步加剧了产品霉变的可...
17:36
加州公用事业委员会近日作出重要决定,正式叫停特斯拉在湾区地区的自动驾驶出租车服务。该委员会在25日发布的官方声明中明确指出,特斯拉尚未提交并获批必要的运营许可证,因此无法在加州开展自动驾驶载客业务。值得注意的是,这一决定不仅针对配备人类驾驶员的自动驾驶车辆,即便是完全无人驾驶的车型也未能获得许可。 委员会强调,特斯拉目前仅被允许以传统出租车模式运营,这意味着...
17:36
7月19日,备受瞩目的雅鲁藏布江下游水电工程在西藏林芝市正式破土动工,标志着我国清洁能源开发迈入新阶段。该项目采用创新的截弯取直与隧洞引水技术,规划建设5座梯级水电站,总投资规模高达1.2万亿元人民币,将成为西藏乃至西南地区重要的能源基地。作为以电力外送为主导、兼顾西藏本地用电需求的大型工程,雅鲁藏布江水电项目的实施将产生深远的经济影响,对基建、能源、材料等...
17:36
近日,佛山市顺德区卫生健康局发布最新疫情防控通报,显示2025年7月25日全区新增基孔肯雅热确诊病例273例,病例主要集中分布在乐从镇、北滘镇及陈村镇等区域。值得注意的是,所有确诊病例均为轻症,目前病情均稳定,患者正在接受规范治疗。 据官方通报,此次疫情呈现局部聚集性特征,相关防控工作已全面启动。卫生部门正密切监测病例动态,对重点区域开展环境消杀,并加强医疗...
16:51
微新创想7月26日重磅消息,小米集团总裁卢伟冰在昨晚的一次预热直播中,正式引爆了业界期待已久的重磅机型——小米16 Ultra。他豪言此款手机将重新定义移动影像的巅峰标准,预示着一场影像技术的革命即将到来。 据数码闲聊站最新爆料,小米16 Ultra的发布时间将大幅提前,有望在春节前与消费者见面。这一消息无疑打破了过往小米旗舰机型春节后发布的惯例,显示出小米...
16:51
7月25日,备受瞩目的2025世界人工智能大会在上海盛大召开。在此次盛会期间,上海市正式发布新一批智能网联汽车示范运营牌照,为自动驾驶技术的商业化落地注入强劲动力。文远知行WeRide携手奇瑞汽车与锦江出租,凭借其卓越的技术实力与丰富的运营经验,成功获得浦东新区主驾无人公开道路载人自动驾驶示范应用牌照。这一重要里程碑不仅标志着文远知行Robotaxi正式进驻...
16:51
2025年7月26日,印度商工部长Piyush Goyal正式宣布,该国正与东南亚国家联盟(东盟)就现有贸易协定展开新一轮谈判。此次重谈的核心目标在于全面提升双边经贸合作的质量与效率,并对相关贸易规则进行系统性优化。据悉,谈判团队将重点聚焦于关税减免、市场准入放宽等关键议题,力求在协议条款上实现更趋平衡的互惠安排。这一举措不仅有望进一步释放区域经济合作的潜力...
16:51
在备受瞩目的2025世界人工智能大会上,智元机器人自主研发的“启元通用具身大模型”凭借卓越表现斩获SAIL之星奖这一行业殊荣。该奖项于7月26日在上海隆重揭晓,旨在表彰人工智能领域最具创新力和应用价值的顶尖项目。启元大模型在技术创新层面展现出突破性进展,在产业应用方面展现出广泛前景,同时依托强大的数据驱动能力,最终从众多参赛项目中脱颖而出,赢得业界高度认可。...