具身智能领域迎来颠覆性突破,清华大学与生数科技联合研发的Vidar模型,首次让通用视频大模型实现了从虚拟到现实的跨越。7月25日发布的这项成果,通过少样本泛化能力,成功连接了Dream World与Real World的物理执行,彻底改写了具身智能的发展规则。这一创新不仅打破了传统数据壁垒,更开创了“虚实互通”的新范式,为具身智能的规模化发展提供了关键支撑。

清华生数Vidar突破:视频大模型实现机器人物理操作插图

突破跨本体泛化困境:实现精准指令控制

清华生数Vidar突破:视频大模型实现机器人物理操作插图1

作为视频大模型Vidu在具身智能领域的重大突破,Vidar是全球首个基于通用视频大模型实现视频理解向物理决策系统性迁移的多视角具身基座模型。该模型创新性地构建了支持双臂协同任务的多视角视频预测框架,在保持SOTA性能的同时,展现出卓越的少样本学习优势。仅需20分钟机器人真机数据,即可快速泛化到全新机器人本体,所需数据量仅为行业领先RDT的八十分之一,π0.5的一千两百分之一,大幅降低了机器人大规模泛化的数据门槛。经过微调的模型能够精准执行多视角双臂任务,实现“说什么指令,做什么事情”的完美控制。

清华生数Vidar突破:视频大模型实现机器人物理操作插图2

具身数据金字塔:解决数据采集难题

清华生数Vidar突破:视频大模型实现机器人物理操作插图3

当前主流视觉-语言-动作(VLA)模型高度依赖海量多模态数据,但数据收集过程费时费力、成本高昂,且往往适配特定机器人本体。Vidar通过解构具身任务执行范式,将其划分为上游视频预测和下游动作执行两部分,构建了“海量通用视频-中等规模具身视频-少量机器人特定数据”的三级数据金字塔。视频预测部分利用海量视频数据训练的Vidu基座,结合中等规模具身视频数据继续预训练,获得少样本泛化能力;下游执行部分通过学习逆动力学模型(IDM),将视频翻译为机械臂动作,实现视觉-语言模态与动作模态的完全解耦。

清华生数Vidar突破:视频大模型实现机器人物理操作插图4

Vidar整体架构:视频扩散模型与逆动力学模型

清华生数Vidar突破:视频大模型实现机器人物理操作插图5

视频扩散模型通过“预训练+微调”实现精准控制。为提升模型泛化能力,清华大学和生数团队创新性地提出基于统一观测空间的具身预训练方法。该方法通过多视角视频拼接形成统一分辨率的“全景图”,整合本体信息、摄像头信息与任务标注,为海量互联网数据提供共同对话基础。以75万条双臂机器人操作数据对Vidu模型进行深度训练,构建了兼具动作、环境和任务先验知识的具身视频基座模型。仅需20分钟目标机器人操作数据即可完成专属微调,使Vidar在全新机器人平台上精准执行任务。

清华生数Vidar突破:视频大模型实现机器人物理操作插图6

具身预训练前后,Vidu2.0基础模型在VBench视频生成基准上显著提升主体一致性、背景一致性和图像质量,为少样本泛化提供有力支撑。团队引入测试时扩展(Test-Time Scaling),使模型能够根据实际情况选择更贴近现实的预测结果,进一步提升了实际应用中的视频预测表现。

清华生数Vidar突破:视频大模型实现机器人物理操作插图7

逆动力学模型:连接虚拟与现实的桥梁

清华生数Vidar突破:视频大模型实现机器人物理操作插图8

为突破VLA范式面临的机器人动作数据匮乏瓶颈,团队提出“任务无关动作”概念,将动作解耦出基座模型,带来三大核心优势:数据采集更便捷、跨任务泛化更轻松、无需人类监督标注。基于此,团队开发了自动化规模化收集任务无关动作数据的方法ATARA,仅需10小时无干预自动化采集即可实现全动作空间泛化。超高精度预测模型AnyPos通过Arm-Decoupled Estimation和Direction-Aware Decoder,在自动化采集的数据上训练出高精度动作预测模型,准确率远超基线51%,真实世界任务轨迹重放成功率接近100%。

清华生数Vidar突破:视频大模型实现机器人物理操作插图9

为适应不同背景,团队还提出掩码逆动力学模型架构,自动捕捉机械臂相关像素,实现跨背景高效泛化。这些创新使Vidar在16种常见机器人操作任务上取得远超基线方法的成功率,尤其在未见过任务和背景上的泛化能力表现突出。

清华生数Vidar突破:视频大模型实现机器人物理操作插图10

真机操作实验:打通虚拟-物理世界

清华生数Vidar突破:视频大模型实现机器人物理操作插图11

Vidar视频预测结果与真机执行结果对比显示,模型能够准确理解任务意图(如从红色物体中找到苹果并抓取),并精确完成双臂协作抓取等复杂任务。这一突破显著提升了机器人在多任务操作和灵活应对环境变化方面的能力,为服务机器人在居家、医院、工厂等复杂环境中的应用奠定了坚实技术基础。Vidar架起了从虚拟世界算法演练到真实环境自主行动的关键桥梁,让AI真正能够“脚踏实地”服务物理世界。

清华生数Vidar突破:视频大模型实现机器人物理操作插图12

技术溯源:从视频理解到具身执行的创新路径

Vidar(Video Diffusion for Action Reasoning)基于生数科技旗下视频大模型Vidu的创新架构,延续雷达灵敏感知的隐喻,突出其打通虚实结合的多重能力。Vidar与Vidu均致力于解决复杂时空信息的理解与生成,是全球首个采用多模态生成模型架构解决物理世界问题并达到SOTA水平的机器人大模型。这一创新不仅彰显了Vidu的强大基模能力及其架构的卓越扩展性,也将通过强化对物理世界的认知,反哺Vidu在数字世界视频创作中对物理规律的理解与生成能力。

生数科技创始人兼首席科学家朱军教授表示:“我们致力于通过多模态大模型技术推动数字世界与物理世界的深度融合与协同进化。一方面打造新一代数字内容创作引擎,另一方面通过训练具身视频基座模型实现虚拟与现实的深度交互。”团队核心成员来自清华大学计算机系TSAIL实验室,包括冯耀、谭恒楷、毛心怡等,研究方向涵盖具身智能、多模态大模型和强化学习。该项目由两位Co-Lead领导:清华大学计算机系TSAIL实验室的2023级博士生冯耀(Yao Feng)和二年级博士生谭恒楷(Hengkai Tan)。AnyPos和Vidar工作延续了团队“将动作解耦出基座模型”的思路,朝着泛化的视觉交互智能体迈出关键一步。

最新快讯

2025年11月19日

12:15
2025年11月19日,湖北顺丰在洪湖市金湾养殖基地隆重发布“洪湖清水蟹”专项物流保障方案。这一重要举措在备受瞩目的“洪湖清水”螃蟹节暨顺丰产销推介会上正式亮相,标志着双方将携手提升大闸蟹一体化供应链效率,为这一地方特色农产品注入强劲的物流动能。 作为本次合作的物流服务方,湖北顺丰将为“洪湖清水蟹”量身定制高端运输方案,通过全程温控技术和智能配送系统,确保每...
12:15
2025年11月19日,中国网络社会组织联合会正式揭晓了备受瞩目的“中国新电商发展创新案例”名单,旨在表彰过去一年中涌现出的优秀电商实践。在这份彰显行业创新力量的权威榜单中,遥望科技凭借其卓越表现脱颖而出,申报的“直播电商出海探索”与“新白系列演唱会——经典IP焕发新生”两大项目双双入选,成为行业标杆。 此次入选不仅是对遥望科技在跨境电商领域深耕细作的肯...
12:15
2025年11月18日,群联电子在备受瞩目的SC25大会上重磅发布了两款企业级PCIe 5.0固态硬盘——Pascari X201与D201,同时正式推出创新的aiDAPTIV+显存扩充AI加速解决方案。这一系列发布不仅彰显了群联电子在存储技术领域的领先地位,更标志着AI加速技术迈入全新发展阶段。 Pascari X201作为旗舰产品,最大容量高达30.72...
12:15
2025年11月12日,优必选公司震撼发布Walker S2人形机器人量产交付的震撼视频,通过逼真的画面展示了机器人方阵高效换电与整齐列队行进的场景,引发行业广泛关注。然而,这一展示迅速引发了争议,Figure公司CEO Brett Adcock公开质疑视频存在特效造假成分,直指"视频后半段完全是虚构的"。面对这一尖锐指控,优必选公司迅速作出回应,强调指控纯...
12:15
2025年11月19日,一场聚焦中澳经贸合作的盛会在澳大利亚墨尔本展览中心隆重举行。由江苏省商务厅主办、焦点科技等多家机构联合承办的“江苏优品行全球”澳洲供采对接会,不仅是中国制造网“新航海计划”首次在澳大利亚落地生根,更开创性地引入了轻工品类海外直采大会模式,为江苏优质产品打开澳洲市场的大门。 活动现场,来自江苏的50余家重点外经贸企业携旗下家居、电子...
12:15
2025年11月18日,汽车行业迎来一项突破性进展。据权威汽车媒体AutoBlog独家报道,莲花(Lotus)旗下纯电超跑Emeya在最新独立测试中,以惊人的表现刷新了全球电动汽车充电速度纪录。Emeya借助450kW直流超快充桩,实现了从10%电量到80%的极速充电,全程仅需13分35秒,峰值功率更是高达443kW,这一成就标志着电动汽车充电技术迈入了全新...
12:15
2025年11月19日凌晨,北京时间,科技巨头谷歌震撼发布其迄今最强大的AI模型——Gemini 3.0,凭借卓越性能再次引领人工智能领域的发展浪潮。在权威评测机构LMArena最新榜单中,Gemini 3 Pro以压倒性优势位列榜首,标志着谷歌在AI技术竞赛中取得重大突破。该旗舰模型在多项关键测试中表现惊艳,不仅全面超越Grok-4.1、Claude-4....
12:15
2025年11月19日,许昌市胖东来商贸集团有限公司迎来重要的人事调整,引发业界广泛关注。根据最新工商登记信息显示,东来先生已不再兼任公司总经理一职,但继续担任董事长及经理职务,展现出对企业的深厚承诺与长远布局。此次变动不仅涉及高层管理岗位的调整,更体现了公司治理结构的优化升级。 此次人事调整阵容强大,多位高管职位发生变动。常玉庆、王利增等五位董事的退出,为...
12:15
2025年11月18日,备受瞩目的娃哈哈集团年度销售会议隆重召开,标志着这家国民饮料巨头在新的发展阶段迈出重要一步。值得注意的是,总经理许思敏首次以全新身份公开亮相并发表重要讲话,而创始人宗馥莉并未出席此次会议。在发言中,许思敏展现出对娃哈哈未来发展的坚定信心,他强调尽管当前市场环境复杂多变,行业竞争日趋激烈,但娃哈哈依然凭借卓越的经营策略和品牌优势,实现了...
12:15
2025年11月18日,昆明长水国际机场迎来历史性时刻,正式开通了往返土耳其伊斯坦布尔的全货机定期国际货运航线。这一重要举措不仅标志着昆明机场在航空货运领域的重大突破,更开启了中土两国物流合作的新篇章。作为昆明首条直达伊斯坦布尔的全货机航线,该航线凭借其超长航程和超大型货机配置,刷新了国内货运航线的多项纪录,单机载量更是达到了行业领先水平。这一新航线的开通,...
12:15
2025年11月19日,连连数字在香港正式宣告成立境外总部,这一重要举措标志着其全球化战略布局迈入全新深度与广度。作为继2025年10月荣膺香港特区政府重点企业伙伴后的又一关键部署,这一战略升级充分彰显了连连数字加速国际化的决心与实力。 作为数字支付领域的创新先锋,连连数字选择香港作为境外总部的战略支点,不仅依托其作为国际金融中心的独特优势,更旨在构建一个全...
12:00
爱诗科技创始人兼CEO王长虎曾在2025年6月的演讲中明确表示,公司之所以在2023年就坚定投入AI视频生成领域,是因为坚信其产品化和商业化的潜力可能不亚于大语言模型。这一选择在当时属于非共识赛道,但短短两年后,AI视频生成迅速落地,形成了完整的创作生态和商业价值,逐渐成为行业共识。如今,AI视频已深度融入普通人的日常生活,其应用场景不断拓展,潜力持续释放。...