具身智能领域迎来颠覆性突破,清华大学与生数科技联合研发的Vidar模型,首次让通用视频大模型实现了从虚拟到现实的跨越。7月25日发布的这项成果,通过少样本泛化能力,成功连接了Dream World与Real World的物理执行,彻底改写了具身智能的发展规则。这一创新不仅打破了传统数据壁垒,更开创了“虚实互通”的新范式,为具身智能的规模化发展提供了关键支撑。

清华生数Vidar突破:视频大模型实现机器人物理操作插图

突破跨本体泛化困境:实现精准指令控制

清华生数Vidar突破:视频大模型实现机器人物理操作插图1

作为视频大模型Vidu在具身智能领域的重大突破,Vidar是全球首个基于通用视频大模型实现视频理解向物理决策系统性迁移的多视角具身基座模型。该模型创新性地构建了支持双臂协同任务的多视角视频预测框架,在保持SOTA性能的同时,展现出卓越的少样本学习优势。仅需20分钟机器人真机数据,即可快速泛化到全新机器人本体,所需数据量仅为行业领先RDT的八十分之一,π0.5的一千两百分之一,大幅降低了机器人大规模泛化的数据门槛。经过微调的模型能够精准执行多视角双臂任务,实现“说什么指令,做什么事情”的完美控制。

清华生数Vidar突破:视频大模型实现机器人物理操作插图2

具身数据金字塔:解决数据采集难题

清华生数Vidar突破:视频大模型实现机器人物理操作插图3

当前主流视觉-语言-动作(VLA)模型高度依赖海量多模态数据,但数据收集过程费时费力、成本高昂,且往往适配特定机器人本体。Vidar通过解构具身任务执行范式,将其划分为上游视频预测和下游动作执行两部分,构建了“海量通用视频-中等规模具身视频-少量机器人特定数据”的三级数据金字塔。视频预测部分利用海量视频数据训练的Vidu基座,结合中等规模具身视频数据继续预训练,获得少样本泛化能力;下游执行部分通过学习逆动力学模型(IDM),将视频翻译为机械臂动作,实现视觉-语言模态与动作模态的完全解耦。

清华生数Vidar突破:视频大模型实现机器人物理操作插图4

Vidar整体架构:视频扩散模型与逆动力学模型

清华生数Vidar突破:视频大模型实现机器人物理操作插图5

视频扩散模型通过“预训练+微调”实现精准控制。为提升模型泛化能力,清华大学和生数团队创新性地提出基于统一观测空间的具身预训练方法。该方法通过多视角视频拼接形成统一分辨率的“全景图”,整合本体信息、摄像头信息与任务标注,为海量互联网数据提供共同对话基础。以75万条双臂机器人操作数据对Vidu模型进行深度训练,构建了兼具动作、环境和任务先验知识的具身视频基座模型。仅需20分钟目标机器人操作数据即可完成专属微调,使Vidar在全新机器人平台上精准执行任务。

清华生数Vidar突破:视频大模型实现机器人物理操作插图6

具身预训练前后,Vidu2.0基础模型在VBench视频生成基准上显著提升主体一致性、背景一致性和图像质量,为少样本泛化提供有力支撑。团队引入测试时扩展(Test-Time Scaling),使模型能够根据实际情况选择更贴近现实的预测结果,进一步提升了实际应用中的视频预测表现。

清华生数Vidar突破:视频大模型实现机器人物理操作插图7

逆动力学模型:连接虚拟与现实的桥梁

清华生数Vidar突破:视频大模型实现机器人物理操作插图8

为突破VLA范式面临的机器人动作数据匮乏瓶颈,团队提出“任务无关动作”概念,将动作解耦出基座模型,带来三大核心优势:数据采集更便捷、跨任务泛化更轻松、无需人类监督标注。基于此,团队开发了自动化规模化收集任务无关动作数据的方法ATARA,仅需10小时无干预自动化采集即可实现全动作空间泛化。超高精度预测模型AnyPos通过Arm-Decoupled Estimation和Direction-Aware Decoder,在自动化采集的数据上训练出高精度动作预测模型,准确率远超基线51%,真实世界任务轨迹重放成功率接近100%。

清华生数Vidar突破:视频大模型实现机器人物理操作插图9

为适应不同背景,团队还提出掩码逆动力学模型架构,自动捕捉机械臂相关像素,实现跨背景高效泛化。这些创新使Vidar在16种常见机器人操作任务上取得远超基线方法的成功率,尤其在未见过任务和背景上的泛化能力表现突出。

清华生数Vidar突破:视频大模型实现机器人物理操作插图10

真机操作实验:打通虚拟-物理世界

清华生数Vidar突破:视频大模型实现机器人物理操作插图11

Vidar视频预测结果与真机执行结果对比显示,模型能够准确理解任务意图(如从红色物体中找到苹果并抓取),并精确完成双臂协作抓取等复杂任务。这一突破显著提升了机器人在多任务操作和灵活应对环境变化方面的能力,为服务机器人在居家、医院、工厂等复杂环境中的应用奠定了坚实技术基础。Vidar架起了从虚拟世界算法演练到真实环境自主行动的关键桥梁,让AI真正能够“脚踏实地”服务物理世界。

清华生数Vidar突破:视频大模型实现机器人物理操作插图12

技术溯源:从视频理解到具身执行的创新路径

Vidar(Video Diffusion for Action Reasoning)基于生数科技旗下视频大模型Vidu的创新架构,延续雷达灵敏感知的隐喻,突出其打通虚实结合的多重能力。Vidar与Vidu均致力于解决复杂时空信息的理解与生成,是全球首个采用多模态生成模型架构解决物理世界问题并达到SOTA水平的机器人大模型。这一创新不仅彰显了Vidu的强大基模能力及其架构的卓越扩展性,也将通过强化对物理世界的认知,反哺Vidu在数字世界视频创作中对物理规律的理解与生成能力。

生数科技创始人兼首席科学家朱军教授表示:“我们致力于通过多模态大模型技术推动数字世界与物理世界的深度融合与协同进化。一方面打造新一代数字内容创作引擎,另一方面通过训练具身视频基座模型实现虚拟与现实的深度交互。”团队核心成员来自清华大学计算机系TSAIL实验室,包括冯耀、谭恒楷、毛心怡等,研究方向涵盖具身智能、多模态大模型和强化学习。该项目由两位Co-Lead领导:清华大学计算机系TSAIL实验室的2023级博士生冯耀(Yao Feng)和二年级博士生谭恒楷(Hengkai Tan)。AnyPos和Vidar工作延续了团队“将动作解耦出基座模型”的思路,朝着泛化的视觉交互智能体迈出关键一步。

最新快讯

2025年11月19日

11:12
11月18日,全球知名娱乐巨头华特迪士尼公司在中国上海盛大举办《疯狂动物城2》全球庆典活动。这场盛大的发布会选址于上海迪士尼度假区的核心区域——"疯狂动物城"主题园区内,旨在为影迷们呈现一场充满动物世界魅力的视听盛宴。 活动现场星光熠熠,原班英文配音阵容中的金妮弗·古德温率先亮相红毯,与刚刚加入的新成员关继威共同出席。在中文配音方面,实力派配音演员季冠霖与张...
11:12
2025年11月19日,领先的创作者内容广告平台Agentio正式宣布成功斩获4000万美元B轮融资,标志着其快速发展迈入新阶段。本轮融资由知名风险投资机构先锋资本(Forerunner)强势领投,同时吸引了Benchmark、Craft Ventures、AlleyCorp、Antler及Starting Line等多家现有投资方积极跟投。随着此次融资的圆...
11:12
2025年11月19日,美团旅行最新发布的数据揭示了一股强劲的冰雪旅游热潮正在席卷中国北方。数据显示,受大风降温天气影响,自11月第二周起,“崇礼滑雪”相关关键词搜索量同比激增169%,这一显著增长清晰地反映出消费者对冬季冰雪运动的热情高涨。受此趋势带动,张家口市在11月下旬的文化旅游预订量也呈现爆发式增长,整体增速同比提升25%,展现出强大的市场活力。 在...
11:12
2025年11月14日,教育部正式公示了7所顶尖高校申请增设“具身智能”本科专业的消息,包括北京航空航天大学、北京理工大学、北京邮电大学、东北大学、上海交通大学、浙江大学以及西安交通大学。这一全新专业属于工学门类,是首次未被列入官方专业目录的创新性学科,彰显了我国在高等教育领域的改革决心与前瞻布局。 此次增设“具身智能”专业,是响应国家培育未来战略性产业的重...
11:12
11月17日,游戏行业领军企业Take-Two首席执行官施特劳斯・泽尔尼克在CNBC的采访中,为行业发展趋势提供了深刻洞见。他明确指出,当前游戏产业正经历一场从传统主机向PC平台及开放生态系统的重大转型。这一变革的核心在于商业模式的演变——尽管主机依然能提供高品质的沉浸式体验,但整个行业的营收重心已逐渐转向开放化平台。 施特劳尼克特别强调,传统主机市场已陷入...
11:12
2025年11月19日,绍兴木棉花酒店携手素画廊隆重推出年度艺术盛事——双个展《风与光的栖居》。此次展览由著名策展人陈素婷精心策划,特邀中央美术学院背景的实力派画家张子欣与国际雕塑大奖得主陈松林联袂呈现,以艺术之笔描绘自然与人文的对话。 张子欣以细腻的布面油画语言,将自然诗意转化为视觉诗篇。她通过独特的色彩运用与构图技巧,捕捉光影在自然中的微妙变化,让观...
11:12
2025年11月19日,生鲜电商领军企业叮咚买菜重磅发布“真安心鱼”水产安全体系,标志着平台在食品安全领域迈出里程碑式进展。这一体系由叮咚买菜首席商品官徐志坚亲自揭晓,其核心目标在于构建水产安全的可管理、可验证与可信任三大支柱,为消费者提供真正放心的水产品。 “真安心鱼”体系依托三大核心方法论,打造全方位的水产安全保障网络。首先通过“求真溯源”技术,实现从养...
11:12
2025年10月,随着国家正式发布“十五五”规划建议,明确提出要推动房地产产业向高质量发展转型,整个行业格局正迎来深刻变革。银河证券最新研报显示,受去年销售基数偏高以及行业筑底期的影响,今年房地产销售与投资两端均面临同比下滑压力,其中开工和竣工面积降幅较前期进一步扩大。值得注意的是,在当前市场环境下,头部房企凭借其卓越的运营管理能力和雄厚的资金实力,展现出明...
11:12
2025年11月17日,备受瞩目的阿里旗下千问App正式开启公测,其表现力惊人,当日便在iOS免费应用榜单中强势攀升至第6位,彰显出强大的市场吸引力。据中信建投深度分析,阿里巴巴在人工智能领域的布局此前主要集中在B端大模型与云服务领域,其通义系列衍生模型数量已突破17万个,稳居全球首位,展现了阿里在AI技术研发上的雄厚实力。此次千问App的推出,标志着阿里巴...
11:12
华为终端正式官宣,旗下首款搭载鸿蒙系统的二合一平板——MatePad Edge将于11月25日震撼登场。这款创新产品凭借其独特的一体化设计理念,巧妙融合了平板、支架与键盘三大核心功能,实现了平板与电脑模式的无缝切换,为用户带来前所未有的移动办公体验。其设计既兼顾了极致的便携性,又充分提升了生产力表现,堪称移动办公领域的全能选手。此次新品发布,标志着华为鸿蒙生...
11:12
2025年11月19日,乐摩物联正式向香港交易所递交了上市聆讯相关资料。这家专注于智能健康科技的企业,凭借其创新性的物联网应用,成功打造了都市人群专属的舒压体验空间。旗下核心品牌“乐摩吧”以科技赋能传统按摩服务,将健康养生、休闲放松与娱乐互动完美融合,为现代都市人构建了一个智能化的健康生活服务平台。此次冲刺港交所的资本市场,不仅彰显了乐摩物联在智能按摩领域的...
11:12
2025年,备受瞩目的《拉美50佳餐厅》正式揭晓第51至100名的扩展榜单,进一步展现了拉丁美洲餐饮世界的蓬勃活力与无限可能。此次新增的13家卓越餐厅分别来自11座充满魅力的城市,其中包括秘鲁首都利马、巴西经济中心圣保罗以及墨西哥城等美食重镇。秘鲁利马的Shizen餐厅在首次参评中便以卓越表现位列全球第62位,彰显了南美美食的独特魅力。巴西圣保罗凭借其丰富的...