编者按:本文来自微信公众号 光锥智能(ID:guangzhui-tech),作者:姚悦,编辑:王一粟,微新创想经授权转载

“没有艺术,全是物理!物理让你快乐,不是吗?”近日,在世界计算机图形会议SIGGRAPH 2023上,英伟达创始人、CEO黄仁勋宣布,将生成式AI与仿真模拟平台Omniverse结合时,兴奋程度堪比他宣布“AIGC是iPhone时刻”。不同于大语言模型仅限于图文应用,基于物理规律的仿真模拟平台让生成式AI可以直接应用于现实世界。除了黄仁勋,美国斯坦福大学李飞飞团队近期也将大模型接入机器人,不仅实现机器人与环境高效交互,还能在无需额外数据和训练的情况下完成各种任务。

“基于物理世界模拟的生成式AI,是生成式AI 2.0。”跨维智能创始人、华南理工大学教授贾奎对光锥智能表示,与具身智能的结合,生成式AI将发挥更确定性的作用。随着通用能力的增强,AI有望打破商业化的“魔咒”。

当生成式AI学会物理,将生成式AI与物理世界结合并不容易,其中涉及的技术链条非常长。首先,需要对物理世界基本规律的掌握,才能将真实世界建模到仿真模拟平台。仿真模拟平台不仅能仿真物理场景,还能模拟真实世界中物体之间相互作用、运动和变形。而生成式AI的加入,会让仿真模拟平台拥有“预演”能力。

“人类从小就知道的物理常识,AI却不知道。”黄仁勋表示,“生成式AI和仿真模拟平台结合,就是要让AI的未来能够在物理上扎根。”黄仁勋进一步解释,让AI在虚拟世界中学习如何感知环境,并通过强化学习来理解物理行为的影响和后果,让AI实现特定目标。这就需要用生成式AI,预测物理世界中的千万种、甚至上亿种可能性,形成有价值的合成数据。

比如机械臂需要通过3D视觉的“眼睛”才能精准抓取,但如何排除环境变化的干扰,认出待抓取的物体(比如工厂里的零部件)?通过仿真模拟平台掌握了“光线对场景目标的反射、折射影响”等物理规律,生成式AI就能预测模拟出一个瓶子,在不同场景光照下,周身不同的反光程度;同一光照下,金属、塑料、木制品等不同材质物体表面呈现的状态;一堆钉子,所有可能出现的散落状态……

再次,需要将所有数据,都在仿真模拟平台中用AI都跑一遍。这一步,就是在训练3D视觉大模型。区别于大语言模型,3D视觉大模型对于理解和推理视觉场景的组成特性至关重要,需要处理对象之间的复杂关系、位置、以及现实环境中的变化等。最后,再连接上机械臂等具身智能的硬件,才能让其学会智能化操作。

可以看到,生成式AI与物理世界结合的整个技术链条,不仅涉及物理学、图形学、计算机视觉、机器人多学科交叉,还包括数字孪生、几何深度学习、运动学解算、混合智能、智能硬件等多维前沿技术。相应的,整个产业的链条也比较复杂,需要从数据到模型,再从模型到部署。

在这些环节中,有一个节点和此前AI的路径非常不同,那就是“合成数据生成”。用基于物理规律的生成式AI合成的数据,去训练大模型,将给实体产业带来跨越式的革命。

不用一张真实图片,训练3D视觉大模型为什么不直接用真实数据训练大模型?目前,行业内多数基于3D视觉的机械臂,其控制系统的算法训练所使用的就是真实数据。因为商业隐私等问题,这些真实数据很难在通用数据中获取,基本都是企业自行采集。然而,自采真实数据,首先在“效率和成本”这两个运营的关键指标上,性价比就非常低。这是因为,终端应用场景碎片化,数据根本不能通用。采集真实数据,企业就需要一个一个行业,一个一个工厂,一个一个场景的“地毯式”采集。而且,采集回来的数据也不能直接用,还需要进行一系列处理。这个过程中,甚至产生了“人工智能悖论”。

“采集真实数据,AI技术的成本构成中,半数以上都是数据成本,而对数据的采集、清洗、标注、增强等处理过程,往往是大量人力堆积的结果。”有分析人士就曾指出,人工智能的本质是代替人工的智能。“讽刺的是,这样的AI具备显著的劳动密集型产业特征。”

如果用合成数据呢?“用五六年、上千个案例积累的真实数据,通过合成数据,几天几周就能完成。”贾奎告诉光锥智能,相比于人工采集与标注数据,合成数据的成本能够实现几个数量级的降低。最关键的还是,在训练效果上,合成数据能够更优于真实数据。由于本身就是基于物理规律合成,合成数据天生自带绝对精确的标注,这就意味着,AI学习起来效率非常高。另外,合成数据的“全面性”是真实数据难以比拟的。

“生成式AI 2.0可以创造无数个世界,而且可以让这个世界快速演进。”贾奎表示。而落地到3D视觉行业,机械臂就犹如有了“上帝之手”,可以掌控一切过去未来。

“当然,这不能是物理世界的规律之外的。”贾奎强调。

“目前,我们不使用一张真实图片,就可以完成机械臂复杂场景作业的3D视觉模型训练。”贾奎告诉光锥智能,完全使用合成数据训练的模型引导机械臂的柔性操作,可以实现现场99.9%以上的稳定抓取。也正是因为此,合成数据,被称为大模型的“数据永动机”。

当前,除了3D视觉领域,许多领域也都因通用数据缺乏和噪点多等问题,开始尝试使用合成数据。但也有对合成数据抱有强烈质疑的观点,称如果没有经过精心调试,在训练时大量使用,会引发模型崩溃,造成不可逆的缺陷。

从技术演进的角度,合成数据不会是大模型的唯一解。但贾奎指出,“没有找到更好的办法之前,合成数据就是目前能够解决实际问题的最好办法。如果还采用人力堆砌的真实数据,在包括3D视觉在内的很多领域,AGI(通用人工智能)永远不可能实现。”

打破AI的商业化“魔咒”

在机器视觉领域,对合成数据的需求更加旺盛,生成式AI 2.0能够释放的价值也就会更大。作为机器视觉非常重要的感知手段,3D视觉对于合成数据的需求就十分迫切。

“在一堆相似的零件里‘找不同’,物体换一个材质、颜色,都需要去调整参数。”一位3D视觉从业人士表示,不同领域的需求不同,使得落地场景过于碎片化,只能做完一个项目再重新定制另一个项目。这就意味着,企业很难通过着力解决一个或几个项目需求,就能形成标准化产品。也就无法进而通过快速复制,打入并拓展市场,追求利润规模。边际成本难以降低,会将一家技术公司,变成项目公司,最终拖垮。

“魔鬼”藏在细节中。传统3D视觉感知有多脆弱?贾奎向光锥智能描述,“机械臂在抓取过程中,如果有人路过产生光线变化,任务就可能失败。”这是由硬件3D相机的成像原理造成的,3D相机成像容易受环境、物体形状、材质、颜色、散射介质等影响,而且这一问题短时间内难以解决。

“解决一个问题可能是一百步,但最后一步付出的努力可能跟前面99步加起来是一样的。”商汤科技联合创始人杨帆曾表示,企业大部分的精力都需要用来应对小部分长尾问题。但现在,“通用性能力很强的生成式AI 2.0,能够解决长尾问题,对于产品标准化至关重要。”贾奎表示。

相较于行业传统定制化开发的模式,企业基于生成式AI 2.0,就可以利用通用大模型,实现产品模块化开发,做到开箱即用地部署,进而实现同行业直接拓展,不同行业也能有效复用。3D视觉行业的商业化难题也就迎刃而解。与此同时,数据、开发、部署、硬件、行业拓展,每一个环节的成本也都实现骤降。

而在生成式AI 2.0的催化下,3D视觉一旦爆发,也就意味着,在机械臂、机器人、无人驾驶、元宇宙等等高度依赖3D视觉技术的垂直场景,都将加速吃到AI的红利。不少数据已经印证了这一点,像数据标注、合成数据、工业机器人、机器视觉等领域,全球市场规模都在高速增长,尤其是合成数据的年复合增长率甚至都超过了30%。

这背后,实际上是生成式AI 2.0的战略价值,已经受到了科技和众多制造业巨头的高度重视。从西门子、福特等老牌制造企业,到英伟达、特斯拉、谷歌等一众科技巨头,再到Waabi等明星初创公司,都开始纷纷在工业、机器人、无人驾驶、医疗、零售等诸多领域,探索生成式AI 2.0更大的可能。

与此同时,资本的热情也被极大地调动起来。据不完全统计,近年来,国外合成数据的相关融资,累计已接近8亿美元。在国内,合成数据相关企业也同样引起了资本的注意。2022年6月,跨维智能宣布完成Pre-A轮融资,融资金额数千万元,成立不到一年时间累计融资近亿元;今年7月,光轮智能也宣布完成天使+轮融资,融资金额累计数千万元。

可以说,从会作诗到学物理,生成式AI 2.0正在开启一个产业数字化的宏大未来。

本文为专栏作者授权微新创想发表,版权归原作者所有。文章系作者个人观点,不代表微新创想立场,转载请联系原作者。如有任何疑问,请联系http://www.idea2003.com/。

最新快讯

2025年08月07日

03:24
2025年8月7日,恒指期货夜盘交易结束,最终收涨0.28%,报收于24903点,盘中最低下挫8点。这一小幅上涨的走势,不仅展现了市场整体运行环境的相对平稳,也暗示着投资者情绪的稳定与市场信心的持续积累。尽管涨跌幅不大,但恒指期货夜盘的积极表现,为当日内地股市的运行提供了良好的参照,也为后续市场走势的进一步发展奠定了基础。从技术面来看,此次小幅上涨显示出市场...
03:24
2025年8月6日,韩元兑美元汇率迎来一波波动后最终收涨,收盘报1385.40韩元,较前一交易日上涨0.03%。这一天的汇率走势可谓起伏不定,上午时段一度承压走低,在北京时间15:34达到当日最低点1391.53韩元,显示出市场短期内的抛售压力。然而,随着午后的市场情绪逐渐稳定,韩元开始逐步反弹,最终在收盘时录得小幅上涨,显示出一定的市场韧性。 这一波动与当...
03:24
2025年8月7日,中国金融商品市场迎来波动性交易日。上期所原油期货夜盘价格遭遇显著下滑,最终收跌1.23%,报收于498元/桶,反映出国际能源市场复杂多变的供需格局。与此同时,贵金属板块表现分化,沪金主力合约承压下跌0.29%,收报782元/克,市场避险情绪有所升温。而沪银主力合约则逆势上扬,上涨0.22%,报收9180元/千克,显示出部分资金对工业金属的...
03:24
2025年7月31日,智利该国铜矿巨头El Teniente遭遇严重隧道坍塌事故,导致6名矿工不幸遇难,这一悲剧性事件迫使地下开采作业全面暂停。作为全球最大的露天铜矿之一,El Teniente的停产对全球铜市场产生了深远影响。 8月7日,智利国家铜业公司(Codelco)正式宣布,由于矿石库存已完全耗尽,公司不得不停止所有矿石加工业务并转入全面维护状态。此...
03:24
2025年8月7日,阿联酋国家石油公司(ADNOC)正式公布其原油定价策略,宣布将于9月份将穆尔班原油官方售价设定为每桶71.12美元。这一关键决策不仅体现了ADNOC对当前国际原油市场动态的精准把握,更将直接对全球石油贸易格局产生深远影响。作为全球重要的原油出口国之一,ADNOC的定价策略历来被视为国际油价的重要风向标。此次公布的71.12美元/桶的价格,...
02:49
微新创想8月6日重磅发布最新数据,2025年暑期档电影市场呈现现象级繁荣景象。截至当日19时19分,全国累计票房已突破75.29亿元大关,总出票量更是高达2.00亿张,场次超过2815.00万场,平均票价稳定在37.7元。这一系列亮眼指标充分印证了暑期档电影市场的蓬勃生机与巨大潜力。 票房排行榜单中,《南京照相馆》以惊人的表现力拔头筹。该影片自7月25日上映...
02:49
微新创想8月6日重磅消息,全新一代小鹏P7震撼全球首秀,同步开启预售,仅需99元意向金即可抵扣3000元购车款,新车预计在本月内正式上市。这款备受瞩目的纯电轿跑车,以赛博未来感十足的设计语言,为用户带来前所未有的视觉盛宴。 新车前脸采用极具辨识度的设计,一体式无断点的光翼贯穿日行灯与矩阵式LED大灯,搭配纯平发光Logo,在不发光时呈现深色质感,相较于业界常...
02:49
微新创想8月6日重磅消息,全新小鹏P7于今晚震撼揭幕,官方宣称其拥有同级别无与伦比的比例姿态。这款全新小鹏P7以极致的姿态表现惊艳世人,其宽高比达到了1.40,长高比精准控制为3.57,轮高比更是达到了0.52,这一系列跑车级黄金车身比例,不仅使其视觉效果卓越,甚至超越了备受推崇的保时捷Panamera(帕梅)。1407mm的超低车高设计,赋予了车辆强烈的贴...
02:49
2025年8月7日,巴西官方发布了7月份的贸易数据,显示该国当月贸易顺差高达70.75亿美元。这一亮眼数据清晰地表明,巴西的出口额显著超过了进口额,从而形成了正向的贸易平衡。这一强劲的顺差表现不仅反映了巴西外贸体系的健康活力,也揭示了其在全球市场中的竞争优势正在持续增强。从经济角度来看,如此规模的贸易顺差意味着巴西在国际贸易中积累了更多外汇储备,为后续的经济...
02:48
2025年8月7日,贝伦贝格银行多资产策略与研究主管Ulrich Urbahn发表最新市场分析,指出当前市场情绪依然呈现脆弱态势。在关税政策持续发酵的背景下,投资者正密切关注其对企业盈利能力和全球供应链的潜在冲击。尽管短期不确定性犹存,但Urbahn强调优质欧洲股票基本面展现出较强韧性,这为市场提供了重要支撑。与此同时,市场普遍预期美联储即将启动降息进程,这...
02:48
2025年8月6日夜间交易时段,有色金属市场整体呈现上涨态势,多数品种价格稳步攀升。国际铜价表现稳健,收涨0.25%,而沪铜价格更是劲升0.26%,显示出市场对铜资源的强劲需求。铝价同样表现抢眼,沪铝价格大幅上涨0.83%,反映出铝产业链的活跃度有所提升。锌价也呈现上涨趋势,沪锌涨幅达到0.65%,显示出金属锌的供需关系正在改善。铅价虽涨幅有限,但同样录得0...
02:48
2025年8月7日,美国权威交通监管机构国家公路交通安全管理局(NHTSA)正式宣布一项里程碑式决策,批准了亚马逊旗下自动驾驶企业Zoox提交的运营豁免申请。这一突破性授权将允许Zoox在严格限定的测试环境下,部署其先进的全自动驾驶汽车,这些车辆在部分关键技术指标上暂未完全符合现行安全标准。 该豁免方案的推出,旨在为自动驾驶技术的创新研发与实地测试创造更...