声明:本文源自微信公众号字母榜,作者李炤锋,经站长之家授权转载发布。在近日接受字母榜独家专访时,腾讯混元3D团队负责人郭春超深刻感慨:“如果没有开源,没有与社区深入交流,仅靠闭门造车,我们永远无法突破想象力的边界。”这一感悟源于国产模型在开源社区中的强势崛起,彻底搅动了整个大模型行业的开源生态格局。Hugging Face的模型热度榜单上,中国企业连续霸榜,最高时前10名中竟有9席被中国团队占据。在排名前列的模型中,除了常见的“文本生成”和“文生图”模态外,一款名为“Image to 3D”(图生3D)的创新模型跻身前三,榜单明确标注其为腾讯开发的“混元3D世界模型1.0”。

“混元3D世界模型1.0”是腾讯混元3D系列的最新力作,在不久前落幕的WAIC(世界人工智能大会)上正式发布并全面开源。该模型演示效果惊人——只需一句话或一张图,就能生成一个可自由漫游、可编辑的3D世界。尽管行业分析认为该模型尚处早期阶段,但其技术论文却迅速登顶Hugging Face的论文热度榜单。

近年来,腾讯在大模型领域的版图持续扩张,但在传统语言模型板块,旗下元宝等C端产品却陷入行业同类产品的高强度“内卷”。而在相对冷门的3D模型领域,腾讯却迅速在国内率先实现产品规模化。这背后的驱动力,源自腾讯最赚钱的业务场景。

“腾讯在游戏、影视、动漫等业务中广泛使用3D建模技术,为混元3D模型的发展提供了强大的需求场景。”郭春超向字母榜介绍,目前已有数十个游戏项目组在使用混元3D的模型能力。一位腾讯内部人士透露,这其中就包括《元梦之星》等核心产品。自2024年11月发布首代3D生成模型并开源以来,混元3D系列持续迭代升级。今年4月发布的2.5版本,在建模精细度上实现突破,有效面片数增加超10倍。同时,腾讯还推出了面向创作者的3D AI创作引擎,专门满足游戏开发、动画影视及3D打印等领域的专业需求。

相关数据显示,混元3D模型系列在Hugging Face平台的累计下载量已突破230万次。“越来越多的游戏开发者、3D打印企业和专业设计师选择混元3D模型来生成数字资产。”在刚刚发布的腾讯Q2财报中,公司特别提及混元3D系列获得的业内认可,对模型的技术水平评价为“领先行业的几何精度、纹理真实度、指令与3D对齐能力”。

另一方面,“3D世界模型”作为3D生成大模型的新兴领域,直到去年才在业内崭露头角。去年年底,被誉为“AI教母”的李飞飞创业公司World Labs展示了“一图生成3D世界”的AI系统;随后,谷歌DeepMind也发布了可通过单张图片或文字描述生成3D场景的大型基础世界模型Genie2,并上周更新至Genie3。Genie3能以每秒24帧的速度实时导航,并以720P分辨率保持几分钟的一致性。然而,与混元3D世界的技术路线不同,Genie3更侧重于构建动态、多帧一致的交互式模拟世界,可逐帧生成实时交互3D场景,但缺乏混元3D世界那样的导出mesh场景能力。

事实上,“世界模型”并非新概念,早在上世纪90年代就已应用于机器人导航工具领域。进入大模型时代后,由人工智能驱动的世界模型,逐渐在具身智能、AR/VR、游戏影视开发等领域发挥基础性作用。“它既能复刻虚拟世界,创造虚拟社交/游戏场景,也能模拟真实场景,如展览会等复现实态。”谈及3D世界模型的前景,郭春超畅想了无限可能。

为什么腾讯要瞄准3D模型赛道?3D世界模型能否为游戏/动画行业带来产业革命?在深圳一个炎热的午后,郭春超向字母榜回应了这些关键问题。“在这个行业,只要一中断,就在业界没有声音了。”郭春超认为,想要在新领域站稳脚跟,必须对新技术的持续跟进和投入。这一观点在业内不乏案例,Meta早在去年发布Meta3D Gen,一度处于行业领先水平,但随后因更新节奏中断,直到今年5月才推出Meta3D Gen2.0。“一个模型团队需要持续交付出优质成果,如果某个阶段没有交付,后面可能就要偿还‘技术债’。”郭春超总结道。

| 对话 | 3D大模型,正在前半程奔跑 |

字母榜:与其他类型的大模型不同,3D生成模型是大众用户感知相对较弱的领域。作为资深从业者,你能简单总结一下目前3D生成所处的阶段吗?

郭春超:3D模型是一个发展较晚的领域,大约在2024年业界才开始加大投入,今年才看到商业拐点并爆发。相比之下,LLM(大语言模型)从2022年就出现了比较成熟的产品,如GPT3.5的出现。现在所处的阶段,可以类比LLM中GPT2-GPT3之间并接近GPT3的状态。

字母榜:你是说,3D生成模型还在一个比较早期的阶段?

郭春超:是的。现在属于前半段赛程,在3D资产生成领域,希望到年底能做到类比LLM中GPT3.5的水平。

字母榜:在3D模型领域,腾讯是国内走得最快、做得最多的一家企业,而其他国内头部企业似乎没有将3D模型作为主要方向。为什么腾讯会瞄准3D模型赛道,这背后有怎样的战略考量?是否有来自公司内部的场景或需求,在驱动你们做这个事情?

郭春超:我们主要围绕两个大方向进行布局。一个是业界的技术发展趋势,另一个是我们腾讯的业务需求。在技术发展趋势上,过去一年中,国外企业如Meta、Google都在3D模型领域重点投入,3D模态对我们理解三维物理世界必不可少。从自身业务布局角度而言,腾讯在游戏、影视、动漫等业务都会用到3D建模,为混元3D模型的发展提供了需求场景。至于国内其他企业,在这方面可能也有布局,但不一定像腾讯投入这么大。

字母榜:有没有混元3D团队与上述内部业务合作的具体案例?哪些团队和混元3D业务的关联是最紧密的?

郭春超:比如在游戏板块,我们已经合作了多个团队,但由于保密原因不能公开。不过,已有数十个游戏项目组在使用混元3D的模型能力。另一方面,我们与腾讯云是内部合作关系,腾讯云会把混元3D的一些能力赋能到外部。比如设计Agent Lovart,以及3D打印品牌拓竹科技、创想三维等。

字母榜:在迭代模型能力的时候,你们会参考内部团队的意见或需求吗?

郭春超:肯定会。基本上我们会把很多业务共性的需求汇总起来,作为后续研发方向的指导。

AI“造”世界的抽卡难题

腾讯混元3D模型引领国产AI创新插图

字母榜:今年1月,3D AI创作引擎2.0上线时,你曾表示:“3D模型生产的视觉合格率,仅用一年时间就从20%提升到60%的水平。”而混元3D世界模型的生成场景要更复杂,目前该模型生成质量符合你的预期吗?

郭春超:世界模型目前还处于早期阶段,可能比混元3D1.0当时所处的阶段还要早。单个物体生成,模型输出的就是单个资产,如一个人、一张桌子,可约束的条件相对较多。但世界模型是一整个开放3D世界的生成,有真实的、有虚拟的;有自然的、也有室内的。所以它的生成难度较高,涉及空间稳定性、物理规律等影响因素更多,因此它的发展可能需要更长时间。

字母榜:如果要量化混元3D世界模型的合格率,你认为能达到多少?

郭春超:不同的任务不一样。如果是简单的一个展厅,只是进入这个场景浏览一下,目前能做到30%-40%的合格率。如果有更高品质的要求,比如在自动驾驶场景,或者高品质游戏的搭建,那以目前的模型能力,可能连10%的合格率都做不到。

字母榜:说起合格率的问题,背后其实有一个可控性的因素。相比物体3D模型,3D世界模型的生成任务更复杂,对可控性要求是否会更高?

郭春超:关于可控性问题,本质上是模型能力能不能稳定激发出来。很多时候大模型在使用中需要“抽卡”(多次生成),通过强化学习等手段,我们希望把“抽卡”的能力稳定下来,大幅提高了可控性。而对于3D世界模型而言,提高生成的稳定性是更复杂的工程,我们需要从数据端、模型架构、预训练策略、后训方法(包括SFT、强化训练等环节),系统性地都“加固”一遍,最终才能逐步提升。此外,在产品层面,我们后续也会逐渐降低用户使用门槛,比如帮助用户做更多的prompt改写,或者提供更多模态的输入,如“文+图”或“文+多张图”,使其可控性能更契合用户的想法。

字母榜:在今年早些时候,腾讯的游戏制作人王智刚老师曾表示,面数控制能力对游戏研发来说是至关重要的,某些游戏项目需要的3D模型可能只有几千面,但一些大模型上来就是几万面。而相比3D物体生成,3D世界生成的复杂性会更高,针对这一问题你们是否有进展?

郭春超:针对如何控制3D世界模型的生成文件大小,我们一直在优化。最开始使用了3D高斯泼溅技术,但那会导致文件很大,后面我们将其转成了面片的形式,压缩了几十倍的大小。未来,随着业界基建的发展,更好的渲染方式、更好的引擎出现,以及伴随着模型层面的迭代,能把这个问题更好地解决。

字母榜:目前,网页版的混元3D世界模型包含两种生成模式,前一种是基于文本/图像,生成一个全景图式的Skybox,后一种则是基于全景图去生成3D世界。不过,目前在网页端,即使生成了一个3D网格世界,能够探索的范围也很小,为什么要做这样的限制?

郭春超:这是因为在纯3D的场景里面,如果想要大范围探索,会涉及到很多参数的设置,比如哪里该有空气墙,哪里能进去,还是需要有专业人士进行进一步的调整。目前,无论是创作3D单体还是3D场景,要打包到引擎当中去开发成一款游戏,还是有一定的专业性。在3D世界模型的1.0阶段,我们更多的是帮助创作者,去降低制作这些场景资产的门槛,但还不能100%替代人工。

下一代3D模型:交互性+真实性

字母榜:行业也有类似的产品,宣称可以实时生成游戏世界。这是某个海外团队的产品demo,和混元3D世界模型对比的话,你认为这两个产品的技术路线有什么差异?

郭春超:看了一下演示,他们可能采用的是视频生成的模式,本质上是预测画面的下一帧。演示中的人物形象是一直往前走的,如果走了一会再回头,会发现后面的山或者其他素材会消失。事实上,因为视频生成数据量非常大,目前视频生成技术还不能彻底进入游戏的管线。

字母榜:不过实时生成游戏世界的理念,最近在业内热度还蛮高,混元下一步会有这种想法吗?

郭春超:下一步,我们探索会结合3D和2D场景下的几种模态,推出一个World Play的交互模型,预计在今年下半年推出。这个版本有望既解决了2D稳定性的不足,又解决了3D生成多样性的不足,把两者的优点结合起来。

图注:混元世界模型1.0应用概览图

字母榜:此前你曾表示,3D生成模型的发展还面临一些挑战。其中之一是数据的不足,在3D模型领域只有千万量级的数据,并且没有被充分利用。目前你们在数据利用层面是否有新的进展?

郭春超:是的。我们目前用了大量的图和视频的场景,用来缓解3D素材产能不足。尤其是大量的视频场景,可以转化为3D信息,进而指导我们去做三维世界的生成。而且最终生成的3D世界,既可以以3D的形式保存,也可以渲染成视频,得到一个视频或某一帧图像。当然,在纯3D文件领域,我们基于很多游戏资产等内容,半自动化搭建了很多3D场景。所以,在混元3D场景(世界)训练中,既用到了图像、视频,也用到了很多原生3D场景。相比此前的3D物体模型,在数据的丰富度有了较大提升。

字母榜:我们也留意到了前段时间发布的“混元游戏视觉的生成平台”。混元3D系列该平台上也扮演了比较重要的角色,这是混元3D业务在应用层面规划的一部分吗?

郭春超:那个游戏平台更多的是我们针对游戏行业做的第一步的解决方案,它会持续迭代,后面我们也会有更多的游戏相关的功能加入到里面,形成一个更完整的游戏Paas(平台及服务)解决方案。我们会把游戏管线里面达标的、能够符合工业化生产标准的能力,集成到游戏平台里面去。但如果是还处于前期探索阶段的能力,我们会先研发一段时间,达到工业化水准时再搬进去。

腾讯混元3D模型引领国产AI创新插图1

字母榜:按照你之前的评价,混元3D世界模型似乎是你说的后者,离工业化还有些距离。

郭春超:距离游戏管线是这样,还需要一段时间。如果只是用在一些VR的观看场景,可能已经部分可用了。

字母榜:混元3D世界模型2.0的一些优化方向,能不能透露一下?

郭春超:我们的2.0会在真实世界场景呈现上进行比较大的投入。因为目前的1.0更多聚焦在虚拟世界生成上,但是现实中也有很多应用场景是需要真实感的,比如做一个线上的展览会,想让人有身临其境的感觉,那就需要提升模型搭建真实场景的能力。

字母榜:近期WAIC上腾讯也同步了一些具身智能的进展,其中有提到“多模态感知”这个板块,这一部分会有混元3D能力的介入吗。

郭春超:新推出的混元3D世界模型暂时没有在具身智能里面应用,但是我希望后面能提供3D的场景或者是世界生成的能力,包括刚刚提到的世界模型2.0,能够更多地去赋能具身智能场景。

开源拥抱未来,思考星辰大海

字母榜:回顾过去9个月,混元3D系列陆续发布并开源了多款模型,此前还更新了一个面向专业设计领域的Hunyuan3D-PolyGen。在规划这些细分模型场景,或者说模型产品矩阵时,你们考虑的因素有哪些?

郭春超:我们就主要考虑的是两个大的方向。第一个大的方向,是怎么做好当下。第二个大的方向,是怎么根据技术发展去拓展未来。像我们现在做的3D资产的生成,更多的是服务于当下的业务需求。而着眼于未来,像近期推出的混元3D世界模型,可能短期内无法带来天翻地覆的变化,但随着技术的完善和成熟,未来它一定能“革命”掉很多东西。从创作方式到工业流程生产的方式,都是可能被“革命”掉的,我们发布开源就是围绕这两个思路来做的。

字母榜:3D世界模型1.0,目前看起来还是有点投石问路的意思。

郭春超:目前还处于比较早期,它会在部分场景,在VR或者是一些大家做原型场景的验证有用。但是很多事情是需要大家先把这个生态给做起来,让开源社区活跃起来,才会有更多研究者进入到这个领域里面。

字母榜:说到开源,混元3D系列模型的在Hugging Face的下载量突破了230万。您怎么理解开源社区中,广大开发者给你们的反馈?

郭春超:我们开发团队和社区是一个双向奔赴、互帮互助的状态,社区里的开发者能够基于我们发布的技术成果进行改进,降低他们的研发门槛。比如说一个开发者是研究世界模型领域的,或者是做自动驾驶领域的人,就能比较轻松把这个用起来。如果没有开源,没有去和社区交流,我们靠闭门造车是空想不出来的。他们也给了我们非常多的信息输入,因此我觉得开源社区是一个双向共赢的事情。

字母榜:所以其实大家都非常渴望拥抱新业态,哪怕面对的是一个还不够成熟的产品。

郭春超:是的,如果一个事情已经到了商业化的拐点……字母榜:那就该闭源了?

郭春超:(笑)这个问题我就不多做评论,但如果到了100%商业化拐点,可能业界研究的人就比较少了。举个例子,就像手机的人脸识别已经非常成熟,可用率也很高,再做这个算法研发ROI就十分有限。所以整个大模型界研究这个领域的人就比较少了,研究者的热情更多是探索AGI怎么实现,思考一些星辰大海的领域。

字母榜:回顾过去9个月,虽然时间不长,但不管是在模型数量还是生成质量上,混元3D系列迭代得非常快,这背后的原因是什么?

郭春超:核心是做大模型三要素:算力、数据、人才,我们在这三个方面都相对做的比较好。同时依托混元大模型这个平台,包括公司层面上也给了混元特别大的支持。把三要素凑齐,是我认为能做成的第一个原因。第二个原因是团队组织形式,我们团队非常年轻且国际化,团队博士比例大约占2/3,基本上都来自于海内外名校。此外,我们团队一直坚持工业化的打法,在团队组织和运作上都是保持非常“卷”的状态。我认为以上两个方面是能够让这个模型技术快速迭代的最大原因。

最新快讯

2025年11月18日

11:01
声明:本文来自于微信公众号 白鲸出海,作者:李爽,授权站长之家转载发布。在 AI 语言学习的领域,我们曾关注到一些另辟蹊径的产品,比如用 AI 帮移民纠正口音的「BoldVoice」,曾在不到两年的时间内做到单月流水接近百万美元。最近,又有一款名为「Voice Image」的产品引起了我们的注意,它关注到了声音和沟通技巧对人们表...
11:01
声明:本文源自微信公众号数字生命卡兹克,作者数字生命卡兹克,授权站长之家转载发布。继千问之后,今日全新AI助手灵光正式加入战场。这款来自蚂蚁集团——也就是支付宝背后的公司——的AI产品,似乎预示着阿里系即将掀起一场大AI入口之战。但经过亲身体验,我必须承认,蚂蚁的灵光确实值得大力推荐。它不仅设计精致优雅,更凭借独特的闪应用理念与支付宝生态的结合,展现出巨大的...
11:01
阿里Qwen模型逆袭GPT的策略,准备再次对打OpenAI 2018年,OpenAI推出GPT1模型占据技术先机,但随后走向封闭。几乎同时,阿里开始研发大模型技术,到2023年推出通义千问时,却选择了完全不同的道路——直接开源模型,允许开发者免费使用、改进和集成。这一策略让Qwen逐步积累规模,如今全球已有17万个衍生模型基于Qwen发布,总下载量超过6亿,...
10:56
哈曼国际12日重磅宣布,旗下Ready Display车用显示屏成功斩获业内首张HDR10+ Automotive权威认证,这一里程碑事件标志着汽车显示技术迈入全新纪元。该认证由哈曼、三星、松下三大行业巨头联合制定,旨在建立车规级HDR显示技术新标杆,确保在汽车座舱多变的复杂照明环境中,依然能够精准还原HDR内容的震撼画质。 认证显示屏凭借其卓越性能,在不同...
10:56
恒坤新材今日正式在上海证券交易所科创板鸣锣开市,证券代码688727,标志着这家专注于先端材料资源开发与整合的系统解决方案提供商正式迈入资本市场。公司发行价定为14.99元/股,对应市盈率高达71.42倍,显示出市场对其未来发展潜力的高度认可。 作为行业领先的先端材料解决方案提供商,恒坤新材致力于为全球客户提供从资源开发到产品化的全流程集成服务。其业务范围广...
10:56
北矿检测今日正式登陆北京证券交易所,证券代码920160,发行价格定为6.7元/股,对应市盈率14.99倍。作为业内领先的有色金属检测服务商,公司业务范围广泛,涵盖矿石与矿产品检测、冶炼及再生资源分析、环境样品检测、先进材料性能测试、选冶药剂分析等多个专业领域。此外,公司还积极开展资源评价、物理检测及测试技术研发与标准化工作,致力于推动行业技术进步与标准完善...
10:56
2025年11月18日,闲鱼循环商店在武汉后湖大道新荣天街盛大开业,正式宣告其华中区域中心店落成。这一重要里程碑不仅标志着闲鱼线下布局的加速推进,更彰显了其深耕区域市场的决心与实力。作为闲鱼继华东、华南区域中心店之后的又一力作,武汉新荣天街店将成为华中地区二手商品流通与循环经济的重要枢纽。 今年以来,闲鱼线下拓展步伐显著加快。下半年以来,其先后在深圳、苏州、...
10:56
2024年将见证小米在家电领域国际化战略的全新篇章。小米集团合伙人兼总裁卢伟冰于11月18日正式宣布,这一年将成为小米大家电产品出海的启航之年。这一重要布局的信号已经通过实际行动释放,此前小米西班牙市场便率先行动。10月30日,米家智能冰箱率先登陆西班牙市场,紧接着11月17日米家洗烘一体机也紧随其后推出。卢伟冰在社交媒体上转发相关产品信息时兴奋地表示,目前...
10:56
Qt Group于11月17日正式发布了备受期待的Axivion 7.11工具集最新版本,此次更新引入了一项突破性的自动检测功能,能够精准验证采用英伟达加速计算的程序是否严格遵循CUDA编码安全规则。这一创新举措为安全关键行业的开发者提供了强大的技术支持,通过先进的静态代码分析与架构验证技术,有效辅助开发人员构建具备顶尖图形处理与人工智能功能的高性能应用程序...
10:56
11月18日,《科创板日报》独家获悉,日本松下与国内知名电子元器件制造商汇创达成功中标华为Mate80系列手机侧键防水开关的量产供应项目。此外,汇创达还一举获得该系列手机屏幕罩的订单。这一系列合作不仅彰显了华为在高端手机核心部件供应上的多元化布局,更凸显了其通过深化国内外供应链合作,持续提升产品防护性能与用户使用体验的战略决心。 作为华为Mate80系列的关...
10:56
2025年6G发展大会隆重召开,GSMA大中华区总裁斯寒在会上发表重要演讲,为全球6G发展描绘了清晰的蓝图。她透露,随着全球技术迭代加速,6G部署有望在2030年率先在部分领先国家和地区启动,这意味着6G标准将在这一时间节点完成最终确立,为后续的商业化进程扫清障碍。据权威预测,到2040年,全球6G连接规模将突破50亿大关,届时将占据移动连接总量的半壁江山,...
10:56
11月18日清晨,A股市场再度掀起AI应用概念的浪潮,榕基软件强势斩获两连板,展现出强劲的上涨势头。石基信息更是以涨停板报收,成为板块中的亮点。值得买、宣亚国际等个股也表现不俗,涨幅均超过10%。思创医惠、创业慧康、汉仪股份、久其软件等企业纷纷紧随其后,股价呈现普涨态势。这一轮行情的爆发,主要得益于11月17日阿里巴巴发布的千问APP公测版消息,该应用基于开...