微新创想(idea2003.com)8月1日 消息:在人工智能领域迎来重大突破之际,研究人员成功开发出一种名为3D-LLM的创新方法,旨在将3D环境感知能力深度融入大型语言模型。这一技术革新将使聊天机器人能够精准理解和处理三维空间概念,从而在复杂的三维世界中实现更智能的导航与操作。

当前的大型语言模型和多模态语言模型,如ChatGPT、GPT-4和Flamingo,虽已展现出卓越的语音处理和2D图像理解能力,但它们在3D环境和物理空间认知方面仍存在明显短板。3D LLM的问世,正是为了填补这一技术空白。通过引入点云等三维数据作为输入,该模型能够赋予AI对三维空间的基本认知,使其掌握空间关系、物理属性和可供性等关键概念——这些要素单纯依靠二维图像难以有效传递。

3D LLM的应用前景广阔,特别是在机器人技术和实体人工智能领域。它将使人工智能助理能够在三维世界中实现更精准的路径规划、任务执行和情境响应。然而,模型训练面临的一大挑战是三维与自然语言数据对的稀缺性。为解决这一问题,研究团队巧妙地运用了ChatGPT的提示技术,生成多样化的三维场景描述和对话内容。这一创新举措成功构建了一个包含超过30万条三维文本示例的数据集,涵盖了三维标注、视觉问答、任务分解和导航等核心任务。

例如,在训练过程中,ChatGPT被要求通过询问不同视角下物体可见性的问题来描述三维卧室场景。此外,研究团队还研发了三维特征提取器,将三维数据转化为与BLIP-2和Flamingo等预训练的二维视觉语言模型兼容的格式。同时,三维定位机制的引入,使得模型能够通过将文本描述与三维坐标关联,精准捕捉空间信息。这些技术突破显著提升了BLIP-2等模型在训练3D LLM理解三维场景方面的效率。

实验结果令人振奋:3D语言模型不仅能够生成对三维场景的自然语言描述,还能进行三维感知对话,并将复杂任务分解为具体的三维动作序列。这一系列成就表明,通过融合空间推理能力,人工智能在三维环境感知方面正逐步逼近人类水平。展望未来,研究人员计划将这一模型扩展至声音等其他数据模式,并训练其执行更多样化的任务,从而全面提升AI助手在多模态环境中的综合能力。最终目标是将这些技术进步应用于能够与三维环境智能交互的实体AI助手,催生出更智能的机器人和一系列创新的人工智能应用场景。

最新快讯

2025年10月29日

05:24
2025年10月28日,美国股市上演了一场鲜明的板块分化行情。在整体市场波动中,科技板块异军突起,成为当日表现最亮眼的板块。全球科技股指数ETF逆势上涨1.38%,展现出强劲的增长动力。细分领域同样表现不俗,科技行业ETF上涨0.99%,半导体ETF更是录得0.88%的涨幅,显示出市场对科技股的持续看好。特别是在标普500指数中,信息技术板块涨幅高达1.64...
05:24
诺基亚首席执行官Patrik Hotard近日公开强调,公司与全球知名科技巨头英伟达的战略合作将共同开启无线通信技术的创新纪元。双方将强强联手,聚焦于人工智能驱动的无线网络解决方案研发,致力于加速6G技术的商业化进程。根据规划,这项具有里程碑意义的合作产品预计在2027年实现全球范围内的全面商业化部署,而首批客户的试点测试计划将于2026年初正式启动。 此次...
05:24
2025年10月29日,全球知名食品饮料公司亿滋国际正式发布最新业绩指引,宣布将全年有机净营收增长预期从原先的5%下调至约4%。这一调整主要受到两大因素影响:部分核心市场的消费需求出现放缓迹象,以及全球汇率波动带来的不利冲击。尽管面临外部环境挑战,亿滋国际强调其核心品牌在亚太、欧洲等多个关键区域依然展现出强劲的市场韧性,持续保持稳健增长态势。为应对当前复杂的...
04:52
苹果公司于今日正式向全球iPhone和iPad用户推送了iOS/iPadOS 18.7.2 RC(Release Candidate)版本更新,其内部版本号为22H123。此次更新距离上一个测试版本发布已过去了整整49天,充分展现了苹果在软件迭代方面的严谨与高效。对于广大果粉而言,这是一个不容错过的系统优化机会。 想要升级至最新测试版系统的用户,主要有两种途...
04:52
苹果公司于今日正式向iPhone和iPad用户推送了备受期待的iOS/iPadOS 26.1 RC测试版更新,内部版本号为23B82。此次更新距离上一轮测试版发布仅相隔8天,充分展现了苹果公司快速迭代和精益求精的开发节奏。用户可以通过两种途径参与本次系统升级体验:对于公开测试版,用户需要提前注册Apple Beta版软件计划,并在系统设置中手动开启Beta版...
04:52
苹果公司今日正式向Mac用户发布了macOS 26.1 RC更新,其内部版本号为25B77。值得注意的是,距离上一轮Beta/RC版本发布仅过去了短短8天,这一密集的更新节奏充分展现了系统优化已进入关键冲刺阶段。从历史发布记录来看,macOS 26系列自今年6月启动测试以来,已经经历了多轮次的迭代与调试,而近期的工作重点则明显转向了系统稳定性的全面提升。 本...
04:52
苹果公司近日向Vision Pro用户正式发布visionOS 26.1 RC版本更新,内部版本号为23N48。此次更新仅距离上一个测试版本发布8天,彰显了苹果在空间计算系统开发上的惊人速度。根据官方更新日志,由于全球服务器节点配置存在差异,部分地区用户可能会遇到更新时间延迟,但通常不会超过半小时。从版本发布历史来看,visionOS 26自今年6月启动测试...
04:52
苹果公司今日正式向全球Apple Watch用户推送了备受期待的watchOS 26.1 RC版本(内部版本号为23S36),这一重要更新标志着该操作系统距离最终正式发布仅一步之遥。值得注意的是,此次RC版本的发布距离上一轮Beta/RC版本仅相隔8天,这一紧凑的更新周期清晰地反映出苹果在系统开发方面的节奏已趋于稳定,预示着后续版本迭代将更加高效有序。 回顾...
04:21
2025年10月29日,在华盛顿GTC全球科技大会上,英伟达CEO黄仁勋发表了掷地有声的演讲,有力驳斥了当时甚嚣尘上的AI泡沫论。他不仅描绘了英伟达未来的宏伟蓝图,更透露了公司最新研发的Blackwell芯片及Rubin模型将在未来五个季度内创造高达5000亿美元收入的惊人目标。 大会上,英伟达展示了与优步、Palantir和CrowdStrike等知名...
03:44
2025年10月29日,微软正式宣布将在Azure云平台率先推出搭载NVIDIA RTX Pro 6000 Blackwell服务器版GPU的尖端计算服务。这一创新举措专为提升人工智能与高性能计算能力而设计,将全面面向企业客户开放使用。该服务的推出不仅彰显了微软与NVIDIA在AI基础设施领域的深度战略合作,更预示着Azure将在全球云计算市场迎来新的竞争优...
03:44
2025年10月29日,科技巨头英伟达重磅发布了一款革命性AI模型,专为加速自动化工厂建设而设计。这款尖端模型于当日全球同步上线,将广泛应用于制造业的各个领域。英伟达通过深度融合其强大的GPU计算能力与前沿深度学习技术,为工业自动化领域提供了前所未有的高效解决方案。 此次推出的AI模型具备三大核心优势:首先能够精准优化机器人控制算法,显著提升作业精度与效...
03:44
2025年10月29日,备受瞩目的医疗行业领军企业Medline正式向美国证券交易委员会递交了其备受期待的首次公开募股(IPO)申请。这家总部位于伊利诺伊州的医疗供应商,作为北美地区规模最大的私营医疗用品制造商与分销商之一,此次IPO计划在声名显赫的纽约证券交易所或纳斯达克挂牌交易,预计将筹集高达10亿美元的资金。此次发行备受市场瞩目,摩根士丹利、高盛等顶级...