微新创想(idea2003.com)8月1日 消息:在人工智能领域迎来重大突破之际,研究人员成功开发出一种名为3D-LLM的创新方法,旨在将3D环境感知能力深度融入大型语言模型。这一技术革新将使聊天机器人能够精准理解和处理三维空间概念,从而在复杂的三维世界中实现更智能的导航与操作。

当前的大型语言模型和多模态语言模型,如ChatGPT、GPT-4和Flamingo,虽已展现出卓越的语音处理和2D图像理解能力,但它们在3D环境和物理空间认知方面仍存在明显短板。3D LLM的问世,正是为了填补这一技术空白。通过引入点云等三维数据作为输入,该模型能够赋予AI对三维空间的基本认知,使其掌握空间关系、物理属性和可供性等关键概念——这些要素单纯依靠二维图像难以有效传递。

3D LLM的应用前景广阔,特别是在机器人技术和实体人工智能领域。它将使人工智能助理能够在三维世界中实现更精准的路径规划、任务执行和情境响应。然而,模型训练面临的一大挑战是三维与自然语言数据对的稀缺性。为解决这一问题,研究团队巧妙地运用了ChatGPT的提示技术,生成多样化的三维场景描述和对话内容。这一创新举措成功构建了一个包含超过30万条三维文本示例的数据集,涵盖了三维标注、视觉问答、任务分解和导航等核心任务。

例如,在训练过程中,ChatGPT被要求通过询问不同视角下物体可见性的问题来描述三维卧室场景。此外,研究团队还研发了三维特征提取器,将三维数据转化为与BLIP-2和Flamingo等预训练的二维视觉语言模型兼容的格式。同时,三维定位机制的引入,使得模型能够通过将文本描述与三维坐标关联,精准捕捉空间信息。这些技术突破显著提升了BLIP-2等模型在训练3D LLM理解三维场景方面的效率。

实验结果令人振奋:3D语言模型不仅能够生成对三维场景的自然语言描述,还能进行三维感知对话,并将复杂任务分解为具体的三维动作序列。这一系列成就表明,通过融合空间推理能力,人工智能在三维环境感知方面正逐步逼近人类水平。展望未来,研究人员计划将这一模型扩展至声音等其他数据模式,并训练其执行更多样化的任务,从而全面提升AI助手在多模态环境中的综合能力。最终目标是将这些技术进步应用于能够与三维环境智能交互的实体AI助手,催生出更智能的机器人和一系列创新的人工智能应用场景。

最新快讯

2025年10月29日

14:57
最新研究表明,穿高领衣服感到不适并非简单的个人偏好问题,而可能是一种需要重视的医学现象,这一发现挑战了我们对"高领不适"的传统理解。据医学专家介绍,穿高领衣物引发的不适主要源于两种机制:"衣领综合征"和感官过载反应。 "衣领综合征"在医学上被称为颈动脉窦综合征。当高领衣物过度压迫颈部动脉窦时,会引发迷走神经反射性过度反应,导致心率减慢、血压骤降,进而出现头晕...
14:57
在AI搜索时代,用户提问的方式已从输入关键词转变为自然语言对话,而搜索引擎的回应也不再是传统的“10个蓝色链接”,而是直接生成的对话式答案。这种变革正在重塑着品牌与用户的连接方式——当AI直接给出答案时,品牌是否能被引用、如何被描述,决定了它在数字世界中的可见度。这就是为什么GEO(生成式引擎优化)正在成为企业数字战略的核心。 与传统SEO追求网页排名不同,...
14:55
2025年10月29日,生态环境部在例行新闻发布会上正式宣布,将全面加速电力产品碳足迹系列国家标准的制定工作。这一重要举措标志着我国在绿色低碳发展道路上迈出了坚实一步,为全球气候治理贡献中国智慧。应对气候变化司司长夏应显在发布会上详细阐述了相关工作计划,他指出,相关部门将重点深化电力碳足迹因子的研究工作,通过科学严谨的测算方法,为标准制定提供精准数据支撑。同...
14:55
Pinetree生物科技近日传来振奋人心的消息,成功完成总额高达4700万美元的B轮融资,投资方阵容强大,包括SGI风险投资、Atinum投资等多家业内知名机构联合领投。作为肿瘤治疗领域的创新先锋,Pinettree始终聚焦于攻克癌症耐药性这一世界性难题,其核心战略是通过开发下一代靶向蛋白降解剂(TPD)实现突破。 该公司自主研发的AbReptor平台堪...
14:55
截至2025年9月,滴滴出行精心打造的“长辈版”服务已累计为全国老年人提供超过2.65亿次的出行服务。这一专为老年群体量身定制的服务,最初以“助老打车”的名称面世,其核心目标在于帮助老年人轻松便捷地完成打车需求。通过持续优化产品体验,滴滴不仅大幅简化了操作界面,更对呼叫流程进行了深度改造,致力于为老年用户提供更加流畅、直观的出行体验。目前,该服务已成功覆盖全...
14:55
2025年10月29日,亚马逊云科技正式发布革命性多模态嵌入模型Amazon Nova,标志着AI技术迈向全新维度。这款创新模型已率先在Amazon Bedrock平台上架运行,成为业界首款同时支持文本、文档、图像、视频及音频五种数据模态的统一嵌入解决方案。Amazon Nova专为Agentic RAG(检索增强生成)与语义搜索场景量身打造,通过先进的语义...
14:55
科技媒体Android Authority最新报道,谷歌正在积极研发车载系统Android Auto的主屏幕小组件功能,为用户带来更丰富的车载交互体验。通过深入拆解最新测试版应用,我们发现用户现在可以在车机主界面灵活添加各类小组件,包括天气、秒表等实用工具,而左侧小组件区域占据了屏幕约35%-40%的显著位置。 目前Pixel天气组件在测试中表现稳定,为用户...
14:55
2025日本移动出行展今日盛大开幕,大发品牌携重磅力作K-Open概念车震撼登场,正式宣告停产经典车型Copen的传奇延续。这款备受瞩目的新车不仅传承了Copen灵动的设计基因,更以全新后驱平台和纯正手动变速箱,重新定义了紧凑型车的驾驶体验。丰田集团社长佐藤恒治在揭幕仪式上特别强调,董事长丰田章男将深度参与车辆的路试评估,彰显对这款创新力作的高度重视。 在研...
14:55
2025年10月29日,中国领先的工业品电商平台京东工业与全球知名测试测量仪器品牌福禄克中国正式达成战略合作,双方共同签署了全面合作框架协议。此次合作将聚焦于工业品采购、智慧物流、金融服务、后市场服务以及公益事业五大核心领域,通过深度协同实现资源共享与优势互补。作为仪器仪表行业供应链数字化转型的关键举措,双方将携手推动行业整体升级,显著提升产业链运行效率与协...
14:55
近日IBM正式宣布完成对软件开发商Txture的收购交易。这一战略性举措标志着IBM在云转型及信息技术架构管理领域的重大布局。Txture作为行业领先的技术平台,长期专注于云就绪应用评估、目标架构生成及迁移路径规划等核心业务,其自主研发的数据采集技术和自动化评估系统在业界享有盛誉。 此次收购将显著增强IBM在企业数字化转型中的技术实力。随着企业IT环境日益复...
14:55
维基百科创始人吉米・威尔士近日在CNBC科技峰会上对埃隆・马斯克新推出的"Grokipedia"项目表达了公开质疑。这一事件源于马斯克对维基百科存在"觉醒偏见"的尖锐指控,威尔士在回应中坚定维护了维基百科的核心原则——坚持采用主流信源以确保内容质量。他指出,这一原则是维基百科25年来赖以生存和发展的基石,也是区别于其他信息平台的关键所在。 威尔士着重强调,大...
14:54
2025年日本移动出行展上,本田汽车携旗下全新纯电概念车Super-ONE震撼登场。这款备受瞩目的原型车以"超越传统规范、提供独一无二驾驶体验"为核心设计理念,向世界展示了本田在电动化领域的创新探索。Super-ONE最引人注目的亮点在于其搭载的Boost模式,该系统通过精密模拟7速变速器的换挡逻辑,并配合主动声音控制系统,能够真实还原传统燃油车的引擎声浪与...