微新创想(idea2003.com)8月1日 消息:在人工智能领域迎来重大突破之际,研究人员成功开发出一种名为3D-LLM的创新方法,旨在将3D环境感知能力深度融入大型语言模型。这一技术革新将使聊天机器人能够精准理解和处理三维空间概念,从而在复杂的三维世界中实现更智能的导航与操作。
当前的大型语言模型和多模态语言模型,如ChatGPT、GPT-4和Flamingo,虽已展现出卓越的语音处理和2D图像理解能力,但它们在3D环境和物理空间认知方面仍存在明显短板。3D LLM的问世,正是为了填补这一技术空白。通过引入点云等三维数据作为输入,该模型能够赋予AI对三维空间的基本认知,使其掌握空间关系、物理属性和可供性等关键概念——这些要素单纯依靠二维图像难以有效传递。
3D LLM的应用前景广阔,特别是在机器人技术和实体人工智能领域。它将使人工智能助理能够在三维世界中实现更精准的路径规划、任务执行和情境响应。然而,模型训练面临的一大挑战是三维与自然语言数据对的稀缺性。为解决这一问题,研究团队巧妙地运用了ChatGPT的提示技术,生成多样化的三维场景描述和对话内容。这一创新举措成功构建了一个包含超过30万条三维文本示例的数据集,涵盖了三维标注、视觉问答、任务分解和导航等核心任务。
例如,在训练过程中,ChatGPT被要求通过询问不同视角下物体可见性的问题来描述三维卧室场景。此外,研究团队还研发了三维特征提取器,将三维数据转化为与BLIP-2和Flamingo等预训练的二维视觉语言模型兼容的格式。同时,三维定位机制的引入,使得模型能够通过将文本描述与三维坐标关联,精准捕捉空间信息。这些技术突破显著提升了BLIP-2等模型在训练3D LLM理解三维场景方面的效率。
实验结果令人振奋:3D语言模型不仅能够生成对三维场景的自然语言描述,还能进行三维感知对话,并将复杂任务分解为具体的三维动作序列。这一系列成就表明,通过融合空间推理能力,人工智能在三维环境感知方面正逐步逼近人类水平。展望未来,研究人员计划将这一模型扩展至声音等其他数据模式,并训练其执行更多样化的任务,从而全面提升AI助手在多模态环境中的综合能力。最终目标是将这些技术进步应用于能够与三维环境智能交互的实体AI助手,催生出更智能的机器人和一系列创新的人工智能应用场景。