微新创想(idea2003.com)7月28日讯 伦敦帝国理工学院与全球领先的AI研究机构DeepMind联合宣布一项突破性研究成果——他们成功设计了一个创新的AI框架,将语言能力深度整合到强化学习智能体的核心推理机制中。该框架巧妙地融合了大型语言模型(LLM)与视觉语言模型(VLM),为解决强化学习领域长期存在的四大核心挑战提供了全新方案,包括在奖励信号稀疏场景下的高效探索策略、顺序学习过程中的数据重用优化、新任务场景下的智能能力调度机制,以及从专家智能体行为观察中高效学习的路径。
通过将语言模型和视觉语言模型作为智能体的基本推理工具,这一创新框架显著提升了强化学习智能体对复杂任务和动态环境的理解能力。研究团队发现,当智能体能够借助语言模型进行逻辑推理、借助视觉语言模型解析多模态信息时,其决策效率和任务完成质量得到质的飞跃。特别是在需要处理非结构化信息或执行多步骤指令的场景中,这种双模型协同推理机制展现出超越传统方法的优越性能。
实验数据显示,采用该框架的AI智能体在多个基准测试中均取得了显著进步。例如,在模拟机器人自主导航任务中,智能体能够通过自然语言指令理解环境规则并规划最优路径;在医疗影像诊断场景中,结合视觉描述与专业知识的推理能力使诊断准确率提升超过20%。这些成果充分验证了语言模型与视觉语言模型作为强化学习智能体核心推理组件的可行性与有效性。
该研究成果已正式发表于arXiv预印本平台,论文标题为《Language as a Core Reasoning Tool for Reinforcement Learning Agents》,完整链接为https://arxiv.org/abs/2307.09668。这一创新不仅为强化学习领域带来了新的技术突破,也为未来通用人工智能的发展开辟了重要方向,预示着AI智能体将具备更强的环境适应能力和更接近人类的认知水平。