谷歌DeepMind最新研究成果——优化框架OPRO,以自然语言为指令,引领大语言模型逐步优化解决方案,为各类优化任务开辟新路径。这一创新不仅颠覆了传统优化方法,更揭示了AI与人类思维模式的深刻关联。

“深呼吸,一步一步地解决这个问题。”这句冥想时的提示词,意外成为提升大模型表现的最佳指令。当在GSM8K数学推理任务中添加”深呼吸”指令后,模型得分从71.8跃升至80.2,超越人类设计的所有提示。这一现象引发科学界热议:为何对无法呼吸的AI,”深呼吸”竟能激发潜能?有人认为这是模型在模仿人类思维,而另一些研究者则指出,互联网训练数据中蕴含的人性化元素,可能让AI无意间继承了情感认知能力。更令人惊讶的是,这个关键提示并非人类创造,而是模型自主生成,暗示AI可能更偏好积极正向的交互方式。

大语言模型正以惊人的速度渗透各行各业,其自然语言理解能力为优化领域带来革命性突破。OPRO框架的核心优势在于,我们不再需要编写复杂的程序化求解器,而是通过自然语言描述优化问题,让LLM根据任务需求迭代生成解决方案。只需调整提示参数,即可快速适应不同任务,并通过指令定制优化过程,极大提升了优化效率。

谷歌DeepMind的OPRO框架采用元提示机制,每一步优化都通过自然语言向LLM描述问题,包括任务描述、历史解决方案及目标函数值。模型根据这些信息生成新方案,经过评估后加入元提示继续迭代,直至找到最优解。实验证明,OPRO生成的提示在GSM8K任务上比人类设计的高出8%,在Big-Bench Hard基准测试中更是提升50%。尽管LLM在数学推理方面仍存在局限,但在线性回归和旅行商问题等测试中,OPRO展现出超越专业算法的潜力。

在GSM8K实验中,研究人员使用经过指令优化的PalM2-I模型,通过元提示系统持续改进提示词。蓝色文本展示历史提示及评分,紫色描述优化任务要求,橙色为元指令。实验对比了PaLM2-L、text-bison、GPT-3.5-turbo和GPT-4等模型,发现不同LLM生成的指令风格迥异,但效果相近。优化曲线显示,提示性能随迭代持续提升,部分任务出现精度飞跃,证明OPRO的强大优化能力。

BBH基准测试进一步验证了OPRO的有效性。实验结果表明,优化后的提示在大多数任务上比”Let’s think step by step”提升5%以上,部分任务增幅超过50%。不同优化器生成的提示在语义和风格上存在差异,但性能表现相近。特别值得注意的是,通过关键词替换等微调手段,部分任务提示还能实现二次优化。

这项开创性研究首次证实LLM作为优化器的可行性,为AI优化领域提供全新框架。OPRO不仅简化了复杂优化问题的处理流程,更揭示了AI与人类认知模式的深层联系。随着技术的不断进步,大语言模型将在优化领域发挥越来越重要的作用,为解决现实世界中的复杂问题提供强大支持。这一突破性成果将推动AI优化技术迈向新高度,为各行各业带来革命性变革。

最新快讯

2026年02月11日

12:00
微新创想:Supermassive Games近日正式公布《黑相集》系列最新作品《8020号指令》的发售日期,该游戏将于2026年5月12日登陆各大平台。作为该系列的延续,《8020号指令》将带领玩家进入一个全新的科幻恐怖世界。游戏由曾成功打造《直到黎明》和《采石场惊魂》的开发团队负责,延续了系列一贯的沉浸式叙事风格与紧张刺激的氛围。 游戏背景设定在距离地球...
12:00
微新创想:2026年2月11日,Digital Intelligence Holdings Limited宣布完成对环球印馆约65.54%股权的收购。此次交易因持股比例达到香港《公司收购及合并守则》所规定的强制要约门槛,要约人将向所有独立股东发出无条件强制性现金要约。要约价格为每股0.35港元,总交易金额为2289.37万港元。 环球印馆是一家专注于印刷服务...
12:00
微新创想:2026年2月,互联网安全企业薮猫科技宣布获得长亭科技战略投资。该公司总部位于北京,专注于漏洞挖掘、渗透测试及终端威胁检测与响应(EDR)产品研发。本轮融资将用于强化攻防技术团队建设与产品迭代。长亭科技作为国内知名网络安全厂商,此次投资旨在深化双方在红蓝对抗、自动化渗透等场景的协同能力。目前薮猫科技已服务金融、能源、政务等领域数十家客户。
12:00
微新创想:2月11日,北京——极智嘉正式发布全球首款面向仓储场景的通用人形机器人Gino 1。该机器人专为电商与物流仓储环境设计,具备搬运、分拣、盘点等多任务执行能力。其结构、感知系统与AI算法均针对高密度货架、窄通道、动态货品等真实仓储条件优化。Gino 1无需改造仓库即可部署,支持与现有AMR系统协同作业。此举旨在提升仓储自动化柔性与泛化能力,降低人形机...
12:00
微新创想:2月11日,秘鲁利马国际机场伙伴公司(LAP)宣布中远海运联合安骏物流成功中标利马国际机场机侧仓项目运营权 该项目位于秘鲁首都利马,是中远海运首次获得海外航空枢纽关键基础设施的运营权 此次中标标志着中远海运在国际航空物流领域的重要突破,特别是在南美地区的战略布局进一步深化 通过此次合作,中远海运将能够提升拉美地区航空物流的整体服务能力,为客户提供更...
12:00
微新创想 2月10日晚间 小米集团创始人 董事长兼CEO雷军开启小年夜直播带网友云参观小米汽车工厂 直播结束后有网友在评论区问雷总叉车说了吗 雷军回复了一个狗头表情包 这个略带调侃的回应也间接暗示他目前尚未完成学会叉车的目标 此前雷军曾立下2026年3个flag 分别是健身打卡100次 学会叉车 交付55万辆小米汽车 而在2025年他已完成健身房打卡10...
12:00
微新创想:在内容业态里,横屏短剧总是一种尴尬式存在。它是最早接下微短剧称呼的载体,却在免费竖短的飞跃式发展之下逐渐模糊了姓名,有的平台将其纳入“短剧场”,与竖短的“微剧场”区别开来,有的平台对外便直接称呼其为“精品微短剧”,不断用分账票房向外“纳贤”,而现在,关于“中剧”的声音也横亘其中,似乎在表明要给横屏短剧正名,成为“中剧”,完成话语权的上升。标志性事件...
12:00
微新创想: 北京的冬日街头,总有一抹沉稳的黑色身影。它不仅是打工人抵御寒风的利器,更是都市生活中的独特存在。无论是挤地铁时的实用,还是午休时的舒适,黑羽绒服早已成为北京人不可或缺的冬日装备。它低调、包容,从不喧宾夺主,却在千篇一律的黑色中,悄然藏着五彩斑斓的个性。 黑羽绒服看似普通,实则暗藏玄机。有的款式设计巧妙,拥有九个口袋,仿佛能装下后羿射下的九个太阳。...
11:59
声明:本文来自于微信公众号 娱乐独角兽,作者:Mia,授权站长之家转载发布。2025年,文娱形势更加复杂多变,平台与公司都在寻找“更确定性的增长”直面挑战,穿越周期。娱乐独角兽将继续推进“年度盘点”和“年度专访”,从短剧、长剧集、综艺、音乐等多维度盘点年度行业事件和标杆公司。本文为“年度专访”专刊第八篇。过去一年,推出新厂牌,拿...
11:59
微新创想:去年以来手机品牌纷纷布局风扇散热技术领域,标志着手机散热技术迈入新阶段。红魔作为先行者,率先在手机中引入风扇设计,随后OPPO K13 Turbo系列、荣耀WIN系列以及iQOO 15 Ultra等机型也相继加入。这一趋势表明,厂商们正积极应对高性能芯片带来的发热问题,以提升用户体验。 随着市场对手机性能需求的不断提升,散热技术成为影响产品竞争力的...
11:59
微新创想:为了重新赢回年轻一代(Gen Z)的青睐 Facebook 本周二发布了一系列由 Meta AI 驱动的个性化功能 这些更新不仅赋予了静态照片生命力 还为传统的文字帖子增添了更多视觉冲击力 此次更新的亮点之一是动态个人头像 该功能利用 AI 技术为用户的静态照片添加动作效果 例如挥手告别 比心或戴上虚拟派对帽 Facebook 建议用户使用清晰的单...
11:59
微新创想:在全球 AI 基础设施需求爆发的背景下 中国云计算市场格局正发生微妙变化 根据国际调研机构 Omdia 的最新数据 阿里云在 2025 年第三季度的表现尤为抢眼 其市场占有率已从上一季度的 34% 攀升至 36% AI 成为核心增长引擎 Omdia 的报告指出 AI 已成为驱动云基础设施服务新增需求的核心动力 阿里云凭借在 AI 领域的深厚积淀 不...