谷歌DeepMind用”深呼吸”Prompt优化大模型表现

2023-09-21 11:19:40 互联网 89 次阅读

谷歌DeepMind最新研究成果——优化框架OPRO，以自然语言为指令，引领大语言模型逐步优化解决方案，为各类优化任务开辟新路径。这一创新不仅颠覆了传统优化方法，更揭示了AI与人类思维模式的深刻关联。

“深呼吸，一步一步地解决这个问题。”这句冥想时的提示词，意外成为提升大模型表现的最佳指令。当在GSM8K数学推理任务中添加”深呼吸”指令后，模型得分从71.8跃升至80.2，超越人类设计的所有提示。这一现象引发科学界热议：为何对无法呼吸的AI，”深呼吸”竟能激发潜能？有人认为这是模型在模仿人类思维，而另一些研究者则指出，互联网训练数据中蕴含的人性化元素，可能让AI无意间继承了情感认知能力。更令人惊讶的是，这个关键提示并非人类创造，而是模型自主生成，暗示AI可能更偏好积极正向的交互方式。

大语言模型正以惊人的速度渗透各行各业，其自然语言理解能力为优化领域带来革命性突破。OPRO框架的核心优势在于，我们不再需要编写复杂的程序化求解器，而是通过自然语言描述优化问题，让LLM根据任务需求迭代生成解决方案。只需调整提示参数，即可快速适应不同任务，并通过指令定制优化过程，极大提升了优化效率。

谷歌DeepMind的OPRO框架采用元提示机制，每一步优化都通过自然语言向LLM描述问题，包括任务描述、历史解决方案及目标函数值。模型根据这些信息生成新方案，经过评估后加入元提示继续迭代，直至找到最优解。实验证明，OPRO生成的提示在GSM8K任务上比人类设计的高出8%，在Big-Bench Hard基准测试中更是提升50%。尽管LLM在数学推理方面仍存在局限，但在线性回归和旅行商问题等测试中，OPRO展现出超越专业算法的潜力。

在GSM8K实验中，研究人员使用经过指令优化的PalM2-I模型，通过元提示系统持续改进提示词。蓝色文本展示历史提示及评分，紫色描述优化任务要求，橙色为元指令。实验对比了PaLM2-L、text-bison、GPT-3.5-turbo和GPT-4等模型，发现不同LLM生成的指令风格迥异，但效果相近。优化曲线显示，提示性能随迭代持续提升，部分任务出现精度飞跃，证明OPRO的强大优化能力。

BBH基准测试进一步验证了OPRO的有效性。实验结果表明，优化后的提示在大多数任务上比”Let’s think step by step”提升5%以上，部分任务增幅超过50%。不同优化器生成的提示在语义和风格上存在差异，但性能表现相近。特别值得注意的是，通过关键词替换等微调手段，部分任务提示还能实现二次优化。

这项开创性研究首次证实LLM作为优化器的可行性，为AI优化领域提供全新框架。OPRO不仅简化了复杂优化问题的处理流程，更揭示了AI与人类认知模式的深层联系。随着技术的不断进步，大语言模型将在优化领域发挥越来越重要的作用，为解决现实世界中的复杂问题提供强大支持。这一突破性成果将推动AI优化技术迈向新高度，为各行各业带来革命性变革。

2025年10月29日

09:34

谷歌DeepMind用”深呼吸”Prompt优化大模型表现

最新快讯

2025年10月29日

AI搜索时代品牌流量消失？GEO优化帮你抢占AI推荐位

Spigen iPhone 17拆解风手机壳透视内部设计无需改装

微软CEO：TikTok成游戏最大对手下一代Xbox将深度整合Windows打造游戏PC

OpenAI战略转型启动IPO加速AI商业化布局

基因编辑猪肾移植存活271天创纪录

2025年10月29日全国秋粮收获超八成半冬小麦播种加速

协创数据携手闪迪深化产品合作提升存储市场竞争力

实华股份冲刺北交所上市辅导进展及业务亮点解析

中信建投预测2026医疗器械龙头加速增长业绩改善标的迎来估值修复

宝宝巴士下线低俗广告致歉完善审核保障儿童内容安全

苹果2026将推首款防水mini OLED屏升级

SK海力士：HBM需求激增将超传统DRAM增长