Meta DeepConf技术智能平衡LLM推理成本与准确率

2025-09-04 09:36:36 AI动态 34 次阅读

Meta AI 与加州大学圣地亚哥分校（UCSD）近期联合研发了一项突破性技术——Deep Think with Confidence（DeepConf），旨在革新大语言模型（LLM）在复杂推理任务中的表现，实现算力成本与高准确率的完美平衡。当前，提升 LLM 推理能力的主流策略是“自一致性+多次采样再表决”（即 majority voting），但该方法存在明显缺陷：计算资源消耗急剧增加，耗时过长，且大量低质量推理路径可能导致错误答案胜出。DeepConf 的创新核心在于，它不再对所有推理路径一视同仁，而是通过模型内部的置信度信号，对推理路径进行精准筛选与权重调整。

DeepConf 引入了多种精细的置信度指标，包括：
– **组置信度（Group Confidence）**：计算推理过程中某一段 token 的平均置信度；
– **尾部置信度（Tail Confidence）**：聚焦推理结尾部分的置信程度；
– **最低组置信度（Lowest Group Confidence）**：识别推理路径中最“脆弱”的环节；
– **底部百分位置信度（Bottom-10% Confidence）**：关注最不自信的那部分推理内容。

DeepConf 支持两种高效执行模式：
– **离线模式（Offline Thinking）**：先生成多个完整推理路径，再按置信度筛选较优路径参与表决或加权投票；
– **在线模式（Online Thinking）**：在推理生成过程中实时评估，当当前路径置信度低于阈值时，立即终止该路径以节省资源。

在多个开放模型（如 DeepSeek-8B、Qwen3-32B、GPT-OSS-120B）及复杂数学与 STEM 推理任务（AIME、HMMT、BRUMO25、GPQA-Diamond）的测试中，DeepConf 表现卓越：
– 离线模式下，使用 GPT-OSS-120B 在 AIME2025 的准确率高达 99.9%，同时生成的 token 数量比传统方法少 84.7%；
– 在线模式下，DeepSeek-8B 在 AIME24 中的准确率提升了 5.8 个百分点，却仅使用了 77.9% 更少的 token。

企业可根据实际需求与风险偏好选择不同模式：
– **DeepConf-high（保守模式）**：一般能减少约 50% 的生成成本，准确性几乎不受影响，适用于金融、法律等高风险场景；
– **DeepConf-low（激进模式）**：节省 70%–85% 的 token，适用于问答草稿、知识检索等对速度要求高但容错较灵活的场景。

DeepConf 的优势在于无需重新训练模型，只需增加少量推理时的逻辑处理，且具备良好兼容性，可与现有推理框架（如 vLLM、SGLang、TensorRT-LLM）无缝集成。正如研究者所言，这为现实企业部署 LLM 推理任务提供了一个“可插拔”的高效方案。

**划重点**：
🧠 **置信度导向选择**：DeepConf 基于局部置信度（组、尾部、最低点等）筛选或权重排序推理路径，而非一刀切多数投票。
⏱ **显著提升效率**：达到最高 99.9% 的推理准确率，同时减少生成 token 多达 84.7%。
️🎛 **可调节策略模式**：企业可按风险偏好选择「高安全性」或「高效率」模式，用最少资源获取最优结果。

论文链接：https://arxiv.org/abs/2508.15260

2026年03月05日

20:08

Meta DeepConf技术智能平衡LLM推理成本与准确率

最新快讯

2026年03月05日

AI冲击下招聘缩水38% 管理人才成企业新焦点

Nothing Phone（4a）Pro发布：起售价2801元，高通骁龙7系旗舰配置

欧洲完成全球首例飞机与同步卫星吉比特激光通信试验

亚太消费者青睐AI购物辅助却谨慎对待AI代付

高途教育2025财年营收增长35%净亏损大幅收窄

Akash发布首款金刚石冷却AI服务器助力高效散热与性能提升

重庆江津福朋喜来登酒店盛大开业提升高端商务休闲接待能力

魔法原子创始人吴长征离职创业技术团队稳定运营

《Weyrdlets》3月17日转为付费游戏并推出2.0版本更新

广汽丰田新能源车型本土化提速铂智7搭载鸿蒙座舱引领智能变革

中国AI模型周调用量超美国Token成新型电力指标

*ST松发下属公司签订4艘VLCC建造合同金额超6亿美元助力高端制造转型