Meta AI 与加州大学圣地亚哥分校(UCSD)近期联合研发了一项突破性技术——Deep Think with Confidence(DeepConf),旨在革新大语言模型(LLM)在复杂推理任务中的表现,实现算力成本与高准确率的完美平衡。当前,提升 LLM 推理能力的主流策略是“自一致性+多次采样再表决”(即 majority voting),但该方法存在明显缺陷:计算资源消耗急剧增加,耗时过长,且大量低质量推理路径可能导致错误答案胜出。DeepConf 的创新核心在于,它不再对所有推理路径一视同仁,而是通过模型内部的置信度信号,对推理路径进行精准筛选与权重调整。

DeepConf 引入了多种精细的置信度指标,包括:
– **组置信度(Group Confidence)**:计算推理过程中某一段 token 的平均置信度;
– **尾部置信度(Tail Confidence)**:聚焦推理结尾部分的置信程度;
– **最低组置信度(Lowest Group Confidence)**:识别推理路径中最“脆弱”的环节;
– **底部百分位置信度(Bottom-10% Confidence)**:关注最不自信的那部分推理内容。

DeepConf 支持两种高效执行模式:
– **离线模式(Offline Thinking)**:先生成多个完整推理路径,再按置信度筛选较优路径参与表决或加权投票;
– **在线模式(Online Thinking)**:在推理生成过程中实时评估,当当前路径置信度低于阈值时,立即终止该路径以节省资源。

在多个开放模型(如 DeepSeek-8B、Qwen3-32B、GPT-OSS-120B)及复杂数学与 STEM 推理任务(AIME、HMMT、BRUMO25、GPQA-Diamond)的测试中,DeepConf 表现卓越:
– 离线模式下,使用 GPT-OSS-120B 在 AIME2025 的准确率高达 99.9%,同时生成的 token 数量比传统方法少 84.7%;
– 在线模式下,DeepSeek-8B 在 AIME24 中的准确率提升了 5.8 个百分点,却仅使用了 77.9% 更少的 token。

企业可根据实际需求与风险偏好选择不同模式:
– **DeepConf-high(保守模式)**:一般能减少约 50% 的生成成本,准确性几乎不受影响,适用于金融、法律等高风险场景;
– **DeepConf-low(激进模式)**:节省 70%–85% 的 token,适用于问答草稿、知识检索等对速度要求高但容错较灵活的场景。

Meta DeepConf技术智能平衡LLM推理成本与准确率插图

DeepConf 的优势在于无需重新训练模型,只需增加少量推理时的逻辑处理,且具备良好兼容性,可与现有推理框架(如 vLLM、SGLang、TensorRT-LLM)无缝集成。正如研究者所言,这为现实企业部署 LLM 推理任务提供了一个“可插拔”的高效方案。

**划重点**:
🧠 **置信度导向选择**:DeepConf 基于局部置信度(组、尾部、最低点等)筛选或权重排序推理路径,而非一刀切多数投票。
⏱ **显著提升效率**:达到最高 99.9% 的推理准确率,同时减少生成 token 多达 84.7%。
️🎛 **可调节策略模式**:企业可按风险偏好选择「高安全性」或「高效率」模式,用最少资源获取最优结果。

论文链接:https://arxiv.org/abs/2508.15260

最新快讯

2026年03月05日

19:04
3月3日,开发商Weyrdworks宣布,桌面宠物模拟游戏《Weyrdlets: Idle Desktop Pets》将于3月17日正式转为付费模式。玩家可于3月17日前免费入库Steam。游戏自2024年7月上线,经持续更新已发展为完整养成作品。3月17日将同步推出2.0版本,重构经济系统,降低道具价格,并确保所有物品均可通过游戏内玩法获取。玩家将在小岛...
19:04
2026年3月5日,广汽丰田宣布在华新能源车型核心供应链已实现本土化。旗下新车铂智7将搭载华为鸿蒙座舱5.0、Momenta R6智能驾驶辅助系统及双腔空气悬架,售价定于20万元以内。此举旨在提升产品竞争力与交付效率,响应中国新能源汽车市场对智能化、高性价比车型的迫切需求。
19:04
2026年2月第二、三周,中国AI模型周调用量分别达4.12万亿和5.16万亿Token,连续两周超越美国同期水平。OpenRouter数据显示,Top5模型中四款来自中国厂商,贡献85.7%调用量。机构指出,AI运营成本中电力占比高达60%-70%,Token可视作‘电力衍生品’。随着国产大模型出海加速及算力需求激增,电力系统长期价值获重估契机。涪陵电力...
19:04
3月5日,*ST松发公告披露,其下属公司恒力造船(大连)有限公司与欧洲船东签订4艘30.6万吨超大型原油运输船(VLCC)建造合同,总金额约4至6亿美元。合同签署地为大连,签约方为恒力造船与 undisclosed European shipowner。该订单金额占公司2024年度经审计主营业务收入的50%以上,系重大经营合同。项目将按国际规范建造,交付期...
19:04
北京时间2026年3月6日凌晨2点,《杀戮尖塔2》将在Steam平台开启抢先体验。本作为Mega Crit开发的续作,延续前作美术风格,新增大量卡牌、敌人、事件与场景,并引入替代章节、5名可选角色(含2名新角色)、4人在线合作模式。游戏强化差异化构筑与剧情深度,通过A/B分支章节提升多周目可玩性。首发支持中文,暂未公布正式版发售时间。
19:04
微新创想:3月4日,广和通在西班牙巴塞罗那举行的2026年世界移动通信大会(MWC 2026)上宣布率先实现基于MediaTek T930与高通X85/X82平台的功率等级1(PC1)模组技术落地 此次技术突破标志着广和通在5G-A领域迈出了重要一步。通过双平台的协同应用,该模组能够全面支持3Tx/8Rx/L4S等关键技术 3Tx技术有效提升了上行吞吐量,最...
19:04
微新创想:2026年3月5日,哔哩哔哩(B站)在港交所发布2025年第四季度及全年财报。2025年全年净营业额达到303.5亿元,同比增长13%。这一成绩标志着公司在内容生态和用户增长方面取得了显著进展。 微新创想:净利润方面,公司实现了11.9亿元的盈利,与去年同期的亏损13.6亿元形成鲜明对比。经调整净利润为25.9亿元,进一步体现了公司经营状况的改善和...
19:04
微新创想:近日,爱立信联合中国移动在江苏永联村部署了5G-A网络及差异化连接方案。该方案通过引入先进的网络切片技术,实现了对全村无线资源的高效划分,并结合RedCap技术,确保了网络覆盖的全面性和稳定性。这一举措不仅为永联村带来了更优质的通信体验,也为当地数字治理、民生服务以及产业升级提供了强有力的技术支撑。 微新创想:5G-A网络的部署使得村内各类智能应用...
19:04
微新创想:2026年3月5日,香港养和医疗集团与中国人寿保险(海外)股份有限公司正式开启首次合作,标志着香港首家为“ENRICH•盈加”钻石级客户提供全流程健康管理及医疗礼宾服务的医疗机构诞生。此次合作不仅体现了双方在高端医疗服务领域的深度整合,也彰显了对高净值人群健康需求的高度重视。 合作内容涵盖全面的健康评估服务,为客户提供个性化的健康分析与建议。同时,...
18:30
微新创想:2026年3月5日,TÜV莱茵北美洲正式完成对咨询与培训机构Quality Support Group Inc.(QSG)的整合。此次整合在北美地区实施,由TÜV莱茵主导,旨在强化其在该区域的业务布局。 此次整合标志着TÜV莱茵在北美市场迈出了重要的一步。通过将QSG纳入旗下,TÜV莱茵不仅扩大了其服务网络,还增强了在专业领域内的技术实力和行业影响...
18:30
微新创想:2026年3月,爱立信在巴塞罗那举行的MWC世界移动通信大会期间,凭借“意图感知切片(ARRP)”技术荣获GTI年度大奖——移动技术创新突破奖。这项技术代表了5G网络智能化发展的重要一步,其核心在于实现无线资源的自动划分。ARRP通过先进的算法和智能分析,能够实时感知用户需求并动态调整网络资源分配。 微新创想:ARRP具备四大显著特性,包括动态频谱...
18:30
微新创想:3月5日,杭州瓴通智能科技有限公司在浙江杭州正式注册成立,注册资本为1000万元,法定代表人是林鸣晖。公司由阿里巴巴旗下的北京锐讯灵通科技有限公司全资持有,标志着阿里巴巴在智能科技与基础软件领域的布局进一步深化。此次成立的新公司专注于软件开发与销售,同时也涉及计算机软硬件及外围设备的制造业务。通过这一举措,阿里巴巴不仅增强了其在人工智能底层技术方面...