Meta AI 与加州大学圣地亚哥分校(UCSD)近期联合研发了一项突破性技术——Deep Think with Confidence(DeepConf),旨在革新大语言模型(LLM)在复杂推理任务中的表现,实现算力成本与高准确率的完美平衡。当前,提升 LLM 推理能力的主流策略是“自一致性+多次采样再表决”(即 majority voting),但该方法存在明显缺陷:计算资源消耗急剧增加,耗时过长,且大量低质量推理路径可能导致错误答案胜出。DeepConf 的创新核心在于,它不再对所有推理路径一视同仁,而是通过模型内部的置信度信号,对推理路径进行精准筛选与权重调整。

DeepConf 引入了多种精细的置信度指标,包括:
– **组置信度(Group Confidence)**:计算推理过程中某一段 token 的平均置信度;
– **尾部置信度(Tail Confidence)**:聚焦推理结尾部分的置信程度;
– **最低组置信度(Lowest Group Confidence)**:识别推理路径中最“脆弱”的环节;
– **底部百分位置信度(Bottom-10% Confidence)**:关注最不自信的那部分推理内容。

DeepConf 支持两种高效执行模式:
– **离线模式(Offline Thinking)**:先生成多个完整推理路径,再按置信度筛选较优路径参与表决或加权投票;
– **在线模式(Online Thinking)**:在推理生成过程中实时评估,当当前路径置信度低于阈值时,立即终止该路径以节省资源。

在多个开放模型(如 DeepSeek-8B、Qwen3-32B、GPT-OSS-120B)及复杂数学与 STEM 推理任务(AIME、HMMT、BRUMO25、GPQA-Diamond)的测试中,DeepConf 表现卓越:
– 离线模式下,使用 GPT-OSS-120B 在 AIME2025 的准确率高达 99.9%,同时生成的 token 数量比传统方法少 84.7%;
– 在线模式下,DeepSeek-8B 在 AIME24 中的准确率提升了 5.8 个百分点,却仅使用了 77.9% 更少的 token。

企业可根据实际需求与风险偏好选择不同模式:
– **DeepConf-high(保守模式)**:一般能减少约 50% 的生成成本,准确性几乎不受影响,适用于金融、法律等高风险场景;
– **DeepConf-low(激进模式)**:节省 70%–85% 的 token,适用于问答草稿、知识检索等对速度要求高但容错较灵活的场景。

Meta DeepConf技术智能平衡LLM推理成本与准确率插图

DeepConf 的优势在于无需重新训练模型,只需增加少量推理时的逻辑处理,且具备良好兼容性,可与现有推理框架(如 vLLM、SGLang、TensorRT-LLM)无缝集成。正如研究者所言,这为现实企业部署 LLM 推理任务提供了一个“可插拔”的高效方案。

**划重点**:
🧠 **置信度导向选择**:DeepConf 基于局部置信度(组、尾部、最低点等)筛选或权重排序推理路径,而非一刀切多数投票。
⏱ **显著提升效率**:达到最高 99.9% 的推理准确率,同时减少生成 token 多达 84.7%。
️🎛 **可调节策略模式**:企业可按风险偏好选择「高安全性」或「高效率」模式,用最少资源获取最优结果。

论文链接:https://arxiv.org/abs/2508.15260

最新快讯

2026年03月05日

20:08
微新创想:2025年受生成式AI的影响,软件开发、数据、法律、金融等岗位的招聘数量出现了显著下降,整体同比下降幅度达到38%。这一变化反映了AI技术正在深刻改变各行各业的工作模式与人才需求。 麦肯锡的研究指出,企业正在从单纯“替代员工”的思路,转向“管理善用AI的员工”。这意味着,企业更看重员工如何与AI协同工作,而不是单纯依赖AI来取代人力。 专家分析认为...
20:08
微新创想:Nothing公司于3月5日正式推出了Phone(4a)及Phone(4a)Pro两款全新智能手机。这两款机型延续了Nothing品牌一贯的极简设计风格,同时在配置和性能方面也进行了全面升级。 Phone(4a)作为标准版,配备了一块6.78英寸的120Hz OLED屏幕,能够提供流畅的视觉体验。其后置摄像头系统为50MP双摄,配合独特的Glyph...
20:08
微新创想:3月5日,欧洲空间局(ESA)、荷兰TNO与德国TESAT在法国尼姆成功完成全球首次飞机与地球同步轨道卫星之间的吉比特级激光通信试验。此次试验中,飞机终端在距离地球3.6万公里的高空中,实现了持续数分钟的2.6 Gbps零误码数据传输。这一突破性成果标志着激光通信技术在航空与航天领域的应用迈出了重要一步。 试验过程中,团队成功克服了高速机动、云层干...
20:08
微新创想:2026年3月,Visa发布2025年亚太数字商务调研报告。报告显示,亚太地区有74%的消费者已经使用人工智能技术进行商品发现、查询或订单追踪,其中中国地区的使用率高达86%。预计到未来,这一比例将上升至94%。这表明AI在电子商务领域的应用正在迅速扩大,越来越多的消费者开始接受并依赖AI来提升购物体验。 然而,在AI应用的深度方面,调研也揭示了一...
19:34
微新创想:2026年3月5日,高途教育科技公司发布截至2025年12月31日的第四季度及全年未经审计财报。数据显示,2025年Q4收入达到16.853亿元,同比增长21.4%。毛利润为11.445亿元,增长20.7%。尽管公司仍处于净亏损状态,但净亏损金额为8418万元,同比收窄37.7%,显示出财务状况的明显改善。 全年来看,高途教育科技公司2025年总收...
19:34
微新创想:2026年3月5日,Akash Systems宣布正式发售首款搭载AMD Instinct MI350X GPU的金刚石冷却AI服务器,由神云科技制造。该服务器首次实现Diamond Cooling技术在AMD Instinct GPU数据中心的商用部署。这一创新技术为高性能计算和人工智能领域带来了全新的散热解决方案。 微新创想:该冷却方案可叠加现...
19:34
微新创想:2026年3月5日,重庆江津福朋喜来登酒店在滨江新城核心商圈正式开业。酒店坐落于风景优美的圣泉湖公园附近,由国际知名的万豪国际集团进行管理。这一新地标不仅为当地增添了高端酒店服务,也为商务人士和游客提供了更优质的住宿体验。 酒店共设有121间客房及套房,每间客房均配备先进的智能入住系统,让客人能够更加便捷地享受入住服务。此外,房间内还设有电动窗帘、...
19:34
微新创想:2026年3月5日,人形机器人企业魔法原子证实创始人兼原CEO吴长征已离职并启动个人创业。事件发生于北京,由公司官方回应确认。吴长征离职后,CTO陈春玉全面接管研发工作。公司表示核心技术团队未发生变动,业务与技术研发均按年度规划稳步推进,整体运营未受明显影响。
19:04
微新创想:3月3日,开发商Weyrdworks宣布,桌面宠物模拟游戏《Weyrdlets: Idle Desktop Pets》将于3月17日正式转为付费模式。玩家可于3月17日前免费入库Steam。 游戏自2024年7月上线以来,凭借独特的玩法和精美的画面赢得了众多玩家的喜爱。经过持续的更新与优化,游戏已逐步发展为一款完整的养成类作品,为玩家提供了丰富的互...
19:04
微新创想:2026年3月5日,广汽丰田宣布在华新能源车型核心供应链已实现本土化。这一举措标志着广汽丰田在新能源领域迈出了重要一步,进一步深化了其在中国市场的布局。 旗下新车铂智7将搭载华为鸿蒙座舱5.0,带来更流畅的交互体验和更智能的车载系统。同时,该车型还配备了Momenta R6智能驾驶辅助系统,提升了车辆的安全性和智能化水平。 此外,铂智7还配备了双腔...
19:04
微新创想:2026年2月第二、三周,中国AI模型周调用量分别达到4.12万亿和5.16万亿Token,连续两周超越美国同期水平。这一数据表明中国在AI领域的应用和部署正在迅速增长,展现出强大的技术实力和市场需求。 OpenRouter数据显示,在当前调用量排名前五的AI模型中,有四款来自中国厂商,合计贡献了85.7%的调用量。这不仅反映了中国企业在AI模型研...
19:04
微新创想:3月5日,*ST松发发布公告披露,其下属公司恒力造船(大连)有限公司与欧洲船东签订了一份关于建造4艘30.6万吨超大型原油运输船的合同。这四艘船舶属于VLCC(超大型原油运输船)类别,总金额预计在4至6亿美元之间。合同签署地点位于大连,签约方为恒力造船与一位未公开身份的欧洲船东。 此次订单金额占公司2024年度经审计主营业务收入的50%以上,被认定...