Meta AI 与加州大学圣地亚哥分校(UCSD)近期联合研发了一项突破性技术——Deep Think with Confidence(DeepConf),旨在革新大语言模型(LLM)在复杂推理任务中的表现,实现算力成本与高准确率的完美平衡。当前,提升 LLM 推理能力的主流策略是“自一致性+多次采样再表决”(即 majority voting),但该方法存在明显缺陷:计算资源消耗急剧增加,耗时过长,且大量低质量推理路径可能导致错误答案胜出。DeepConf 的创新核心在于,它不再对所有推理路径一视同仁,而是通过模型内部的置信度信号,对推理路径进行精准筛选与权重调整。

DeepConf 引入了多种精细的置信度指标,包括:
– **组置信度(Group Confidence)**:计算推理过程中某一段 token 的平均置信度;
– **尾部置信度(Tail Confidence)**:聚焦推理结尾部分的置信程度;
– **最低组置信度(Lowest Group Confidence)**:识别推理路径中最“脆弱”的环节;
– **底部百分位置信度(Bottom-10% Confidence)**:关注最不自信的那部分推理内容。

DeepConf 支持两种高效执行模式:
– **离线模式(Offline Thinking)**:先生成多个完整推理路径,再按置信度筛选较优路径参与表决或加权投票;
– **在线模式(Online Thinking)**:在推理生成过程中实时评估,当当前路径置信度低于阈值时,立即终止该路径以节省资源。

在多个开放模型(如 DeepSeek-8B、Qwen3-32B、GPT-OSS-120B)及复杂数学与 STEM 推理任务(AIME、HMMT、BRUMO25、GPQA-Diamond)的测试中,DeepConf 表现卓越:
– 离线模式下,使用 GPT-OSS-120B 在 AIME2025 的准确率高达 99.9%,同时生成的 token 数量比传统方法少 84.7%;
– 在线模式下,DeepSeek-8B 在 AIME24 中的准确率提升了 5.8 个百分点,却仅使用了 77.9% 更少的 token。

企业可根据实际需求与风险偏好选择不同模式:
– **DeepConf-high(保守模式)**:一般能减少约 50% 的生成成本,准确性几乎不受影响,适用于金融、法律等高风险场景;
– **DeepConf-low(激进模式)**:节省 70%–85% 的 token,适用于问答草稿、知识检索等对速度要求高但容错较灵活的场景。

Meta DeepConf技术智能平衡LLM推理成本与准确率插图

DeepConf 的优势在于无需重新训练模型,只需增加少量推理时的逻辑处理,且具备良好兼容性,可与现有推理框架(如 vLLM、SGLang、TensorRT-LLM)无缝集成。正如研究者所言,这为现实企业部署 LLM 推理任务提供了一个“可插拔”的高效方案。

**划重点**:
🧠 **置信度导向选择**:DeepConf 基于局部置信度(组、尾部、最低点等)筛选或权重排序推理路径,而非一刀切多数投票。
⏱ **显著提升效率**:达到最高 99.9% 的推理准确率,同时减少生成 token 多达 84.7%。
️🎛 **可调节策略模式**:企业可按风险偏好选择「高安全性」或「高效率」模式,用最少资源获取最优结果。

论文链接:https://arxiv.org/abs/2508.15260

最新快讯

2026年01月14日

13:53
2026年1月14日,北京时间,全球知名科技巨头戴尔正式宣布了一项具有里程碑意义的战略决策——将于今年5月3日全面上线全新的统一企业级平台,开启公司发展史上规模空前的转型之旅。这一重大举措标志着戴尔在数字化浪潮中再次引领变革,为未来AI时代的业务发展奠定坚实基础。 首席运营官杰夫·克拉克在内部备忘录中详细阐述了此次转型的核心目标。他强调,名为"One Del...
13:53
据报道,阿里巴巴旗下AI应用千问上线仅两个月,月活跃用户数(MAU)已突破1亿大关,在学生和白领群体中呈现强劲增长势头。不过,截至发稿时阿里方面尚未对这一数据作出官方回应。千问App于2025年11月启动公测,这标志着阿里巴巴从B端企业服务向C端用户市场的战略转型进入实质阶段。作为阿里全力进军AI to C市场的核心产品,千问被寄予打造"AI时代未...
12:50
2025年12月,中国科学院紫金山天文台发布首个高精度数值月球时间历表产品LTE440,相关成果发表于《天文学和天体物理学》。该产品解决了月球与地球时间转换中长期存在的“精度低、计算繁、使用难”问题,实现月球时间可回溯。研究团队利用高精度天体轨道数据,使转换累积误差在千年尺度内不超过1/20000000秒,并开发了便于使用的软件包。目前,LTE440已在线...
12:50
2026年1月,英特尔新一代旗舰工作站处理器至强698X现身Geekbench数据库。该处理器拥有86核心172线程,配备336MB L3缓存,主频达4.6GHz,单核性能较前代显著提升。多核测试因核心数过高参考性有限未作对比。据悉,该系列代号为“Granite Rapids WS”的至强600系列预计于2026年第一季度发布,可能与酷睿Ultra 200...
12:50
2026年1月,在美国CES展会上,技嘉科技以“The World as Prompt”为主题,推出由AI驱动的沉浸式互动体验。参观者可生成专属AI数字分身作为“数字护照”,贯穿整个体验流程。该体验依托技嘉RTX 50系列笔记本电脑及智能AI助手GiMATE,展示人智交互的前沿应用,并凸显硬件设计对下一代AI性能的支持。活动高潮为AORUS MASTER ...
12:50
2026年1月14日,视觉中国与PureblueAI清蓝正式宣布达成战略合作,开启数字营销领域的新篇章。双方将聚焦于“数据供给+GEO营销的全链路服务”这一核心领域,通过深度协同,整合视觉内容资源与AI技术能力,共同打造面向AI时代的智能营销解决方案。这一合作不仅将显著提升品牌客户在数字营销中的效率与精准度,还将推动营销服务模式的创新与升级。 此次合作的具体...
12:50
2026年1月13日,第六批国家组织高值医用耗材集中带量采购在天津开标,涉及药物涂层球囊和泌尿介入类共12种耗材。联采办1月14日公示中选结果,202家企业440个产品入选,投标产品覆盖临床主流需求。此次集采共有227家企业参与,提交496个产品,中选率达88.7%。药物涂层球囊类32家企业全部中选,泌尿介入类195家企业投标,170家入选。具备特殊功能的...
12:50
2026年1月14日,娄底摩骑科技有限公司正式宣告成立,标志着美团在本地生活服务领域的又一重要布局。该公司法定代表人为孙可青,注册资本高达200万美元,彰显了其雄厚的资金实力和发展潜力。从经营范围来看,公司业务涵盖软件开发、网络与信息安全、信息技术咨询、互联网数据服务、企业管理及供应链管理服务等多个领域,展现了其在科技服务与本地生活服务领域的综合实力。 根据...
12:50
1月14日,淘宝网启动年终采购节,活动将持续至2月11日。此次采购节覆盖企业福利、生产加工、办公设备升级及个性定制等多类采购需求。年货礼盒低至8折,天猫超市企业购频道同步上线,部分商品采买低至5折。活动旨在为企业提供一站式年货采购解决方案,助力降本增效,满足春节前集中采购需求。
12:50
2026年1月14日,有色金属新材料生产商炯诚新材宣布完成A轮融资,投资方为湘投高创投。炯诚新材集碱式碳酸镍、氧化镍、氧化钴、碳酸钴、碳酸锂等产品的生产与销售于一体,致力于新能源材料领域发展。本轮融资将用于产能扩张、技术研发及市场拓展。此次融资有助于提升企业核心竞争力,加快在新材料领域的布局。
12:50
2026年1月上旬,随着海南自贸港全岛封关正式生效,离岛免税购物热潮蓬勃兴起。数据显示,当月离岛免税购物人数高达58.5万人次,消费总额达38.9亿元,同比分别激增32.4%和49.6%。这一数据充分印证了封关政策释放的巨大市场潜力,日均购物人数与金额均显著超越封关前水平,展现出海南自贸港强大的消费吸引力。 得益于持续优化的政策环境,海南免税商品品类已实现跨...
12:50
2026年1月14日,国内AI新药研发领域的领军企业Converge成功斩获2500万美元A轮融资,投资方阵容强大,包括知名风险投资机构BVP、TLV Partners,以及多位资深个人投资者。作为一家专注于人工智能赋能药物研发的创新型科技公司,Converge凭借其自主研发的尖端AI平台,正引领着全球药物研发领域的深刻变革。特别是在抗体药物研发领域,该公司...