Thinking Machines Lab突破AI随机性难题 大模型首次实现100%一致输出

前OpenAI首席技术官Mira Murati创立的Thinking Machines Lab近日宣布一项革命性技术突破,成功攻克了困扰AI行业多年的模型输出不确定性难题。这份重磅研究成果在最新发布的研究报告中详细阐述,该实验室实现了大语言模型推理过程的完全确定性输出。

《在LLM推理中战胜不确定性》的研究报告揭示,即使在温度参数设为0的极端条件下,传统大语言模型仍会对相同输入产生截然不同的输出。研究团队通过深入分析,精准定位了导致这一现象的两大技术根源,并提出了创新性的解决方案。

Thinking Machines Lab突破AI随机性难题 大模型首次实现100%一致输出插图1

研究发现,造成输出不确定性的第一个关键因素是浮点数加法的非结合性问题。在GPU并行计算环境中,(a + b) + c与a + (b + c)的计算结果可能存在微小差异,这些差异在复杂的神经网络中会逐层累积放大。更为核心的发现是,并行计算策略的动态变化才是导致输出不确定性的根本原因。不同的批量大小、序列长度以及KV缓存状态会改变GPU内核的选择策略,进而影响计算执行顺序,最终导致输出结果的差异。

针对这一技术挑战,Thinking Machines Lab创新性地提出了batch-invariant解决方案。该方案要求所有关键计算核在处理不同批量大小或序列分割时,必须保持完全一致的计算顺序和结果。研究团队还针对RMSNorm、矩阵乘法和注意力机制等核心计算模块,提供了具体的优化方法指南。

为验证技术方案的有效性,研究团队选用拥有2350亿参数的Qwen3-235B-A22B-Instruct-2507模型进行严格实验。经过1000次重复测试,该模型在相同输入条件下实现了100%的输出一致性,这一成就在大语言模型发展史上尚属首次突破。

Thinking Machines Lab突破AI随机性难题 大模型首次实现100%一致输出插图2

业界专家普遍认为,这一技术突破对企业级AI应用具有里程碑式的意义。金融风控、医疗诊断、法律文书审核等对准确性和一致性要求极高的应用场景将直接受益于这项技术进步。Thinking Machines Lab此次选择以开放研究的形式发布成果,为全球AI开发者提供了宝贵的技术参考方向。该研究不仅解决了模型输出的可预测性问题,更为AI系统从实验工具向生产工具的转型奠定了坚实的技术基础。

据了解,Thinking Machines Lab成立于2023年,专注于AI基础技术研究。该实验室此前已获得20亿美元种子轮融资,并计划在未来几个月推出首款产品。这项技术突破标志着AI行业正从追求模型规模转向追求应用质量的发展新阶段。随着确定性输出技术的推广应用,AI系统的可靠性和实用性有望获得显著提升。

官方研究报告:https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/

最新快讯

2025年09月11日

16:16
当理想i8在滂沱大雨的山区公路上,凭借智能驾驶系统精准识别被冲垮的路肩,并平稳减速规划出最佳绕行路线时;当小鹏P7Ultra仅依靠视觉传感器,便在毫秒间完成对横穿马路的流浪猫与突发变道货车的精准避让时,智能驾驶行业正悄然迈入一场颠覆性的技术革命临界点。新能源汽车市场的淘汰赛已进入白热化阶段,从电池续航、充电速度到座舱智能化,竞争已白热化至红海,甚至智能驾驶能...
16:16
短剧市场正迎来前所未有的高速发展期。仅以刚刚过去的暑期档为例,破亿、破十亿的成绩屡创新高,热剧、爆剧层出不穷。各平台差异化的运营与排播策略更让这一时期精彩纷呈,其中快手星芒短剧在暑期档上线数十部作品,持续巩固其"档期化"排播的领先优势。依托内容创作的良性发展以及庞大且粘性不断攀升的用户基础,短剧早已成为品牌营销的重要阵地,并在618、七夕等营销节点持续释放赋...
16:16
互联网已经陷入一场前所未有的混乱,就像一锅煮沸的丝瓜汤。从职场争执到家庭聚餐,一句"你肝火太旺,喝点丝瓜汤降一下火气吧"几乎成为全民吵架必备金句。这个梗的诞生源于博主"累子"创作的家庭情景短视频:饭桌上,妈妈不顾儿子明确拒绝,执着推荐丝瓜汤,最终将儿子拒绝归结为"肝火旺"。妈妈:儿子,要不要吃丝瓜汤?儿子:不用!妈妈:丝瓜汤很补,夏天吃正好!儿子:不用!妈妈...
16:15
声明:本文源自微信公众号 字母榜,作者张琳,经站长之家授权转载发布。继外卖与闪购之后,阿里巴巴再次将目光投向美团的核心阵地——评价体系。令人意外的是,这次挑战者并非阿里系内部力量,而是高德地图。9月10日,正值高德地图成立26周年之际,阿里旗下高德地图正式推出全球首个基于真实用户行为生成的榜单“高德扫街榜”,该榜单与美团大众点评榜单功能相似,允许用户对商家进...
16:15
近日,约翰霍普金斯大学的研究团队隆重推出了一款创新的多语种编码器——mmBERT,旨在填补当前自然语言处理领域中多语种处理的空白。这款模型不仅在多项任务上超越了XLM-R的标杆性能,更在处理速度上实现了惊人的2至4倍提升,为多语种应用的研究与开发注入了强大的动力。 mmBERT的架构设计独具匠心,分为基础模型和小型模型两种配置。基础模型由22层变换器构成...
15:56
摩根士丹利近日发布最新研报,将EDA行业领军企业新思科技的目标股价从之前的715美元大幅下调至510美元。这一调整不仅标志着市场对该公司未来增长前景的重新评估,更可能对投资者的决策路径及公司股价的短期波动产生显著影响。 此次目标价下调的背后,是市场对新思科技未来发展潜力变化的综合考量。随着半导体行业的周期性波动以及竞争格局的演变,分析师们重新审视了新思科...
15:56
2025年9月11日,天际股份正式对外宣布,其核心六氟磷酸锂生产线已实现满负荷生产运营。这一重要里程碑不仅彰显了公司在新能源材料领域的强大制造能力,更凸显了其积极响应市场需求的战略决心。作为锂电池关键电解质核心原料,六氟磷酸锂的市场需求近年来呈现爆发式增长,天际股份通过提升产能利用率,有力保障了下游锂电池产业链的稳定供应。此次满负荷生产,是公司近年来持续加大...
15:56
9月10日,亚马逊旗下自动驾驶企业Zoox在美国拉斯维加斯大道及其周边区域正式启动了备受瞩目的机器人出租车服务。这一重要举措不仅标志着Zoox在自动驾驶技术领域迈出了关键性步伐,更彰显了其致力于重塑未来出行方式的坚定决心。据悉,Zoox计划在未来几个月内将这项创新服务逐步扩展至旧金山等更多城市,进一步推动自动驾驶技术的商业化落地。此次拉斯维加斯地区的正式运营...
15:56
科技媒体Android Authority于9月10日独家报道,谷歌已正式向Pixel系列设备推送Android 16 QPR1系统更新,但这一举动却引发了第三方ROM开发者的普遍担忧。根据行业惯例,谷歌通常在系统推送后的48小时内同步开放AOSP源码,以便社区进行移植适配工作。然而,此次更新已过去整整一周,源码仍未公开,这一异常情况让开发者们倍感焦虑。 A...
15:56
2025年9月11日,国际医学正式宣布旗下医疗机构成功引进一项革命性的康复训练系统,该系统巧妙融合了脑机接口、外骨骼机器人以及功能性电刺激三大尖端技术,旨在为患者提供更加精准高效的康复治疗方案。此次引进不仅标志着国际医学在康复医学领域的重大突破,更将显著提升患者的整体康复治疗水平。 与此同时,国际医学还积极开展脑深部电刺激、脊髓神经电刺激以及迷走神经电刺...
15:56
东威科技近日传来喜讯,成功斩获双边夹卷式水平镀膜设备与磁控溅射卷绕镀膜设备新订单,这些先进设备将专项用于生产高性能HVLP5铜箔、精密PI电子铜箔、高精度屏显铜箔以及特种屏蔽材料。这一系列新订单的签订,不仅彰显了东威科技在高端镀膜设备领域的强大技术实力,更折射出当前市场对高性能铜箔产品的旺盛需求。 自今年年初以来,东威科技在相关设备领域的订单总额已突破亿元大...
15:56
根据乘用车市场联合会最新发布的数据,9月1日至7日,全国乘用车市场零售量录得30.4万辆,同比下滑10%,环比下降4%。值得注意的是,今年前九个月累计零售量已达到1506.9万辆,同比增长9%,显示出市场在波动中仍保持一定韧性。 同期,乘用车批发市场表现更为稳健,批发量为30.7万辆,同比下降5%,但环比增长9%。今年累计批发量达到1834.9万辆,同比增长...