DeepSeekV3.2硬核升级:算力堆叠新突破挑战Scaling瓶颈

OpenAI前首席科学家Ilya Sutskever近期在播客访谈中提出重磅观点,指出过去五年以模型规模扩张为核心的”age of scaling”已接近尾声。他认为预训练数据存在上限,单纯堆砌更多GPU难以实现技术突破,反而应回归以研究为核心的发展路径,但需借助强大算力支撑。这一言论被视为对”Scaling Law撞墙论”的有力佐证,然而DeepSeek团队用V3.2和V3.2-Speciale模型的发布给出了不同答案。

DeepSeekV3.2硬核升级:算力堆叠新突破挑战Scaling瓶颈插图1

DeepSeek研究员Zhibin Gou在社交媒体上表示,如果Gemini-3证明了持续扩展预训练的可行性,那么DeepSeek-V3.2-Speciale则展示了在大规模上下文环境中强化学习的可扩展性。团队通过一年时间将模型推向极限,得出关键经验:训练后瓶颈需通过优化方法和数据解决,而非单纯等待更好的基础模型。他强调要”持续扩大模型规模、数据量、上下文和强化学习”,不要被”遭遇瓶颈”的论调阻挡前进脚步。

DeepSeek的表态颇具深意。当行业热议Scaling Law是否已到尽头时,这家公司用实打实的模型成果宣告”Scaling没死,只是换了战场”。尽管后训练的重要性已获普遍认可,但敢于将超过10%预训练成本的算力预算投入强化学习的企业屈指可数。DeepSeek正是将这条路线工程化、规模化的典型代表,此次发布的两个模型正是该路线的实践结晶——V3.2定位为日常主力模型,对标GPT-5;Speciale则专注于极限推理,对标Gemini3.0Pro,并斩获四枚国际竞赛金牌。

DeepSeekV3.2硬核升级:算力堆叠新突破挑战Scaling瓶颈插图2

技术报告Introduction部分指出,尽管开源社区持续进步,但闭源模型的性能提升曲线正以更陡峭之势加速,差距非但未收窄反而扩大。报告同时点出当前开源模型三大短板:过度依赖传统注意力机制导致长序列处理效率低下、后训练算力投入不足、Agent场景下的泛化能力欠缺。但DeepSeek展现出的信心表明,这些问题完全有解,而V3.2正是他们给出的解决方案。

V3.2:高效主力,将自我进化聚焦于通用效率提升

DeepSeekV3.2硬核升级:算力堆叠新突破挑战Scaling瓶颈插图3

V3.2作为9月发布实验版V3.2-Exp的正式迭代产品,致力于平衡推理能力与输出成本。在AIME2025数学竞赛等推理类Benchmark测试中,V3.2表现达到GPT-5水平,数学竞赛成绩达93.1%(GPT-5为94.6%),HMMT2025二月赛92.5%(GPT-5为88.3%),LiveCodeBench代码评测83.3%(GPT-5为84.5%)。相比Kimi-K2-Thinking,V3.2在保持相近性能的同时,输出Token量大幅降低,通过严格的Token约束和长度惩罚实现更省、更快、更便宜的推理体验。

V3.2架构创新的核心是DeepSeek Sparse Attention(DSA)技术。这项技术在9月实验版中首次亮相,用稀疏注意力机制替代传统全量注意力,将计算复杂度从O(L²)降至O(Lk)。实验上线两个月后,DeepSeek通过多维度验证DSA有效性:标准Benchmark与V3.1-Terminus基本持平,ChatbotArena Elo评分接近,第三方长上下文评测反而高出4分。这表明DeepSeek在底层架构创新上取得突破,稀疏注意力机制能在不损失性能的前提下显著提升效率。

DeepSeekV3.2硬核升级:算力堆叠新突破挑战Scaling瓶颈插图4

V3.2的另一项重要突破是首次实现”思考”与”工具调用”的融合。以往推理模型(包括OpenAI o系列)在思考模式下无法调用工具,而V3.2打破了这一限制,同时支持思考模式和非思考模式的工具调用。技术报告中关于Agent能力训练方法的篇幅尤为突出,DeepSeek构建了覆盖1800+环境和85000+复杂指令的大规模Agent任务合成流水线。

这套流水线的核心设计哲学是”难解答,易验证”。以报告中的旅行规划任务为例,复杂约束组合导致搜索空间巨大,但验证方案是否满足约束却极为简单。这种特性天然适合强化学习,模型可通过大量尝试获得明确对错反馈,无需人工标注。效果验证极具说服力:仅用合成数据做RL的模型,在Tau2Bench、MCP-Mark等Agent基准上显著提升;而只在真实环境做RL的模型,这些指标几乎无变化。值得注意的是,官方特别强调V3.2未针对测试集工具进行特殊训练,但在Agent评测中仍达到开源最高水平,证明模型泛化能力真实可靠。

DeepSeekV3.2硬核升级:算力堆叠新突破挑战Scaling瓶颈插图5

V3.2-Speciale:极限推理,将自我验证推向高阶逻辑

Speciale作为V3.2的”长思考增强版”,通过放宽长度限制鼓励模型进行更深度的推理。技术报告中Table3的数据颇具启示性:在AIME2025竞赛中,GPT-5High输出13k tokens,Gemini3.0Pro输出15k,而Speciale输出23k;在Codeforces竞赛中,Speciale输出77k tokens,是Gemini的3.5倍。尽管Token输出量显著增加,但得益于DeepSeek的定价策略和DSA带来的效率提升,Speciale的最终使用成本依然大幅领先:比GPT-5便宜约25倍($0.4vs $10),比Gemini3.0Pro便宜约30倍($12),比Claude Opus4.5便宜约62倍($25)。

DeepSeekV3.2硬核升级:算力堆叠新突破挑战Scaling瓶颈插图6

Speciale的意义不仅在于”让模型想更久”,更验证了一个重要假设——对推理”过程”的监督能否从数学证明泛化到更广泛领域?上周刚发布的DeepSeekMath-V2提出了”生成器-验证器”双模型架构,生成器负责产出证明,验证器评估证明的严谨性和完整性,验证结果作为reward信号反馈给生成器。这套机制的关键创新在于如何保持”生成-验证差距”,当生成器变强后,验证器也需要同步提升。DeepSeek的解决方案是动态扩展验证计算,用更多资源自动标注”难以验证”的证明,持续合成高难度训练数据,实现模型的可持续自我进化。

Speciale整合了Math-V2的数据集和奖励方法,不只追求最终答案正确,更注重推理过程的严谨性和完整性。它将原本用于数学定理证明的”过程监督”机制成功迁移到代码生成和通用逻辑任务中,证明”自我验证”不是数学领域的特例,而是一种可泛化的能力提升范式。评测结果也印证了这一思路的有效性。

DeepSeekV3.2硬核升级:算力堆叠新突破挑战Scaling瓶颈插图7

不缺算力的DeepSeek会带来什么新可能?有网友评论说,每篇DeepSeek论文最重要的部分永远是”结论、局限性与未来工作”部分。这次的技术报告也不例外,其中提到:”首先,由于总训练FLOPs较少,DeepSeek-V3.2的世界知识广度仍落后于领先的闭源模型。我们计划在后续版本中,通过扩大预训练算力来弥补这一知识差距。”报告承认V3.2因训练FLOPs较少,世界知识广度仍落后于Gemini3.0Pro,但DeepSeek的选择不是等待更大基础模型,而是通过一年时间将后训练上限真正跑出来。

从这次发布可见,这条路线已取得显著成果:V3.2将”自我进化式工程”应用在通用效率上;Speciale则将过程奖励与自我验证机制推向高阶逻辑推理。两者共同指向一个方向:未来模型不再依赖人力堆砌,而是依靠自我博弈实现持续演进。下一步就是扩大预训练算力来弥补知识差距。这引发两个重要联想:一是如果DeepSeek真把算力补上来,会发生什么?二是这些新的算力资源从何而来?

DeepSeekV3.2硬核升级:算力堆叠新突破挑战Scaling瓶颈插图8

回顾过去一年的技术路径,Janus的多模态统一架构、OCR的视觉压缩记忆、NSA的长上下文效率、Math-V2的自我验证……这些创新都是在V3基座上迭代出来的。那么,一个参数更大、训练FLOPs更多的V4,再叠加这些已验证有效的方法论,会出现怎样惊人的化学反应?一个合理甚至大胆的预期是,当V4或R2到来时,我们看到的可能已不是传统意义上的”更强语言模型”,而是一个能感知多模态环境、具备更长期记忆、并在真实交互中持续进化的系统。如今发生在合成环境中的自我博弈,未来可能延伸到真实环境的在线学习。

而在算力方面,在英伟达频繁表示其中国市场份额已归零的背景下,继续scaling所需的算力资源似乎难以仅靠H800提供。下一代模型会用什么样的更大算力资源进行训练?如果这些算力缺口能被补齐,完全形态的DeepSeek下一代模型会是什么样?这些问题显然更重要,也更让人充满期待。

最新快讯

2025年12月02日

12:34
2025年11月25日,全球娱乐巨头华纳兄弟探索公司正式开启第二轮收购竞标程序,引发业界高度关注。在这一波激烈的收购浪潮中,流媒体巨头奈飞率先抛出重磅方案,提出以现金为主导的收购计划,意图获取华纳兄弟全部或部分核心资产。与此同时,由派拉蒙全球、Skydance Media和康卡斯特组成的联合财团也在感恩节长周末期间加紧完善其竞购报价,展现出强大的竞争决心。 ...
12:34
2025年12月2日凌晨,北京时间传来电竞圈重磅消息CS2 Starladder布达佩斯Major第二阶段瑞士轮1-2组别比赛,中国顶尖战队TYLOO在关键对决中1:2憾负Liquid,遗憾出局。这场失利不仅让TYLOO止步本次Major,更意味着参赛的三支中国队伍——TYLOO、LVG、RA全部折戟沉沙,总地图战绩惨淡至2:12。 TYLOO与Liqu...
12:34
2025年12月2日,兴业银锡发布重要公告,宣布其全资子公司山南锑金将以每股15.21元的价格,斥资3.08亿元收购威领股份2023.38万股,占其总股本比例高达7.76%。此次交易的核心参与方为原股东领亿新材及自然人温萍。随着此次收购的完成,山南锑金将正式取得威领股份的控制权,并晋升为其最大股东。威领股份作为行业内的振动筛专业制造商,长期致力于研发、设计、...
12:34
2025年12月2日,索尼互动娱乐正式宣布推出备受期待的《原神》限定版DualSense无线控制器。这款独特的手柄由索尼与HoYoverse联合设计,巧妙融合了旅行者双子及派蒙的经典元素,旨在致敬玩家在提瓦特大陆的奇幻冒险历程。其独特的设计不仅彰显了游戏世界的魅力,更将为玩家带来全新的沉浸式游戏体验。 据悉,这款限定版DualSense无线控制器将于2026...
12:34
2025年12月2日,Mozilla正式宣布将为Firefox浏览器推出一项创新的原生备份功能,旨在为Windows 10用户在升级至Windows 11过程中提供更智能、更便捷的数据迁移方案。这一重要更新将显著简化用户在系统升级时的数据保存流程,确保用户的关键信息和个人设置能够无缝过渡到新系统。 该备份功能将集成在系统升级提示界面中,通过Firefox浏览...
12:34
2025年12月2日,上海市发改委联合市教委、市财政局三部门正式发布《关于规范普惠性民办幼儿园收费管理的通知》,明确将普惠性民办幼儿园保育教育费上限设定为700元/生·月。这一重要政策不仅适用于全市范围内经各区教育部门严格认定的普惠性民办幼儿园,更具体覆盖了小班、中班及大班三个学段,确保政策全面落地。通知强调,幼儿园收费项目将严格限定在保育教育费和规定范围内...
12:34
2025年12月2日,阿里巴巴正式推出其先进的图片生成与编辑模型Qwen-Image的全新升级版本,为用户带来革命性的视觉创作体验。此次更新在多个关键维度实现了突破性进展,特别是在图像编辑一致性、多视角转换、多图像融合以及多模态推理能力上展现出卓越性能。这些技术突破不仅大幅提升了模型的精准度和稳定性,更为用户创造了更加丰富多元的图像处理可能性。 新版本的Qw...
12:34
2025年12月2日,福建省正式印发《有序推进算力基础设施发展若干措施》,为该省数字经济高质量发展注入强劲动力。文件明确提出将构建全省一体化算力服务体系,打造集算力纳管监测、供需对接与资源调度于一体的公共服务平台,通过科学规划与高效管理,实现算力资源的统筹分配与共享,为各类应用场景提供坚实支撑。 为优化区域资源配置,文件鼓励沿海发达地区与山区薄弱地区开展"结...
12:34
2025年12月2日,真我手机品牌正式官宣,将携手全球热播剧集《权力的游戏》推出首款联名定制手机——真我15 Pro《权力的游戏》限定版,并宣布即将登陆中国市场。这款备受瞩目的手机不仅融合了影视文化的独特魅力,更在设计与功能上实现了创新突破,为粉丝带来沉浸式的体验。 该机型特别采用了高品质皮革后盖设计,触感温润如丝,同时内置先进的温感变色技术。当环境温度达到...
12:34
2025年12月2日,福建省正式发布《关于有序推进算力基础设施发展的若干措施》,旨在全面提升区域算力水平,构建高效智能的算力网络体系。文件明确提出多项关键举措,包括对现有“福淡”“厦金”海底光缆进行升级扩容,以增强跨海传输能力;同时加快推进“福州—深圳短路径光缆”项目,优化内陆地区数据传输路径,显著提升算力网络的整体传输效率。 为满足日益增长的算力需求,...
12:07
谷歌于12月2日正式宣布,其移动端搜索的"AI模式"已成功完成全球范围内的全面部署。这一创新功能让用户在使用AI概览时无需离开当前结果页,即可通过底部输入框直接与Gemini模型展开对话,实现即时追问和多轮交互体验。相较于传统搜索需要多次跳转的操作方式,新系统将整个流程简化为"一次滚动、一键提问"的便捷操作。 从技术实现角度来看,AI模式采用了创新的"查询扇...
11:36
12月2日,千问APP迎来重大升级,成功接入万相系列最新模型Wan2.5,标志着其在视频创作领域的实力再攀新高峰。此次升级不仅显著提升了动作精度与肢体协调性,更开创性地成为首个支持音视频同步输出的移动端AI助手。作为业界少数具备音画同步能力的视频模型之一,阿里万相2.5展现出强大的多任务处理能力,能够同时理解和生成内容,并兼容文本、图像、视频、音频等多种模态...