DeepSeek V3.2开源模型突破:长文本线性复杂度+深度思考,冲击第一梯队

DeepSeek 正式推出 V3.2 标准版与 V3.2-Speciale(深度思考版)两款创新模型,官方评测结果揭示了其卓越性能与突破性进展。在128k上下文场景中,V3.2与GPT-5展现出激烈竞争态势,互有胜负;而V3.2-Speciale则凭借卓越表现,在MMLU、HumanEval等权威基准测试中与Gemini3Pro实现平分秋色,并在IMO2025盲测中斩获金牌分数线83.3%,充分彰显其强大的综合能力。

V3.2系列的核心突破在于转正稀疏注意力(DSA)技术的创新升级。通过引入”目录式路由token”机制,该技术成功将长文本计算复杂度从传统的O(n²)降至线性O(n),这一革命性改进不仅显著降低了显存占用(降幅达40%),更将推理速度提升了惊人的2.2倍。尤为值得称道的是,DeepSeek团队首次在开源模型中实现了百万token级别的单卡推理能力,为长文本处理领域树立了新的里程碑。

DeepSeek V3.2开源模型突破:长文本线性复杂度+深度思考,冲击第一梯队插图1

在后训练环节,DeepSeek团队展现出对模型持续优化的执着追求。他们投入超过10%的整群算力用于强化学习训练,创新性地采用组对强化学习(GRPO)结合多数投票机制,使模型在代码生成、数学推理及工具调用等关键任务上,性能已逼近商业闭源对手水平,为开源社区树立了新的标杆。

V3.2-Speciale版本在推理策略上进行了大胆创新,取消了”思考长度惩罚”机制,鼓励更长的链式推理过程。实测数据显示,该版本平均输出token数量较Gemini3Pro高出32%,同时准确率提升了4.8个百分点,充分证明了更充分推理对模型能力提升的积极作用。

目前,V3.2系列模型已全面上线GitHub与Hugging Face平台,权重文件采用Apache2.0开源协议,为商业应用提供了充分支持。DeepSeek团队表示,下一步将重点开源长文本DSA内核与RL训练框架,致力于将”闭源优势”转化为社区共享的基础设施资源,推动整个开源生态的发展。

DeepSeek V3.2开源模型突破:长文本线性复杂度+深度思考,冲击第一梯队插图2

行业专家普遍认为,若DeepSeek能够保持当前迭代节奏,开源阵营有望在2026年前率先实现”长文本处理+推理能力”的双重领先,这一突破将深刻改变人工智能领域的技术格局。

最新快讯

2025年12月03日

11:45
声明:本文来自于微信公众号 新榜,作者:云飞扬1993,授权站长之家转载发布。接力挑战的风,在抖音越刮越猛了。今年8月,MC游戏圈开启了一场建筑生存接力挑战。本以为这会是一场主打休闲的友谊赛,结果网友们越看越不对劲。MC创作者们一个个仿佛肝王转世,秀出的作品一个比一个神仙。所谓MC,指的是全球知名沙盒类电子游戏《我的世界》,因为...
11:45
微新创想12月3日消息,没想到一颗小小的鱼胆,竟险些让一人丧命。据媒体报道,近日,深圳一阿姨在处理草鱼时,想起民间流传的鱼胆能清火、明目、解毒”的说法。加之自己最近吃荔枝上火,于是便生吞下一颗深绿色的鱼胆。结果在几小时内,她便出现恶心、呕吐、腹痛难忍,全身皮肤和眼睛开始发黄。医生提示,这是典型的重度鱼胆中毒引起的急性肝衰竭,而鱼...
11:45
声明:本文来自于微信公众号 字母榜,作者:苗正,授权站长之家转载发布。几天前,豆包又推出了一款新产品——豆包输入法。输入法是古老的工具型产品。在移动端,用户早已习惯了使用手机自带的输入法,或是沿袭PC时代的习惯,使用搜狗输入法、QQ输入法等。直到2022年微信输入法横空出世,这块稳得不能再稳的市场才迎来新的变量。凭借微信的庞大用...
11:44
12月3日消息,阿里千问在全球多类高难度考试与竞赛中取得突破性成绩,覆盖多个国家的高等教育入学考试、国际学科竞赛以及国家级职业认证等。与此同时,千问APP面向学习场景重磅升级了“拍题答疑”和“作业批改”,将同源的解题能力直接内置到对话中,让更多学生和家长可以获得专业、可信的学习支持。在被誉为美国大学入学“金标准”的SAT考试中,千问以1580的高分超越全球9...
11:44
12月2日,英伟达首席财务官科莱特·克雷斯在瑞银全球科技与人工智能大会上,针对"AI泡沫"的质疑掷地有声地作出回应。她明确指出,全球目前正处于AI基础设施转型的关键"早期阶段",而英伟达在该领域的领先优势不仅稳固,反而持续扩大。 面对市场对"AI泡沫"的普遍担忧,克雷斯用一组关键数据有力回击了质疑。数据显示,目前交付的英伟达全新AI芯片中,绝大多数被用于新建...
11:44
OpenAI首席研究员Mark Chen近日在12月2日播出的播客节目中,披露了一场令人啼笑皆非的AI人才争夺战。据悉,Meta为吸引顶尖AI专家,竟采取亲自送热汤上门的温情策略,而OpenAI则以赠送自制浓汤作为巧妙反击,这场别开生面的"汤战"迅速成为硅谷猎头市场的最新焦点。 Chen详细描述了Meta的招聘攻势:"他们的招聘团队会端着热汤站在候选人门前,...
11:44
Gradium,这家来自法国的AI语音初创公司,于12月3日正式揭开神秘面纱,宣布成功斩获7000万美元种子轮融资,这一数字不仅刷新了欧洲语音AI领域的种子轮纪录,更彰显了其在技术创新领域的巨大潜力。本轮融资由FirstMark Capital与Eurazeo联合领投,法国电信亿万富翁Xavier Niel、DST Global Partners以及前Goo...
11:44
美国初创企业Arcee AI近日重磅发布全新Trinity系列AI模型,旨在重塑开源人工智能领域的竞争格局,重新确立美国在该领域的领先地位。与当前众多主流开源大语言模型不同,Trinity系列模型实现了全美本土化训练,并创新性地采用了开放权重的混合专家(MoE)架构,彰显了美国在开源AI领域的决心与实力。 Trinity系列目前包含Trinity Mini和...
11:44
科技媒体The Register近日曝光了一起令人震惊的AI编程事故,希腊摄影师Tassos M.在使用谷歌AI编程平台Antigravity时,遭遇AI错误生成并自动执行代码,导致其Windows 11系统下的整个D盘数据被清空。这一事件不仅给受害者带来巨大损失,更引发全球范围内对AI辅助开发安全性的广泛担忧。 事件经过:AI自认"错误严重指向根目录" T...
11:24
2025年12月3日,AMD通过其官方技术门户网站正式发布了备受期待的EPYC Embedded 2005系列处理器。这一全新系列基于先进的Zen 5架构,采用代号"Fire Range"的设计理念,为市场带来了强大的性能与灵活性。该系列处理器最高配备16个核心,能够满足严苛的多任务处理需求。在内存支持方面,EPYC Embedded 2005系列率先兼容D...
11:24
2025年12月3日,倍通医药正式向香港交易所提交了招股书,正式宣告进军资本市场。作为医药健康领域渠道数据整合的领军企业,倍通医药凭借其专业的数据采集与整合技术,为行业客户提供全方位的信息服务、智能工具及定制化解决方案。公司致力于通过高效的数据分析,帮助客户优化渠道管理策略,提升销售执行效率,强化合规管控体系,从而实现业务增长与风险控制的双重提升。此次IPO...
11:24
2025年12月3日,备受瞩目的草本护肤品领军品牌林清轩正式向香港交易所递交招股书,宣布正式启动主板上市计划。作为植萃护肤领域的深耕者,林清轩扎根中国,构建起从源头种植到终端销售的全产业链生态体系。其核心竞争力在于以山茶花、芦荟、红石榴等珍贵草本植物为原料,通过现代科技与传统智慧的完美融合,研发出一系列高品质的护肤及个人护理产品。此次资本市场的战略布局,不仅...