OpenAI于当地时间周二正式宣布推出两款全新的开源AI推理模型,其性能与此前备受关注的o系列模型不相上下。这两款模型在多个权威公开基准测试中均展现出卓越表现,被OpenAI誉为”顶尖水平”。这一举措再次彰显了OpenAI的初心与使命——自2015年创立以来,始终致力于让通用人工智能(AGI)的福祉惠及全人类。OpenAI CEO山姆·奥特曼表示:”我们热切期待全球开发者能够基于美国创造的、秉持我们价值观的开源AI堆栈构建创新技术,让这些先进的AI能力免费服务于大众,创造更多社会价值。”
两款备受瞩目的开源模型分别是:
– gpt-oss-120b:作为规模更大的模型,其性能表现更为出色,甚至能够在单张Nvidia显卡上流畅运行,为开发者提供了强大的算力支持。
– gpt-oss-20b:设计更为轻量化,特别适合资源有限的开发环境,甚至可以在配备16GB内存的普通笔记本电脑上高效运行,大大降低了AI技术的使用门槛。
此次发布标志着OpenAI自五年前推出GPT-2以来,首次向公众呈现新的开源大语言模型。值得注意的是,OpenAI透露,当开发者面临复杂任务挑战时,如图像处理等,这些开源模型可以与OpenAI的闭源模型形成互补,实现协同工作,为开发者提供更全面的AI解决方案。
回顾OpenAI的发展历程,虽然早期曾积极推动模型开源,但近年来逐渐转向闭源策略,通过API接口向企业和开发者提供付费访问服务,成功构建了庞大的商业模式。最新数据显示,ChatGPT的周活跃用户已突破7亿大关,较去年同期实现了四倍的惊人增长。今年1月,OpenAI CEO山姆·奥特曼曾表示,在开源问题上,OpenAI可能”做出了历史性的错误选择”。4月,他在X平台上预告将在数月内发布带推理能力的开放权重模型。然而7月,他又宣布将开源模型的发布无限期推迟。令人意外的是,不到一个月后,奥特曼便”食言”了。
当前开源模型市场格局已发生深刻变化。截至7月31日,GitHub Trending平台上排名前十的模型中,全部都是中国的开源模型,展现出强大的竞争力。其中,Qwen系列独占五席,占据开源世界半壁江山;智谱GLM-4.5位居榜首,Air排名第6;混元3D世界模型作为唯二的多模态模型,位列第3。相比之下,几乎所有美国AI公司都选择了闭源路线,对大模型进行技术封锁。曾经作为开源AI模型领域领军企业的Meta,其Llama系列模型在过去一年中逐渐落后。7月30日,马克·扎克伯格在公开信中坦言,将”谨慎选择”哪些模型继续开源,哪些则转为闭源。这位曾经的”开源旗手”正式转向,为闭源策略留下了空间。就在公开信发布前一周,《纽约时报》报道,Meta新成立的超级智能实验室已暂停最大开源模型”Behemoth”的内部测试,原因是”性能未达预期”。
在此背景下,特朗普政府于7月呼吁美国AI公司加大开源力度,推动全球采用符合美国价值观的AI技术。OpenAI此次推出gpt-oss正是积极响应这一号召,希望通过这一举措赢得开发者和政府的双重认可,同时应对来自中国AI的激烈竞争。
OpenAI宣称,此次推出的开源模型在性能上已达到同类领先水平。在编程竞赛平台Codeforces(工具辅助)测试中:gpt-oss-120b得分2622分;gpt-oss-20b得分2516分。两款模型表现优于DeepSeek的R1模型,但略逊于o3和o4-mini。(OpenAI开源模型在Codeforces上的表现)在另一项跨学科测试——Humanity’s Last Exam(工具辅助)中:gpt-oss-120b得分19%;gpt-oss-20b得分17.3%。成绩同样不及o3模型,但超过了DeepSeek和通义千问等现有顶尖开源模型。(OpenAI开源模型在Humanity’s Last Exam测试中的表现)
值得注意的是,这两款开源模型的”幻觉”问题(生成虚假信息)发生率明显高于最新的闭源模型o3和o4-mini。OpenAI解释称,这与小型模型知识储备不足、更容易产生幻觉的预期结果一致。在OpenAI内部用于测试人物相关知识准确性的PersonQA基准中:gpt-oss-120b幻觉率高达49%;gpt-oss-20b幻觉率为53%。相比之下,早期的o1模型仅为16%,最新的小型闭源模型o4-mini为36%。
在训练方法上,OpenAI表示,开源模型与闭源模型采用了相似的专家混合(MoE)机制,显著提升了模型运行效率。例如,拥有1170亿参数的gpt-oss-120b,每次推理实际调用的参数仅有51亿个。OpenAI特别强调,这些开源模型特别适合用于AI智能体,可调用网络搜索、Python代码执行等工具辅助推理。但目前它们仅支持文本处理,无法处理图像或音频。
OpenAI以Apache 2.0开源许可协议发布新模型,这意味着企业可以免费使用甚至进行商业化,无需获得OpenAI的额外授权。这两款模型此前曾因安全考量多次延迟发布。经测试,新模型在生化攻击等方面的潜在风险略有提升,但并未达到”危险”的能力门槛,仍在可控范围内。
