开源大模型领域再传捷报,“问小白”团队正式推出第四代开源模型 XBai o4,这一突破性进展标志着复杂推理能力迈上了新台阶。该模型在 Medium 模式下的表现尤为亮眼,已全面超越 OpenAI o3-mini,并在部分基准测试中展现出优于 Anthropic Claude Opus的卓越性能。XBai o4的核心亮点在于其创新的“反思型生成范式”,通过深度融合 Long-CoT 强化学习与过程评分学习,实现了深度推理与高效推理链路筛选的双重突破,同时显著降低了推理成本。
技术突破:独创“反思型生成范式”
XBai o4 的最大创新在于其独有的“反思型生成范式”。这一范式巧妙地将 Long-CoT 强化学习与过程评分学习(Process Reward Learning)相结合,赋予单个模型双重能力:一是像人类一样进行多步骤的复杂深度推理,二是精准评估并筛选出最优的推理路径。更令人瞩目的是,XBai o4 通过共享过程评分模型(PRMs)和策略模型的主干网络,将过程评分的推理耗时大幅降低了99%。这一技术优化不仅显著提升了模型的运行效率,更为实际应用场景奠定了坚实基础。
性能卓越:多基准测试领先
XBai o4 模型精心设计了三种模式(low、medium、high),以满足不同复杂度的任务需求。在多项关键基准测试中,其卓越性能得到了充分验证:Medium 模式下,XBai o4 已全面超越 OpenAI 的 o3-mini 模型;在部分基准测试中,其表现甚至优于 Anthropic 的 Claude Opus。该模型在 AIME24、AIME25、LiveCodeBench v5、C-EVAL 等多个权威测试中均展现出超凡的推理能力,充分证明了其强大的技术实力。
开源共享:赋能 AI 研究社区
“问小白”团队已在 GitHub 上开源了 XBai o4 的相关训练和评估代码,这一举措不仅为 AI 研究社区提供了宝贵的资源,更预示着开源大模型在复杂推理领域的竞争力正在迅速增强。通过开放代码,社区研究人员能够更深入地探索模型的内部机制,加速技术创新进程。这一开放姿态也彰显了“问小白”团队推动技术共享、促进 AI 草原生态发展的决心。
访问地址: https://github.com/MetaStone-AI/XBai-o4