
阶跃星辰近日震撼发布其最新开源多模态视觉语言模型——Step3-VL-10B,这一突破性成果标志着小参数量模型在智能表现上实现了跨越式飞跃。该模型仅以10B的参数规模,便在多项权威基准测试中展现出令人瞩目的跨级别竞技能力,成功攻克了小参数模型难以兼顾高智能水平的行业难题。
在核心性能测试中,Step3-VL-10B不仅稳居同规模模型的SOTA(State-of-the-Art)水平,更实现了对规模是其10至20倍的顶级开源模型(如Qwen3-VL-Thinking235B)乃至闭源旗舰模型的性能媲美甚至超越。这得益于其采用的全参数端到端多模态联合预训练技术,结合大规模强化学习迭代优化,使模型在AIME等高难度数学竞赛测试中已跻身世界第一梯队。
此次开源的Step3-VL-10B包含Base和Thinking两个版本,均搭载创新的并行协调推理机制(PaCoRe)。该机制显著提升了模型在高精度OCR、复杂计数及空间拓扑理解等任务中的表现稳定性。这意味着原本需要依赖云端算力的复杂多模态推理能力,现可更低成本地部署于手机、电脑等端侧设备,大幅增强端侧Agent的交互效率,为移动端和工业嵌入式设备的“主动理解与交互”能力奠定坚实基础。

项目资源全面开放,包括:
– 项目主页:https://stepfun-ai.github.io/Step3-VL-10B/
– 论文链接:https://arxiv.org/abs/2601.09668
– HuggingFace模型库:https://huggingface.co/collections/stepfun-ai/step3-vl-10b
– ModelScope模型中心:https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B
划重点:
🚀 小参数跨级反超:Step3-VL-10B以10B规模挑战并超越200B级巨量模型,实现性能与规模的极致杠杆比。
🧠 深层逻辑与感知:引入PaCoRe机制及大规模强化学习,在竞赛级数学、复杂GUI感知及3D空间推理等领域达到世界顶尖水平。
📱 端侧智能下沉:支持高性能多模态能力在低算力设备运行,为手机和工业嵌入式设备的“主动理解与交互”提供强力底座。
