Jan-v2-VL-Max发布 30B多模态模型专攻长周期Agent任务稳超Gemini 2.5 Pro

2025-12-24 15:18:51 AI动态 1 次阅读

在人工智能领域，智能体（Agent）正迈向复杂多步任务的新纪元，而开源社区近日迎来了一位实力强劲的新成员——Jan团队正式发布了Jan-v2-VL-Max模型。这款拥有300亿参数的多模态大模型，专为长周期、高稳定性的自动化执行场景而设计，在多项关键指标上已超越谷歌Gemini2.5Pro与DeepSeek R1，为开源Agent生态注入了强大的发展动力。

当前多模态Agent在执行长序列操作时，常面临“误差累积”的难题。例如在自动化UI操作或跨应用任务流中，微小偏差可能引发后续任务全面偏离。为攻克这一挑战，Jan-v2-VL-Max创新性地引入了LoRA-based RLVR（Reinforced Long-horizon Vision-Language Reasoning）技术，在继承Qwen3-VL-30B基座能力的同时，大幅提升了推理链的一致性与抗干扰能力，确保任务在数十步操作后仍能精准执行。

在全新评测基准“幻象递减回报”（Hallucination-Decay Return，HDR）中，Jan-v2-VL-Max表现卓越。该基准专门衡量Agent在任务长度延伸过程中，因幻觉或逻辑断裂导致回报率下降的速度。Jan-v2-VL-Max在长序列任务中始终保持高回报稳定性，超越Gemini2.5Pro与DeepSeek R1，验证了其在真实自动化场景中的可靠性。

为降低使用门槛，Jan团队提供了便捷的解决方案：
– 网页端直接交互界面，用户可上传图像、输入指令，实时测试多步自动化流程；
– vLLM优化本地部署方案，支持在消费级GPU上高效运行，便于开发者集成至自研Agent系统。

Jan-v2-VL-Max虽在长序列执行上相较基座模型仅实现“小幅提升”，但在Agent领域，每1%的稳定性提升都意味着可用性质的飞跃。这一成果标志着开源社区正从“单步响应”迈向“长程规划”，为UI自动化、机器人控制、多工具协同等高价值场景提供可落地的开源基座。AIbase认为，当大模型竞争从“谁更聪明”转向“谁更可靠”，Jan团队此次聚焦执行稳定性的技术路径，恰逢其时。在Agent即将成为AI主交互范式的浪潮下，Jan-v2-VL-Max或将成为开发者构建“永不掉链子”智能体的关键拼图。