
中国信息通信研究院(信通院)近日重磅发布“方升”基准测试体系3.0版本,这一里程碑事件标志着我国人工智能评测技术迈入全新阶段。新版体系在原有基础上实现全面革新,不仅创新性地引入模型基础属性测试维度,更系统化地评估了模型参数规模、推理效率等核心底层特征。尤为值得关注的是,该体系前瞻性地规划了未来高级智能测试方向,聚焦全模态理解、长期记忆、自主学习等十大关键能力,为工业制造、基础科学、金融等战略性产业提供更为精准的场景化评测方案。
为保障“方升”3.0体系的顺利实施,信通院在评测基础设施方面全面升级。首先通过扩充高质量测试数据资源,计划新增300万条多语言、多任务、多场景数据集,构建更完善的评测数据生态。其次,将系统化研究并应用先进测试方法论,重点攻克大模型评测中的数据合成与质量评估等关键技术难题。此外,信通院正着力打造新一代智能评测基座,新增多智能体交互与环境感知的仿真测试环境,为复杂场景下的智能体协同交互和动态环境适应能力评估提供强大支撑。

自2024年起,信通院将每两个月定期开展大模型基准测试活动。最新一轮测试涵盖141个大模型和7个智能体,全面评估基础能力、推理能力、代码应用能力及多模态理解能力。测试结果显示,OpenAI的GPT-5在综合能力上继续保持领先优势,而国内阿里巴巴Qwen3-Max-Preview和月之暗面的Kimi K2表现同样亮眼。在多模态模型评测中,图像理解能力取得显著突破,但在复杂逻辑推理任务上仍有提升空间。代码应用能力测试表明,模型在简单函数级任务中表现优异,但在真实项目开发场景中仍存在短板。这一结果充分印证了国内外技术竞争的持续加剧,也反映出智能体在多模态理解和复杂信息处理方面的共同发展需求。
展望未来,信通院将持续强化大模型评测技术研发,不断提升评测体系的公信力与权威性。通过构建科学严谨的评测标准,为人工智能前沿创新和新型工业化发展提供有力支撑,助力我国人工智能产业迈向更高水平。这一系列举措不仅将推动国内AI技术的持续进步,也将为全球人工智能评测领域贡献中国智慧和中国方案。
