周四劳德研究所正式宣布启动首批”弹弓”人工智能资助计划,该计划以”加速人工智能科学与实践发展”为核心目标,通过提供传统学术机构难以企及的资源支持,包括资金、高性能计算能力以及产品工程化支持,全方位赋能AI研究创新。作为重要回报机制,受助者需产出具备实际转化价值的成果,如成立初创企业、开发开源项目或形成可落地的研究成果。经过严格筛选,首批共有15个项目成功入选,这些项目聚焦于人工智能领域最具挑战性的课题之一——AI评估体系构建。其中多个项目已具备行业影响力,例如广受关注的命令行编码基准测试工具Terminal Bench,以及长期致力于通用人工智能(AGI)能力测评的ARC-AGI项目最新版本。与此同时,多支研究团队正尝试突破传统评估框架,探索全新解决方案。加州理工学院与德克萨斯大学奥斯汀分校联合研发的Formula Code项目,专注于评估AI代理在优化现有代码时的实际表现;哥伦比亚大学团队推出的BizBench则针对”白领AI代理”构建综合测试标准,重点考察AI在商业决策类任务中的真实应用能力。此外还有部分项目聚焦于强化学习与模型压缩的新方法探索,旨在建立更具普适性和可扩展性的评估框架。特别值得关注的是SWE-Bench联合创始人John Boda Yang加入本轮计划,他将领导新项目CodeClash。该项目借鉴SWE-Bench成功经验,计划通过动态竞赛式机制评估AI代码能力。Yang在接受TechCrunch采访时表示:”持续利用第三方核心基准进行开放评估,是推动整个行业进步的关键。但我也担忧未来评测体系若被个别公司垄断,将可能削弱研究的开放性与可比性。”通过”弹弓”计划,劳德研究所正在搭建学术研究与产业应用之间的新桥梁,使前沿AI研究成果能够更快转化为实际应用。这一创新举措被视为当前AI领域评估体系重塑的重要里程碑,有望推动整个行业迈向更高水平的发展阶段

