
随着人工智能技术的飞速发展,金融行业对数据准确性和安全性的需求日益提升。近日,腾讯正式宣布开源其专为金融场景设计的大模型评测工具——finLLM-Eval,这一创新举措在行业内尚属首例,首次实现了无 GroundTruth 的金融数据准确性评测。该工具的推出填补了当前市场上大模型在金融领域评测的空白,为推动 AI 技术在高风险、高要求的金融领域的安全落地提供了有力支持。
finLLM-Eval 拥有多项核心能力,其中逻辑一致性与事实准确性评测模块尤为突出。该模块不仅提供完整的工程代码和示例评测集,还支持用户自定义评测集,能够自动化输出模型表现的详细信息。用户可通过该工具获得包括总分、错误点分布、千字幻觉率等在内的完整评测报告,从而深入洞察模型的实际表现。
此外,finLLM-Eval 还配备了端到端金融数据准确性对比模块。这一技术方案的最大亮点在于,它能够在无 GroundTruth 的情况下,基于真实用户的问答自动提取金融事实的三要素——“标的 × 时间 × 指标”,并通过内部金融数据库进行验证,省去了人工标注的繁琐。更为智能的是,finLLM-Eval 引入了 AgentAsJudger 的自动化评测机制。整个评测过程无需人工干预,AI Agent 能自动提取事实点与逻辑链,并与相关内容或金融数据库进行比对,准确率高达 96% 以上。这一创新不仅大幅提高了评测效率,也确保了评测结果的可靠性。
展望未来,项目团队计划持续迭代 finLLM-Eval,未来将支持非金融指标的数据核验及结果归因等能力,助力金融科技的不断发展与完善。这一系列举措将进一步提升大模型在金融领域的应用水平,为金融行业的数字化转型注入新的活力。
