
在香港金融科技节上,蚂蚁数科震撼发布了革命性技术——“多语种多模态大模型训练框架”,旨在彻底突破当前大模型在多语言环境应用中的瓶颈。该框架特别针对资源稀缺的小语种,如埃及阿拉伯语、印尼爪哇语、巴哈萨语和巽他语,展现出惊人的应用潜力。这一创新技术的核心在于其独特的语言感知优化框架,通过“以目标语言进行思考”的机制,结合细粒度、多维度的奖励策略和自动化数据解决方案,极大地增强了对小语种的理解与处理能力。
根据权威测试结果,蚂蚁数科的新框架在主流多语言视觉问答(Multilingual Visual Question Answering,VQA)基准测试中,准确率较同规模开源模型提升了约9.5%。更令人瞩目的是,在某些任务中,该框架的表现甚至超越了GPT-4o和Gemini-2.5-flash等国际主流闭源模型,以总分第一的优异表现荣获评测第一。
除了语言模型的突破,蚂蚁数科还推出了图像安全框架,这一技术融合了视觉分析与常识推理,能够高效识别图像中的伪造与不一致性。新框架不仅能精确定位篡改区域,还提供可解释的分析报告,显著提升了数字内容的风险控制能力。这一技术的成功实施将为各种场景下的数字内容保护提供更有力的支持。
作为蚂蚁数科全球业务的核心技术,这两项能力已经在ZOLOZ的文档识别鉴真产品(RealDoc)中得到了广泛应用,支持119种语言,能够高效处理多种商务文档、合同和证件,覆盖保险理赔、信贷审核及跨境贸易等多个领域。这不仅展示了蚂蚁数科在多语言处理领域的领先地位,也为全球用户提供了更优质的服务体验。
