
近日,蚂蚁数科在香港金融科技节上震撼发布了革命性技术——“多语种多模态大模型训练框架”,这一创新成果旨在突破当前大模型在多语言环境应用中的瓶颈。随着人工智能技术的迅猛发展,大模型已成为推动各行业效率提升的关键力量。然而传统以英文为核心的大模型在小语种环境中往往表现乏力,频繁出现“语言错乱”和推理信息混乱等问题,严重限制了其全球化应用的潜力。为攻克这一难题,蚂蚁数科研发团队倾力打造了这一全新框架,并在多文化多语言视觉问答基准测试(CVQA)中创造了令人瞩目的成绩。该框架在埃及阿拉伯语、印尼爪哇语、巴哈萨语及巽他语等资源匮乏的小语种上表现尤为亮眼,凭借卓越的多语言识别能力强势跻身榜首。这一突破性进展的核心在于创新的语言感知优化框架。该框架通过“以目标语言进行思考”的独特机制,结合细粒度多维度的奖励策略与自动化数据解决方案,实现了对小语种的深度理解与高效处理。根据权威测试数据,与同等规模的开源模型相比,该框架在主流多语言视觉问答(Multilingual Visual Question Answering,VQA)基准测试中准确率提升了约9.5%,在部分任务中甚至超越了GPT-4o和Gemini-2.5-flash等国际顶尖闭源模型,以总分第一的优异表现赢得业界高度认可。在安全能力建设方面,蚂蚁数科同步推出了图像安全框架,通过融合视觉分析与常识推理的伪造识别路径,能够精准识别图像中的视觉不一致性与逻辑矛盾。这一技术不仅能精准定位篡改区域,还能提供可解释分析报告,显著增强数字内容的风险管控水平。作为蚂蚁数科全球业务的核心技术支撑,这两项创新能力已成功应用于ZOLOZ文档识别鉴真产品(RealDoc)的规模化部署,该产品全面支持119种语言,能够高效处理多语种商务文档、合同和证件,广泛覆盖保险理赔、信贷审核及跨境贸易等多元场景,为全球用户带来更智能、更安全的服务体验。

