蚂蚁数科多语种视觉大模型框架突破伪造识别技术引领行业

2025-11-04 15:20:14 AI动态 5 次阅读

近日，蚂蚁数科在香港金融科技节上震撼发布了革命性技术——“多语种多模态大模型训练框架”，这一创新成果旨在突破当前大模型在多语言环境应用中的瓶颈。随着人工智能技术的迅猛发展，大模型已成为推动各行业效率提升的关键力量。然而传统以英文为核心的大模型在小语种环境中往往表现乏力，频繁出现“语言错乱”和推理信息混乱等问题，严重限制了其全球化应用的潜力。为攻克这一难题，蚂蚁数科研发团队倾力打造了这一全新框架，并在多文化多语言视觉问答基准测试（CVQA）中创造了令人瞩目的成绩。该框架在埃及阿拉伯语、印尼爪哇语、巴哈萨语及巽他语等资源匮乏的小语种上表现尤为亮眼，凭借卓越的多语言识别能力强势跻身榜首。这一突破性进展的核心在于创新的语言感知优化框架。该框架通过“以目标语言进行思考”的独特机制，结合细粒度多维度的奖励策略与自动化数据解决方案，实现了对小语种的深度理解与高效处理。根据权威测试数据，与同等规模的开源模型相比，该框架在主流多语言视觉问答（Multilingual Visual Question Answering，VQA）基准测试中准确率提升了约9.5%，在部分任务中甚至超越了GPT-4o和Gemini-2.5-flash等国际顶尖闭源模型，以总分第一的优异表现赢得业界高度认可。在安全能力建设方面，蚂蚁数科同步推出了图像安全框架，通过融合视觉分析与常识推理的伪造识别路径，能够精准识别图像中的视觉不一致性与逻辑矛盾。这一技术不仅能精准定位篡改区域，还能提供可解释分析报告，显著增强数字内容的风险管控水平。作为蚂蚁数科全球业务的核心技术支撑，这两项创新能力已成功应用于ZOLOZ文档识别鉴真产品（RealDoc）的规模化部署，该产品全面支持119种语言，能够高效处理多语种商务文档、合同和证件，广泛覆盖保险理赔、信贷审核及跨境贸易等多元场景，为全球用户带来更智能、更安全的服务体验。

2025年11月04日

20:03

蚂蚁数科多语种视觉大模型框架突破伪造识别技术引领行业

最新快讯

2025年11月04日

刺客信条影销量不及羊蹄山之魂育碧急需IP破局

视觉中国筹划H股赴港上市拓展境外融资渠道

存储现货价格飙升原厂控货涨价成趋势

天合储能与Pacific Green签5GWh储能合作共促能源转型

丰茂股份拟发6.1亿可转债用于智能底盘等项目

2025北京6G发展大会：智联全球共建技术创新生态

理想超充站达3500座加速全国布局覆盖31省

光年探索研制5米直径不锈钢共底贮箱实现航天制造重大突破

FDA批准基因编辑猪肾临床试验首例手术成功

2025年11月钢材价格持续下跌市场需求疲软供给压力大

斯特兰蒂斯CEO警告欧洲供应链脆弱性及自主性缺失

美国首例基因编辑猪肾人体临床试验成功完成