近日,约翰霍普金斯大学的研究团队隆重推出了一款创新的多语种编码器——mmBERT,旨在填补当前自然语言处理领域中多语种处理的空白。这款模型不仅在多项任务上超越了XLM-R的标杆性能,更在处理速度上实现了惊人的2至4倍提升,为多语种应用的研究与开发注入了强大的动力。

mmBERT的架构设计独具匠心,分为基础模型和小型模型两种配置。基础模型由22层变换器构成,隐藏层维度达到1152,总参数量约为3.07亿,而小型模型的参数量则精简至1.4亿,兼顾了性能与效率。在技术层面,mmBERT采用了先进的Gemma2分词器,支持高达256k的词汇量,并巧妙运用旋转位置嵌入(RoPE)和FlashAttention2技术,显著提升了处理效率。此外,该模型的序列长度从1024个令牌扩展至8192个令牌,使其能够处理更长的上下文信息,满足复杂应用场景的需求。

在训练数据方面,mmBERT展现了卓越的包容性。模型使用了来自多个来源的3万亿个令牌,覆盖了1833种语言,其中英语在整个语料库中仅占10%至34%。这种多元化的数据集确保了模型在全球范围内的普适性。训练过程分为三个阶段:预训练、阶段中训练和衰减阶段。在每个阶段中,模型逐步接触更多语言和更高质量的数据,这种渐进式训练方法有效提升了低资源语言的表现,为全球语言提供了更公平的展示平台。

mmBERT多语种编码器性能超越XLM-R效率提升2至4倍插图

mmBERT在多个基准测试中交出了亮眼的成绩单。在英语自然语言理解(GLUE)任务中,基础模型的得分高达86.3,超越了XLM-R的83.3。在多语种自然语言理解(XTREME)任务中,mmBERT的得分同样领先,达到72.8,而XLM-R的得分则为70.4。此外,在嵌入任务和代码检索任务中,mmBERT也表现出色,彰显了其在多种应用场景中的巨大潜力。

特别值得一提的是,mmBERT对低资源语言的关注。在法罗语、提格雷尼亚语等低资源语言的基准测试中,mmBERT的表现均优于其他大型模型,证明了精心训练的编码器模型能够有效应对低资源场景的挑战。这一突破性成果为全球语言多样性保护提供了新的解决方案。

mmBERT不仅提升了多语种处理的速度和效率,更为下一代多语种自然语言处理系统奠定了坚实的基础。它以高效、开放的方式重新定义了多语种编码器的潜力,标志着自然语言处理领域进入了一个全新的时代。

mmBERT多语种编码器性能超越XLM-R效率提升2至4倍插图1

github:https://github.com/JHU-CLSP/mmBERT?tab=readme-ov-file

划重点:
🌍 mmBERT模型在多个任务上超越了XLM-R,成为多语种NLP的新标杆。
⚡ 该模型速度提升2至4倍,支持处理高达8192个令牌的输入。
📊 mmBERT特别关注低资源语言的训练表现,展现出强大的适应能力和广泛应用潜力。

最新快讯

2025年09月11日

18:22
随着人工智能(AI)技术的飞速发展,版权问题日益凸显,成为制约行业健康发展的关键瓶颈。近期,Anthropic 与版权方达成高达15亿美元的和解协议,更是将这一议题推向了风口浪尖。这一事件不仅引发了业界对数据合法性的深刻反思,也催生了多起未授权数据使用的诉讼案件。据统计,目前已有超过40起相关诉讼正在审理中,其中不乏Midjourney因制作超人形象而被起诉...
17:51
微新创想9月11日消息,这次iPhone 17系列发布,最惊艳的莫过于Air。接受媒体采访时,苹果工业设计副总裁莫莉安德森(Molly Anderson)谈论了iPhone Air设计理念,这是团队多年梦想的成果。苹果目标是打造一款纤薄的iPhone,这种薄是令人(整个行业)震惊的薄。”安德森说道。对于自家的新机,库克形容iPh...
17:51
近日,江西赣州定南县早高峰时段出现大量老人与学生“抢公交”的现象,引发社会广泛关注。据网友反映,每天早高峰时段,都有不少老人为了参加免费理疗课程和领取免费物品而与学生争抢公交车资源,导致许多学生因挤不上车而迟到。此次事件不仅反映了公交资源在特定时段的紧张状况,也凸显了社会不同群体出行需求的差异。交通运输局的倡议得到了社会各界的积...
17:51
近日,在山东大学校园的夜晚,一幕温馨而充满活力的场景悄然上演——校长李术才与学生一同夜跑,其亲切形象与活力姿态迅速在网络上引发热议,被学生们亲切地称为“蔬菜”校长。据悉,事件发生在山东济南的山东大学校园内。当晚,一位热爱夜跑的网友在锻炼过程中,意外邂逅了正在与学生一同夜跑的李术才校长。这一幕被网友用手机记录下来,并迅速在社交媒体...
17:51
近日,云南一名男子的独特出行方式在网络上引发了广泛关注。这名男子竟然骑乘一只鸵鸟上路,且其速度之快,令人惊叹——跑得比电动车还快!据视频显示,这名云南小伙阿华骑在一只身体黑色、头部与腿部为白色的鸵鸟背上,口吹哨子,显得悠然自得。鸵鸟迈开大步,风驰电掣般在道路上奔跑,引得路人纷纷侧目。阿华表示,这只鸵鸟步子大,最快时速可达到七八十...
17:51
Realbotix 公司(TSX-V: XBOT)宣布与 Grupo Kuo 达成独家战略分销合作,将其 AI 驱动的类人机器人引入西班牙和葡萄牙。此次合作将于2025年8月31日正式生效,旨在拓展 Realbotix 在欧洲的市场。图源备注:图片由AI生成,图片授权服务商MidjourneyGrupo Kuo 是一家以先进安全技术闻名的公司,拥有与顶级酒店...
17:30
2025年9月11日,长江材料宣布投资1.3亿元用于宁夏六盘山盆地海原区块有利地质区带的油气勘查项目。该项目旨在提升油气资源勘探效率,进一步拓展公司在能源领域的布局。勘查工作将聚焦于具备潜力的地质区带,具体进展将视勘探结果而定。
17:30
9月11日,T3出行宣布其AI打车助手正式接入支付宝,成为支付宝内首个网约车智能助手。用户只需语音输入目的地,该助手即可快速识别并推荐多个相关地点,提升打车效率。此举简化了传统手动输入流程,为用户带来更便捷的智能出行体验。
17:30
近日,理想汽车法务部发布公告,指出有部分网络黑公关和黑水军通过恶意抹黑和编造虚假信息的方式,诋毁理想汽车的品牌形象和产品质量。此举严重扰乱了市场秩序,损害了消费者权益及行业的健康发展。理想汽车表示将采取法律手段维护自身合法权益,并呼吁公众不信谣、不传谣,共同营造健康的网络环境。
17:30
2025年9月,苹果推出iPhone 17 Pro Max 2TB版本,售价1999美元,首次逼近2000美元门槛。尽管此前消费者因关税预期提前抢购,苹果此次调价幅度并不大。科技记者马克·古尔曼指出,此举表明苹果认为有足够的用户愿意为此支付高价。该定价反映了高端智能手机市场的持续扩张以及苹果对用户消费能力的信心。
17:30
2025年9月11日,印度尼西亚巴厘岛和东努沙登加拉省因持续暴雨引发洪水,已造成至少19人死亡、10人失踪。巴厘岛搜救办公室发言人古斯蒂·维贾延蒂表示,此次突发洪水导致当地13人死亡、6人失踪。洪灾还造成多地出现山体滑坡,共计18处。目前搜救工作仍在进行中。
17:30
近日,有投资者询问峨眉山A是否有计划将乐山大佛景区与峨眉山合并重组上市,以做强乐山旅游市场。公司通过互动平台回应称,目前并无相关计划。此举旨在澄清市场猜测,稳定投资者预期。