近日,约翰霍普金斯大学的研究团队隆重推出了一款创新的多语种编码器——mmBERT,旨在填补当前自然语言处理领域中多语种处理的空白。这款模型不仅在多项任务上超越了XLM-R的标杆性能,更在处理速度上实现了惊人的2至4倍提升,为多语种应用的研究与开发注入了强大的动力。

mmBERT的架构设计独具匠心,分为基础模型和小型模型两种配置。基础模型由22层变换器构成,隐藏层维度达到1152,总参数量约为3.07亿,而小型模型的参数量则精简至1.4亿,兼顾了性能与效率。在技术层面,mmBERT采用了先进的Gemma2分词器,支持高达256k的词汇量,并巧妙运用旋转位置嵌入(RoPE)和FlashAttention2技术,显著提升了处理效率。此外,该模型的序列长度从1024个令牌扩展至8192个令牌,使其能够处理更长的上下文信息,满足复杂应用场景的需求。

在训练数据方面,mmBERT展现了卓越的包容性。模型使用了来自多个来源的3万亿个令牌,覆盖了1833种语言,其中英语在整个语料库中仅占10%至34%。这种多元化的数据集确保了模型在全球范围内的普适性。训练过程分为三个阶段:预训练、阶段中训练和衰减阶段。在每个阶段中,模型逐步接触更多语言和更高质量的数据,这种渐进式训练方法有效提升了低资源语言的表现,为全球语言提供了更公平的展示平台。

mmBERT多语种编码器性能超越XLM-R效率提升2至4倍插图

mmBERT在多个基准测试中交出了亮眼的成绩单。在英语自然语言理解(GLUE)任务中,基础模型的得分高达86.3,超越了XLM-R的83.3。在多语种自然语言理解(XTREME)任务中,mmBERT的得分同样领先,达到72.8,而XLM-R的得分则为70.4。此外,在嵌入任务和代码检索任务中,mmBERT也表现出色,彰显了其在多种应用场景中的巨大潜力。

特别值得一提的是,mmBERT对低资源语言的关注。在法罗语、提格雷尼亚语等低资源语言的基准测试中,mmBERT的表现均优于其他大型模型,证明了精心训练的编码器模型能够有效应对低资源场景的挑战。这一突破性成果为全球语言多样性保护提供了新的解决方案。

mmBERT不仅提升了多语种处理的速度和效率,更为下一代多语种自然语言处理系统奠定了坚实的基础。它以高效、开放的方式重新定义了多语种编码器的潜力,标志着自然语言处理领域进入了一个全新的时代。

mmBERT多语种编码器性能超越XLM-R效率提升2至4倍插图1

github:https://github.com/JHU-CLSP/mmBERT?tab=readme-ov-file

划重点:
🌍 mmBERT模型在多个任务上超越了XLM-R,成为多语种NLP的新标杆。
⚡ 该模型速度提升2至4倍,支持处理高达8192个令牌的输入。
📊 mmBERT特别关注低资源语言的训练表现,展现出强大的适应能力和广泛应用潜力。

最新快讯

2026年03月05日

19:34
微新创想:2026年3月5日,高途教育科技公司发布截至2025年12月31日的第四季度及全年未经审计财报。数据显示,2025年Q4收入达到16.853亿元,同比增长21.4%。毛利润为11.445亿元,增长20.7%。尽管公司仍处于净亏损状态,但净亏损金额为8418万元,同比收窄37.7%,显示出财务状况的明显改善。 全年来看,高途教育科技公司2025年总收...
19:34
微新创想:2026年3月5日,Akash Systems宣布正式发售首款搭载AMD Instinct MI350X GPU的金刚石冷却AI服务器,由神云科技制造。该服务器首次实现Diamond Cooling技术在AMD Instinct GPU数据中心的商用部署。这一创新技术为高性能计算和人工智能领域带来了全新的散热解决方案。 微新创想:该冷却方案可叠加现...
19:34
微新创想:2026年3月5日,重庆江津福朋喜来登酒店在滨江新城核心商圈正式开业。酒店坐落于风景优美的圣泉湖公园附近,由国际知名的万豪国际集团进行管理。这一新地标不仅为当地增添了高端酒店服务,也为商务人士和游客提供了更优质的住宿体验。 酒店共设有121间客房及套房,每间客房均配备先进的智能入住系统,让客人能够更加便捷地享受入住服务。此外,房间内还设有电动窗帘、...
19:34
微新创想:2026年3月5日,人形机器人企业魔法原子证实创始人兼原CEO吴长征已离职并启动个人创业。事件发生于北京,由公司官方回应确认。吴长征离职后,CTO陈春玉全面接管研发工作。公司表示核心技术团队未发生变动,业务与技术研发均按年度规划稳步推进,整体运营未受明显影响。
19:04
微新创想:3月3日,开发商Weyrdworks宣布,桌面宠物模拟游戏《Weyrdlets: Idle Desktop Pets》将于3月17日正式转为付费模式。玩家可于3月17日前免费入库Steam。 游戏自2024年7月上线以来,凭借独特的玩法和精美的画面赢得了众多玩家的喜爱。经过持续的更新与优化,游戏已逐步发展为一款完整的养成类作品,为玩家提供了丰富的互...
19:04
微新创想:2026年3月5日,广汽丰田宣布在华新能源车型核心供应链已实现本土化。这一举措标志着广汽丰田在新能源领域迈出了重要一步,进一步深化了其在中国市场的布局。 旗下新车铂智7将搭载华为鸿蒙座舱5.0,带来更流畅的交互体验和更智能的车载系统。同时,该车型还配备了Momenta R6智能驾驶辅助系统,提升了车辆的安全性和智能化水平。 此外,铂智7还配备了双腔...
19:04
微新创想:2026年2月第二、三周,中国AI模型周调用量分别达到4.12万亿和5.16万亿Token,连续两周超越美国同期水平。这一数据表明中国在AI领域的应用和部署正在迅速增长,展现出强大的技术实力和市场需求。 OpenRouter数据显示,在当前调用量排名前五的AI模型中,有四款来自中国厂商,合计贡献了85.7%的调用量。这不仅反映了中国企业在AI模型研...
19:04
微新创想:3月5日,*ST松发发布公告披露,其下属公司恒力造船(大连)有限公司与欧洲船东签订了一份关于建造4艘30.6万吨超大型原油运输船的合同。这四艘船舶属于VLCC(超大型原油运输船)类别,总金额预计在4至6亿美元之间。合同签署地点位于大连,签约方为恒力造船与一位未公开身份的欧洲船东。 此次订单金额占公司2024年度经审计主营业务收入的50%以上,被认定...
19:04
微新创想:北京时间2026年3月6日凌晨2点《杀戮尖塔2》将在Steam平台开启抢先体验 本作是Mega Crit开发的续作延续了前作的美术风格并在此基础上进行了全面升级 游戏新增了大量卡牌敌人事件与场景让玩家在探索过程中体验到更多新鲜内容 同时引入了替代章节以及5名可选角色其中包括2名全新角色为游戏增添了更多选择性 还特别加入了4人在线合作模式让玩家能够与...
19:04
微新创想:3月4日,广和通在西班牙巴塞罗那举行的2026年世界移动通信大会(MWC 2026)上宣布率先实现基于MediaTek T930与高通X85/X82平台的功率等级1(PC1)模组技术落地 此次技术突破标志着广和通在5G-A领域迈出了重要一步。通过双平台的协同应用,该模组能够全面支持3Tx/8Rx/L4S等关键技术 3Tx技术有效提升了上行吞吐量,最...
19:04
微新创想:2026年3月5日,哔哩哔哩(B站)在港交所发布2025年第四季度及全年财报。2025年全年净营业额达到303.5亿元,同比增长13%。这一成绩标志着公司在内容生态和用户增长方面取得了显著进展。 微新创想:净利润方面,公司实现了11.9亿元的盈利,与去年同期的亏损13.6亿元形成鲜明对比。经调整净利润为25.9亿元,进一步体现了公司经营状况的改善和...
19:04
微新创想:近日,爱立信联合中国移动在江苏永联村部署了5G-A网络及差异化连接方案。该方案通过引入先进的网络切片技术,实现了对全村无线资源的高效划分,并结合RedCap技术,确保了网络覆盖的全面性和稳定性。这一举措不仅为永联村带来了更优质的通信体验,也为当地数字治理、民生服务以及产业升级提供了强有力的技术支撑。 微新创想:5G-A网络的部署使得村内各类智能应用...