Meta AI 近期正式发布了 MobileLLM-R1 系列轻量级边缘推理模型,这一创新成果已在 Hugging Face 平台公开发布。该系列模型参数规模覆盖从 140M 到 950M 的广泛区间,其核心设计理念聚焦于高效执行数学运算、编码任务以及科学推理,令人惊喜的是,即便在参数总量不足 10 亿的条件下,依然实现了令人瞩目的性能表现。

MobileLLM-R1 系列中的旗舰模型 MobileLLM-R1-950M 采用了一系列精心设计的架构优化方案。该模型基于 22 层 Transformer 结构构建,配备了 24 个注意力头和 6 个分组 KV 头,嵌入维度设定为 1536,隐藏层维度则达到 6144。特别值得一提的是,模型引入了分组查询注意力(GQA)机制,有效降低了计算与内存资源消耗;通过块级权重共享技术,在控制参数数量的同时避免了显著增加延迟;SwiGLU 激活函数的应用则显著提升了小模型的表示能力。此外,该模型支持长达 4K 的上下文长度处理,以及 32K 的后训练模型参数规模。

在训练效率方面,MobileLLM-R1 同样展现出卓越表现。该模型总共在约 4.2 万亿个 token 上完成了训练,相较于 Qwen3 的 0.6B 模型(训练数据量为 36 万亿 token)而言,MobileLLM-R1 仅消耗了约 11.7% 的训练数据,却成功达到了甚至超越了 Qwen3 的准确率水平。同时,研发团队还针对数学、编码和推理数据集进行了细致的监督微调,进一步优化了训练成本与资源利用率。

MobileLLM-R1-950M 在各项基准测试中均取得了亮眼成绩。在 MATH500 数据集上,其准确率不仅比 OLMo-1.24B 高出约 5 倍,也比 SmolLM2-1.7B 高出约 2 倍。在 GSM8K、AIME 以及 LiveCodeBench 等推理和编码任务中,MobileLLM-R1 的表现更是与 Qwen3-0.6B 相当甚至更胜一筹,尽管其训练所使用的 token 数量远低于后者。

然而,MobileLLM-R1 的专注化设计也带来了相应的局限性。虽然该模型在数学、编码和结构化推理领域表现出色,但在一般对话能力、常识推理以及创造性任务方面,其表现仍不及大型通用模型。此外,模型在生产环境中的部署受到 FAIR NC(非商业)许可证的限制,而较长的 32K 上下文长度处理也确实会提升 KV 缓存和内存资源的需求。

Meta AI 发布 MobileLLM-R1 轻量级模型 参数不足10亿性能显著提升插图

总体而言,Meta 的 MobileLLM-R1 系列模型清晰地展现了人工智能领域的一个重要发展趋势——即朝着更小、更专业化的模型方向演进。这些模型能够在无需巨额训练预算的情况下,实现具有竞争力的推理能力。特别是在数学、编码和科学应用场景中,MobileLLM-R1 系列模型的表现尤为突出,为边缘设备上的大规模语言模型部署树立了新的标杆。

项目地址:https://huggingface.co/facebook/MobileLLM-R1-950M

划重点:
🧩 ** 新模型发布 **:Meta AI 推出 MobileLLM-R1 系列轻量级边缘推理模型,参数范围从 140M 到 950M。
📊 ** 训练效率 **:MobileLLM-R1 仅用约 11.7% 的数据训练,表现出色,训练成本和资源需求显著降低。
💡 ** 性能优势 **:在多项基准测试中,MobileLLM-R1-950M 表现超越多款大型开源模型,尤其在数学和编码任务上。

最新快讯

2025年11月28日

20:02
2025年11月28日,长安汽车正式宣布了一项具有里程碑意义的战略布局——拟以自有资金2.25亿元参与设立全新机器人公司。这一举措标志着长安汽车在智能化转型道路上迈出了坚实一步,也彰显了其向多元化科技巨头迈进的决心。据悉,新成立的长安机器人公司将由中国长安、辰致科技和长安科技共同出资组建,注册资本高达4.5亿元,其中长安汽车以50%的持股比例成为控股股东,凸...
20:02
2025年11月28日,社交巨头Meta旗下的Instagram平台重磅推出两项创新功能——本地化语音翻译与字体适配,旨在为全球创作者提供更强大的跨语言传播工具。这一系列优化举措将显著提升内容在多语言环境下的可理解性与视觉吸引力,帮助创作者突破地域限制,更精准地触达不同语言背景的用户群体。 通过先进的语音识别与机器翻译技术,Instagram能够实时将语...
20:02
2025年11月28日,安世中国正式发布了一份措辞强硬的声明,直指安世荷兰在控制权问题上的不当行为,并要求其立即与相关方展开真诚磋商。声明明确指出,当前全球半导体供应链的混乱局面,主要源于荷兰方面的一系列违规操作,其海外扩产计划不仅扰乱了正常的市场秩序,更试图通过替代中国产能来谋求不正当优势。安世中国强烈谴责荷方这种破坏全球产业分工的行为,要求其立即停止在马...
20:02
2025年11月28日,中国巨石发布重要公告,宣布其控股股东振石集团正式启动股份增持计划。据悉,振石集团目前持有公司总股本的16.88%,此次计划将通过自有资金及专项贷款,筹集5.5亿元至11亿元的资金,分阶段逐步增持公司股份。这一举措不仅彰显了振石集团对巨石未来发展的坚定信心,更体现了其对公司长期价值的深度认可。根据公告内容,增持的具体实施将灵活调整,择机...
20:02
2025年11月28日,备受瞩目的2025数据要素发展大会在北京隆重召开。在此次盛会期间,中国信息通信研究院正式发布了《数据要素发展报告(2025年)》,为我国数据要素市场的发展提供了权威解读。报告深入分析了当前数据要素领域面临的挑战与机遇,指出数据基础制度与现有体系的衔接仍存在明显短板,技术产业规模化突破尚未实现。为有效激发数据要素的内在活力,报告提出了一...
19:01
2025年11月28日,胜科纳米正式宣布一项重大战略布局,其全资子公司青岛胜科计划投入约5亿元人民币,全力推进“青岛检测分析能力提升建设项目”。这一举措标志着胜科纳米在半导体检测与分析领域的深度拓展,旨在通过技术升级和产能扩张,进一步巩固其在第三方检测服务市场的领先地位。 该项目投资主体为青岛胜科或其关联企业,建设地点选址于青岛这一重要的科技创新中心。据...
19:01
2025年11月28日,中国创新药企贝达药业传来振奋人心的消息,其自主研发的盐酸恩沙替尼胶囊上市许可申请已成功获得欧洲药品管理局(EMA)的正式受理。这款备受瞩目的靶向药物,专为治疗间变性淋巴瘤激酶(ALK)阳性的非小细胞肺癌患者设计,此次获得EMA受理标志着其进军欧洲市场的关键一步,有望为欧洲患者带来全新的治疗希望。 该药物的申请材料基于一项全球多中心II...
19:01
2026年初,备受期待的M&M'S全新门店即将在上海迪士尼度假区迪士尼小镇盛大启幕。这家标志性门店坐落于迪士尼小镇入口附近黄金位置,将为游客提供集购物、餐饮与娱乐体验于一体的全方位休闲空间。玛氏中国官方宣布,此次新店开业将是品牌在中国市场战略布局的重要里程碑。据悉,新门店将精心打造沉浸式品牌体验空间,通过创新设计、互动装置和特色活动,让消费者深度感受...
19:01
2025年第三季度,美团核心本地商业分部遭遇了前所未有的经营困境,实现经营亏损高达141亿元人民币,较去年同期由盈转亏的局面形成鲜明对比。回顾去年同期,该分部曾实现经营溢利146亿元,经营利润率维持在令人羡慕的21.0%水平。然而,本季度这一数据急转直下,不仅扭亏为盈,反而跌至-20.9%的亏损区间,利润率大幅下滑41个百分点。 造成这一结果的主要原因是多方...
19:01
2025年11月28日,中国生物科技企业海特生物迎来重大突破,其参股公司研发的创新眼用注射液ZM-02正式获得美国食品药品监督管理局(FDA)的临床试验批准。这一里程碑事件不仅彰显了ZM-02的卓越研发潜力,更标志着该产品迈向国际化的关键一步。据悉,ZM-02将在美国境内开展严谨的临床试验,全面评估其在治疗各类眼部疾病方面的安全性与有效性。作为该项目的参股方...
19:01
2025年11月28日,医药企业泰恩康迎来重大突破,其全资子公司正式获得国家药品监督管理局颁发的巴瑞替尼片药品注册证书。这一里程碑事件不仅意味着该创新药物即将进入临床应用阶段,更标志着泰恩康在自身免疫疾病治疗领域迈出了关键一步。据悉,巴瑞替尼片作为一款口服JAK抑制剂,凭借其强大的抗炎特性,被批准用于治疗中重度斑秃及类风湿关节炎两大高发性自身免疫疾病。此次成...
19:01
首旅如家近日宣布与云迹科技达成战略合作,在上海等一线城市的多家门店成功引入煮面机器人,正式开启餐饮智能化升级新篇章。此次合作的核心目标在于全面升级旗下特色服务「如家这碗面」,通过引入自动化煮面机器人,显著提升早餐服务的餐饮效率与标准化水平,为消费者带来更稳定、更高效的用餐体验。 据悉,这款煮面机器人能够全流程自动化完成从取面、煮面到加汤等关键步骤,其卓越性能...