大模型为何“查无此人”?MiniMax揭秘“马嘉祺”消失背后的技术真相与解决方案

微新创想:近日,开发者社区发现 MiniMax M2系列模型在输出特定人名“马嘉祺”时出现异常。这一现象引发了广泛关注,MiniMax 官方随即进行了全链路排查,并发布技术报告,揭示了这一问题背后的深层机制。报告指出,问题源于后训练阶段(Post-training)导致的低频 Token 退化。

微新创想:根因定位显示,分词器将“马嘉祺”切分为 [‘马’, ‘嘉祺’]。进一步分析发现,“嘉祺”在预训练阶段出现频次高,被合并为独立 Token(编号190467)。然而,在决定模型对话能力的“后训练”阶段,包含该 Token 的样本不足5条。这种极低的出现频次导致该 Token 在向量空间中长期未被优化,被频繁更新的高频 Token(如代码符号、工具调用标记)挤压偏移。最终,模型虽然保留了关于马嘉祺的知识,却失去了输出对应 Token 的能力,转而选择音近的“佳琪”或“琪琪”。

大模型为何“查无此人”?MiniMax揭秘“马嘉祺”消失背后的技术真相与解决方案插图1

微新创想:这一问题还引发了连锁反应,影响了日语与垃圾词的表达。通过对20万词表的扫描,MiniMax 发现约 4.9% 的 Token 存在显著退化。退化最严重的是日语内容(退化率29.7%),这解释了为何模型在日语对话中偶尔会混入俄语或韩语字符——因为日语 Token 发生了参数漂移,与其他语言在空间中产生了混淆。此外,退化名单中还包括大量的互联网 SEO 垃圾词(如“传奇私服”、“无痛人流”等)。由于这些词汇在对话数据中几乎为零,模型在后训练中逐渐“遗忘”了它们。

微新创想:为了解决这一问题,MiniMax 提出了三项核心修复策略。首先,构建全词表合成数据,通过复读任务确保每个 Token 在后训练阶段都有最低限度的练习频率。其次,混入预训练语料,在 SFT 数据中按比例加入预训练语料,利用其广度缓解遗忘。最后,进行词表裁剪与监控,移除永远不会被使用的冗余 Token,并将 Token 覆盖度纳入后训练质量监控指标。

微新创想:总结来看,“马嘉祺”事件并非孤例,它折射出大模型分词器设计与实际使用场景之间的脱节。MiniMax 表示,未来的数据覆盖策略需兼顾语义层面与统计层面,确保模型在习得“聊天能力”的同时,不丢失底层的词汇表达力。这一改进不仅有助于提升模型的准确性,也为大模型的训练与优化提供了新的思路。

最新快讯

2026年05月09日

12:21
微新创想:DeepSeek公司近期宣布将在6月推出其V4模型的更新版本V4.1 并计划加快模型发布频率 以追赶行业竞争对手。此前 DeepSeek因技术深度受到好评 但其模型迭代速度明显滞后于其他AI公司。在140天内未发布任何新模型 而同期多家全球主要AI公司共发布了约50个新模型。DeepSeek的V4模型本定于2026年2月发布 但因硬件迁移等问题 发...
12:04
微新创想:2026年5月8日,中国石化上海石化年产3万吨大丝束碳纤维建设项目一阶段在上海市正式投料开车,顺利产出合格产品。这一重要进展标志着我国在高端碳纤维材料领域迈出了坚实的一步。 该项目首期建成2条48K大丝束碳纤维生产线,单线产能超过3000吨,成为国内单线最大规模的碳纤维生产线。这不仅提升了我国碳纤维的生产能力,也为相关产业提供了更加稳定和高效的原材...
12:04
微新创想:2026年5月9日,小鹏集团法务部发布声明称,近期有社交账号利用AI工具编造并传播“8家新能源车企被集中约谈、3家被立案调查”等不实信息,并将小鹏列入名单。小鹏明确表示,公司未收到任何相关约谈通知,亦未被立案调查。该虚假信息已对其品牌及声誉造成恶劣影响。小鹏已完成对涉事账号的证据固定,将依法追究造谣传谣者法律责任。
12:04
微新创想:5月8日,浙江欧诺机械科技股份有限公司首次公开发行股票申请获深圳证券交易所正式受理,拟在主板上市。公司计划发行不超过2790万股,占发行后总股本不低于25%,保荐机构为光大证券。 本次募集资金约14.52亿元,将投向印包设备及智能产线建设、研发中心、营销服务网络及补充流动资金等项目。资金的合理配置将助力公司进一步扩大生产能力,提升技术研发实力,并增...
12:04
微新创想:2026年5月8日,美国普渡大学研究团队发表了一项新模型,揭示了月球南极-艾特肯盆地的形成过程。该盆地是月球上最大的撞击盆地,直径超过2500公里,其地质构造一直备受关注。 研究指出,这一巨大的撞击盆地可能是由一颗直径约260公里的岩质小行星造成的。撞击发生时,小行星以30度的浅角和13公里每秒的速度撞击月球表面。这种低角度的撞击方式,使得撞击能量...
12:04
微新创想:第六届TOPS它博会于5月7日在上海国家会展中心盛大开幕。作为国内宠物行业的重要盛会,本届展会吸引了众多品牌与专业人士参与,共同探讨宠物健康与生活方式的未来趋势。 吉家宠物集团旗下高端宠粮品牌蓝氏亮相本届展会,设立于6.2馆6A1-50展位。蓝氏以“理解天性”“尊重天性”“守护天性”为核心理念,致力于为宠物提供更贴近自然、更科学的营养方案。 展台采...
12:04
微新创想:2026年5月9日,加拿大户外品牌Arc'teryx始祖鸟正式推出Lithos SL安全带。这款新产品标志着始祖鸟在攀登装备领域迈出了重要的一步,采用了新一代经编强度技术,使得承重结构厚度仅为2毫米。这一创新不仅实现了更轻、更薄的设计,同时也确保了更高的耐用性,为运动攀登者提供了前所未有的性能突破。 微新创想:Lithos SL安全带引入了六档腰围...
12:04
微新创想:2026年5月9日,铭凡(MINISFORUM)正式上架Elite Mini M2迷你主机。这款产品以其紧凑的机身和强大的性能配置,吸引了众多科技爱好者的关注。Elite Mini M2搭载了Intel酷睿Ultra 7 356H处理器,为用户提供了出色的计算能力与多任务处理效率。 该迷你主机提供了准系统版与32GB+1TB配置版两种选择,分别定价...
12:04
微新创想:2026年5月,意大利星级气泡水品牌圣培露在米兰启动全新全球品牌项目《晚餐漫谈》。该项目由F1传奇车手刘易斯·汉密尔顿主演,通过创意短片呈现其与三位儿时挚友重聚共进晚餐的真实对话。短片不仅展现了他们之间的深厚友谊,更传递了关于人生、梦想与成长的真挚情感。 微新创想:活动特别设计了印有引导性问题的限定瓶身,鼓励消费者在享受饮品的同时,与身边的人展开深...
12:04
微新创想:2026年5月9日,工信部正式公布全国万兆光网试点任务完成名单,山西山煤国际河曲露天煤业成功完成万兆工厂试点。该项目由工信部统一部署,山西省通信管理局积极配合推进,主要目的是验证万兆光网在大型工业场景中的部署能力和实际应用效果。试点项目落地于忻州市河曲县露天煤矿的生产作业区,重点覆盖智能调度、远程操控以及高清视频巡检等关键业务环节。 此次试点的完成...
12:04
微新创想:2026年5月9日 稀宇科技(MiniMax)发布技术报告 宣布已修复M2系列大模型无法准确输出“马嘉祺”等人名的问题 问题源于分词器将“嘉祺”切为独立词元 但后训练数据中该词元样本极少 致其向量参数被高频词元挤压偏移 团队通过全词表合成数据开展“复读”训练 使词元生成稳定性显著提升 日语混入俄文字符率由47%降至1% 修复覆盖约20万个词元 其中...