大模型为何“查无此人”?MiniMax揭秘“马嘉祺”消失背后的技术真相与解决方案

微新创想:近日,开发者社区发现 MiniMax M2系列模型在输出特定人名“马嘉祺”时出现异常。这一现象引发了广泛关注,MiniMax 官方随即进行了全链路排查,并发布技术报告,揭示了这一问题背后的深层机制。报告指出,问题源于后训练阶段(Post-training)导致的低频 Token 退化。

微新创想:根因定位显示,分词器将“马嘉祺”切分为 [‘马’, ‘嘉祺’]。进一步分析发现,“嘉祺”在预训练阶段出现频次高,被合并为独立 Token(编号190467)。然而,在决定模型对话能力的“后训练”阶段,包含该 Token 的样本不足5条。这种极低的出现频次导致该 Token 在向量空间中长期未被优化,被频繁更新的高频 Token(如代码符号、工具调用标记)挤压偏移。最终,模型虽然保留了关于马嘉祺的知识,却失去了输出对应 Token 的能力,转而选择音近的“佳琪”或“琪琪”。

大模型为何“查无此人”?MiniMax揭秘“马嘉祺”消失背后的技术真相与解决方案插图1

微新创想:这一问题还引发了连锁反应,影响了日语与垃圾词的表达。通过对20万词表的扫描,MiniMax 发现约 4.9% 的 Token 存在显著退化。退化最严重的是日语内容(退化率29.7%),这解释了为何模型在日语对话中偶尔会混入俄语或韩语字符——因为日语 Token 发生了参数漂移,与其他语言在空间中产生了混淆。此外,退化名单中还包括大量的互联网 SEO 垃圾词(如“传奇私服”、“无痛人流”等)。由于这些词汇在对话数据中几乎为零,模型在后训练中逐渐“遗忘”了它们。

微新创想:为了解决这一问题,MiniMax 提出了三项核心修复策略。首先,构建全词表合成数据,通过复读任务确保每个 Token 在后训练阶段都有最低限度的练习频率。其次,混入预训练语料,在 SFT 数据中按比例加入预训练语料,利用其广度缓解遗忘。最后,进行词表裁剪与监控,移除永远不会被使用的冗余 Token,并将 Token 覆盖度纳入后训练质量监控指标。

微新创想:总结来看,“马嘉祺”事件并非孤例,它折射出大模型分词器设计与实际使用场景之间的脱节。MiniMax 表示,未来的数据覆盖策略需兼顾语义层面与统计层面,确保模型在习得“聊天能力”的同时,不丢失底层的词汇表达力。这一改进不仅有助于提升模型的准确性,也为大模型的训练与优化提供了新的思路。

最新快讯

2026年05月09日

13:06
微新创想:2026斐乐全国青少年高尔夫球精英挑战赛厦门站于5月8日正式开赛,比赛在东方(厦门)高尔夫乡村俱乐部拉开帷幕。首日赛事率先展开男女AB组的激烈角逐,吸引了众多青少年高尔夫球爱好者参与。赛事整体采用‘4站精英挑战赛+1站年度总决赛’的模式,全面覆盖男女子A、B、C、D各分组,为不同年龄段的选手提供了充分展示自我、提升竞技水平的平台。 此次赛事作为20...
13:06
微新创想:2026年5月8日,创王光电大陆子公司观宇科技在苏州展示了一款0.39英寸XGA分辨率的硅基OLEDoS微显示器。这款产品在亮度方面取得了显著突破,峰值亮度达到了15万尼特,相比其2025年底创下的10万尼特纪录提升了50%。这一进步不仅彰显了公司在显示技术领域的持续创新,也为未来XR设备的性能提升奠定了坚实基础。 该微显示器采用先进的uNEEDX...
13:06
微新创想:2026年5月9日,中信建投发布研报指出,AI算力与商业航天正迎来产业加速期。算力方面,AI Agent推动计算负载向CPU密集型转变,引发服务器CPU缺货与涨价。大模型推理降本需求加速ASIC布局,形成GPU+ASIC异构协同趋势。航天方面,多型可重复使用火箭进入密集验证阶段,运力提升将加速卫星互联网组网,推动商业航天迈向高质量发展。
13:06
微新创想:5月9日,联想官方商城正式上架小新 Pro 27 2026 酷睿版一体机。这款新品凭借其出色的性能和精致的设计,迅速吸引了众多消费者的关注。 该一体机搭载英特尔酷睿 Ultra 5 235 处理器,为用户带来强劲的计算能力。同时配备27英寸QHD分辨率屏幕,支持240Hz高刷新率,确保画面流畅稳定,满足专业设计与游戏娱乐的双重需求。 屏幕拥有96%...
13:06
微新创想:2026年5月9日,韩国电商平台Coupang发布2026财年第一季度财报。当季营收达到85.04亿美元,同比增长8%。然而,公司出现了营业亏损,金额为2.42亿美元,去年同期则是盈利1.54亿美元。净亏损也扩大至2.66亿美元,与去年同期相比由盈利转为亏损。 微新创想:毛利率同比下降了228个基点,降至27.0%。调整后EBITDA同比下降92%...
13:06
微新创想:2026年5月8日,Keychron正式发布J9 Ultra 8K机械键盘。这款键盘采用了75%配列设计,整体厚度为12mm,重量约为630g,具备笔记本直放的便携特性,适合多种使用场景。 微新创想:J9 Ultra 8K机械键盘预装了macOS风格的键帽,并附赠Windows替换键帽,满足不同用户的个性化需求。其键帽采用PBT双色注塑工艺,不仅提...
13:06
微新创想:5月8日,前苹果设计师Eli Guerron在X平台发布了一款关于iPhone删除键的新概念设计。这一设计突破了传统的点按删除方式,引入了“可拉伸调速”的交互机制。用户只需轻拉删除键,即可根据拉伸的长度线性调节删除速度,从而实现对字符、单词甚至段落的精准清除。 该方案不仅保留了原有轻点删除的功能,还通过新增的手势操作维度,大大提升了用户的操作自由度...
12:21
微新创想:DeepSeek公司近期宣布将在6月推出其V4模型的更新版本V4.1 并计划加快模型发布频率 以追赶行业竞争对手。此前 DeepSeek因技术深度受到好评 但其模型迭代速度明显滞后于其他AI公司。在140天内未发布任何新模型 而同期多家全球主要AI公司共发布了约50个新模型。DeepSeek的V4模型本定于2026年2月发布 但因硬件迁移等问题 发...
12:04
微新创想:2026年5月8日,中国石化上海石化年产3万吨大丝束碳纤维建设项目一阶段在上海市正式投料开车,顺利产出合格产品。这一重要进展标志着我国在高端碳纤维材料领域迈出了坚实的一步。 该项目首期建成2条48K大丝束碳纤维生产线,单线产能超过3000吨,成为国内单线最大规模的碳纤维生产线。这不仅提升了我国碳纤维的生产能力,也为相关产业提供了更加稳定和高效的原材...
12:04
微新创想:2026年5月9日,小鹏集团法务部发布声明称,近期有社交账号利用AI工具编造并传播“8家新能源车企被集中约谈、3家被立案调查”等不实信息,并将小鹏列入名单。小鹏明确表示,公司未收到任何相关约谈通知,亦未被立案调查。该虚假信息已对其品牌及声誉造成恶劣影响。小鹏已完成对涉事账号的证据固定,将依法追究造谣传谣者法律责任。
12:04
微新创想:5月8日,浙江欧诺机械科技股份有限公司首次公开发行股票申请获深圳证券交易所正式受理,拟在主板上市。公司计划发行不超过2790万股,占发行后总股本不低于25%,保荐机构为光大证券。 本次募集资金约14.52亿元,将投向印包设备及智能产线建设、研发中心、营销服务网络及补充流动资金等项目。资金的合理配置将助力公司进一步扩大生产能力,提升技术研发实力,并增...