
微新创想:近日稀宇科技(MiniMax)发布了一份技术报告详细剖析了其M2系列模型为何无法准确输出“马嘉祺”等特定人名的深层原因这起看似偶然的错误实际上揭示了当前大模型训练中普遍存在的一个隐蔽缺陷

词元偏移被“挤压”的向量空间问题的核心源于大模型处理文本的基本单位——分词器(Tokenizer)以“马嘉祺”为例该名字在模型内部被切分为“马”和“嘉祺”两个词元虽然模型在海量数据的预训练阶段已经学习过这些词汇但在随后的“后训练”(指令微调)阶段问题出现了由于后训练使用的精选对话数据中“嘉祺”一词出现的频率极低导致该词元几乎处于零训练状态与此同时代码符号工具调用等高频词元在训练中不断强化其向量参数的更新持续“挤压”了低频词元的生存空间最终这些低频词元偏离了正确的概率区间导致模型在尝试称呼特定艺人时只能退而求其次选择了读音相近的“佳琪”或“琪琪”
不止是中文日语混入俄语的连锁反应MiniMax的排查显示这种“词元退化”现象并非个案经过对全词表约20万个词元的扫描发现约4.9%的词元都出现了显著的性能衰退其中日文词元的退化比例竟高达29.7%这也是该模型在进行日语对话时偶尔会莫名混入俄语或韩语字符的根源除了人名和外语受影响的还包括LaTeX公式标记维基百科源码符号甚至还有一些SEO垃圾关键词这一发现证明了数据稀疏带来的后果是全局性的当后训练数据无法均衡覆盖不同语种和特定词汇时模型的生成逻辑就会产生偏差

系统性修复为20万个词元建立“低保”针对这一结构性难题研发团队采取了精准的修复方案他们通过构造覆盖全词表的合成数据强制模型进行“复读”任务从而为每一个词元建立了生成频率的“底线保障”修复后的数据显示模型全词表输出的稳定性大幅提升日语回答中混入异语字符的比例也从之前的47%骤降至1%目前团队仍在探索更深层的优化方案例如在微调阶段混入预训练语料或直接清理词表中不再使用的冗余标记
这起事件引发了行业的深刻反思大模型的分词器往往基于广阔的网络语料但下游应用场景却各有侧重如何在追求语义多样性的同时从底层统计学视角确保词元层面的数据覆盖将是未来提升大模型可靠性的关键课题
