MiniMax大模型词元退化问题解析:后训练数据稀疏导致人名错误与语言混杂

微新创想:近日稀宇科技(MiniMax)发布了一份技术报告详细剖析了其M2系列模型为何无法准确输出“马嘉祺”等特定人名的深层原因这起看似偶然的错误实际上揭示了当前大模型训练中普遍存在的一个隐蔽缺陷

MiniMax大模型词元退化问题解析:后训练数据稀疏导致人名错误与语言混杂插图1

词元偏移被“挤压”的向量空间问题的核心源于大模型处理文本的基本单位——分词器(Tokenizer)以“马嘉祺”为例该名字在模型内部被切分为“马”和“嘉祺”两个词元虽然模型在海量数据的预训练阶段已经学习过这些词汇但在随后的“后训练”(指令微调)阶段问题出现了由于后训练使用的精选对话数据中“嘉祺”一词出现的频率极低导致该词元几乎处于零训练状态与此同时代码符号工具调用等高频词元在训练中不断强化其向量参数的更新持续“挤压”了低频词元的生存空间最终这些低频词元偏离了正确的概率区间导致模型在尝试称呼特定艺人时只能退而求其次选择了读音相近的“佳琪”或“琪琪”

不止是中文日语混入俄语的连锁反应MiniMax的排查显示这种“词元退化”现象并非个案经过对全词表约20万个词元的扫描发现约4.9%的词元都出现了显著的性能衰退其中日文词元的退化比例竟高达29.7%这也是该模型在进行日语对话时偶尔会莫名混入俄语或韩语字符的根源除了人名和外语受影响的还包括LaTeX公式标记维基百科源码符号甚至还有一些SEO垃圾关键词这一发现证明了数据稀疏带来的后果是全局性的当后训练数据无法均衡覆盖不同语种和特定词汇时模型的生成逻辑就会产生偏差

MiniMax大模型词元退化问题解析:后训练数据稀疏导致人名错误与语言混杂插图2

系统性修复为20万个词元建立“低保”针对这一结构性难题研发团队采取了精准的修复方案他们通过构造覆盖全词表的合成数据强制模型进行“复读”任务从而为每一个词元建立了生成频率的“底线保障”修复后的数据显示模型全词表输出的稳定性大幅提升日语回答中混入异语字符的比例也从之前的47%骤降至1%目前团队仍在探索更深层的优化方案例如在微调阶段混入预训练语料或直接清理词表中不再使用的冗余标记

这起事件引发了行业的深刻反思大模型的分词器往往基于广阔的网络语料但下游应用场景却各有侧重如何在追求语义多样性的同时从底层统计学视角确保词元层面的数据覆盖将是未来提升大模型可靠性的关键课题

最新快讯

2026年05月09日

14:39
2026年5月8日,科技媒体Ars Technica统计显示,苹果423个Mac配置中,Mac mini和Mac Studio缺货最严重。Mac mini M4 Pro(12核)及Mac Studio M4 Max、M3 Ultra多款高配机型发货周期从4月的22–50天大幅延长至5月的63–84天。MacBook Neo供应相对稳定,发货期维持在15–2...
14:39
2026年5月7日至9日,天马微电子在美国洛杉矶举行的SID Display Week上展出系列前沿显示技术。公司推出峰值亮度达8000nits的Tandem OLED模组,功耗降30%,寿命延至4倍;U11护眼基材使蓝光占比低至4.7%;6.32英寸240Hz AMOLED屏实现98.5%屏占比;折叠屏‘无痕’方案折痕深度降低45%;车载Micro LE...
14:39
2026年5月8日,美国神经康复医疗器械研发企业Mobia在纳斯达克交易所正式上市,证券代码MOBI。公司总部位于美国,专注于为中风后运动功能障碍患者提供植入式迷走神经刺激疗法,其核心产品为自主研发的Vivistim系统。该系统已获FDA批准,通过电刺激迷走神经协同康复训练,改善上肢运动功能。此次IPO募集资金将主要用于临床拓展、产能提升及全球注册申报。M...
14:39
2026年5月9日,蔚来汽车在官方社交媒体平台发布声明,否认近期有关其被监管部门约谈的传闻,明确表示该消息“纯属谣言”。事件发生于中国境内,涉事方为蔚来汽车及其公关团队。蔚来强调,公司始终严格遵守法律法规,积极配合行业监管,并未收到任何相关约谈通知。此次辟谣旨在及时澄清不实信息,维护企业声誉与市场秩序。目前无证据表明存在监管介入行为。
14:39
2026年5月9日,中国移动市场经营部总经理邱宝华在2026移动云大会上宣布,未来3—5年将投入百亿级Token生态资源。此举旨在构建Token运营体系,实施Token汇聚、平台筑基、消费激活、价值共赢四大行动。重点推进大模型深度合作,通过闭源模型接入、开源模型自有部署、优质模型协同共建三条路径,提升Token供给能力。同步建设千亿级算力基础设施,目标共创...
14:39
2026年5月9日,特斯拉美国官网宣布,Model 3与Model Y Performance高性能版新增‘冰河蓝’(Frost Blue Metallic)车身配色。该配色为浅色金属蓝质感,此前仅限已停产的Model S/X提供,现下放至新款高性能车型,且选配不额外收费。目前尚未确认该配色是否会登陆中国市场。此举旨在提升产品视觉高级感并优化库存配色策略。
14:39
近日,电子专用材料制造商普冈电子完成A轮融资。该公司总部位于中国,专注于铝电解电容器电极箔的研发、生产与销售,具备高低压腐蚀线与化成线一体化生产能力。本轮融资将用于扩大产能、升级产线及加强技术研发。公司成立至今已服务多家国内外知名电容器厂商,持续强化在高端电子材料领域的国产替代能力。
14:39
微新创想:2026年5月,深圳智谷天厨科技有限公司宣布完成B轮融资。此次融资标志着公司在智能烹饪机器人领域迈出了重要一步,进一步巩固了其在智慧厨房解决方案市场的领先地位。 微新创想:公司专注于智能烹饪机器人研发与智慧厨房整体解决方案,致力于将AI技术与中餐烹饪相结合,打造符合中式饮食习惯的智能厨具。通过不断的技术创新,智谷天厨已成功构建涵盖硬件、大数据及云计...
14:39
微新创想:2026年5月,上海浥眸生物科技有限公司宣布完成天使+轮融资,本草资本领投,多家战略投资机构跟投。此次融资为公司后续发展提供了坚实的资金支持,有助于加速其在新型核酸修饰创新药物领域的布局。 公司专注于新型核酸修饰创新药物研发,管线覆盖干眼、角膜营养不良、甲状腺相关眼病、葡萄膜炎及黄斑病变等眼科疾病。这些疾病在临床中具有较高的发病率和治疗需求,而核酸...
14:39
微新创想:5月8日,季华驱界科技(佛山)有限公司宣布完成数千万元天使轮融资,粤科集团领投。该公司成立于2025年,源自季华实验室机器人工程研究部,专注具身智能领域核心关节研发。创始人邓锦锦祥为哈工大硕士、复旦大学博士,兼具11年科研与产业化经验。本轮融资将用于加大算法与硬件研发投入、优化高动态一体化关节性能、完善产线建设及加速标准化产品量产落地。
14:39
微新创想:5月9日,国际TTS评测榜单Artificial Analysis Speech Arena Leaderboard更新。阶跃星辰推出的最新语音生成模型StepAudio 2.5TTS位列全球前三,为中国大模型中排名最高者。该模型在自然度、一致性与多语种支持等核心指标上表现突出,评测基于公开基准数据集与盲测机制。此次登顶标志着国产语音大模型在国际权...
14:39
微新创想:2026年5月8日,美国宇航局(NASA)在喷气推进实验室(JPL)成功完成了SkyFall火星直升机新型旋翼的超音速风洞测试。这项测试标志着SkyFall项目迈出了关键一步,为未来的火星探索任务奠定了坚实基础。 SkyFall直升机计划于2028年底发射,届时将部署三架。与已退役的‘机智号’相比,SkyFall在体积和载荷能力上都有显著提升。这一...