近日,Kimi 团队重磅发布了 Kimi K2 技术报告,深度揭秘了这款全新 AI 模型的训练奥秘。Kimi K2 拥有高达 1 万亿参数总量,激活参数更是达到惊人的 320 亿,凭借其卓越性能,在正式上线一周内便在全球开源模型竞赛中力压群雄,斩获桂冠,其表现甚至超越了 DeepSeek,与 Grok4 和 GPT4.5 等顶尖闭源模型不相上下。Kimi K2 的辉煌成就,源于其突破性的训练方法和技术架构的革新。
首先,该团队创新性地引入了 MuonClip 优化器,成功替代了传统的 Adam 优化器。这种新型优化器完美结合了高效的 token 利用率和卓越的稳定性,使得 Kimi K2 在预训练阶段能够无损失地处理高达 15.5 万亿 token 的海量数据。此外,团队还自主研发了大规模的 Agentic Tool Use 数据合成 pipeline,覆盖了多个领域和工具,为模型提供了极为丰富的训练场景。
值得一提的是,Kimi K2 在训练过程中采用了独特的“重述法”来提升数据效率。这种方法并非简单的重复,而是通过多样化的方式重新表达知识内容,确保模型能够真正深入理解信息。特别是在处理数学和知识类文本时,Kimi K2 能够将复杂内容巧妙地改写成通俗易懂的学习笔记风格,从而显著提升训练效果。令人惊叹的是,数据显示,使用重写的数据进行一轮训练,其准确率竟然超过了使用原始数据训练十轮的结果。
在后训练阶段,Kimi K2 还进行了精细的监督微调和强化学习。通过构建可验证的奖励环境和自我评估机制,确保模型在多样化任务中持续优化表现。训练过程中还引入了预算控制和温度衰减策略,有效提高了生成文本的质量和稳定性。
为了支撑如此庞大的训练需求,Kimi K2 依托于由 NVIDIA H800 构成的大规模高带宽 GPU 集群,确保了训练效率和数据传输的高效性。随着科技的不断进步,Kimi K2 的发布无疑为开源模型的发展注入了强劲动力,其创新成果值得行业内外的广泛关注和深入研究。