Moonshot AI月之暗面,作为中国大模型领域最神秘的创业公司之一,正以其颠覆性的技术突破引发全球瞩目。这家由清华大学交叉信息学院智源青年科学家杨植麟教授创立的公司,不仅拥有Transformer-X与XLNet这两篇深度学习领域里程碑式论文的署名,更在短短半年内实现了长文本处理技术的革命性突破。创始人杨植麟教授的学术生涯堪称传奇,尽管小学初中时期父母并未对他设定过高的分数目标,但这段经历反而赋予了他极大的自主探索空间。高中时,毫无编程基础的杨植麟意外入选奥林匹克竞赛培训班,最终通过竞赛保送清华大学,师从AI泰斗唐杰教授,连续四年稳居年级第一。课业之余,他还组建乐队担任鼓手与创作者,展现了不拘一格的多元才华。在卡内基梅隆大学攻读博士期间,他更是在四年内完成了通常需要六年的课程,师从苹果AI负责人Ruslan Salakhutdinov与谷歌首席科学家William Cohen等顶尖学者。
今年6月,硅谷权威科技媒体The Information评选出可能成为”中国OpenAI”的五家候选机构,MiniMax、智谱AI、光年之外、澜舟科技赫然在列,而杨植麟作为唯一个人候选人被列入其中。10月9日,成立仅半年的Moonshot AI正式宣布推出智能助手产品Kimi Chat,其支持的20万汉字上下文输入长度,刷新了全球大模型服务的产品化记录。这一突破性技术不仅显著优于Anthropic的Claude-100k(实测8万字)和OpenAI的GPT-4-32k(实测2.5万字),更将Moonshot AI的ToC超级应用战略推向新高度。相较于此前专注ToB的循环智能项目,杨植麟反复强调Moonshot AI将始终聚焦消费级大模型应用,致力于打造大模型时代的超级应用生态。
Moonshot AI的核心团队堪称豪华,除了杨植麟教授,联合创始人周昕宇和吴育昕均毕业于清华大学,50人规模的团队中更有来自Google、Meta、Amazon等科技巨头的海外人才。今年6月,公司完成首轮融资,红杉资本、今日资本、砺思资本等知名投资机构合计投入近20亿元,为Moonshot AI的持续研发注入强劲动力。杨植麟表示,当前市场对公司的估值存在较大低估,后续将通过官方渠道正式公布。首轮融资将全部用于技术产品研发和团队扩充,为后续商业化奠定坚实基础。
当前大模型普遍面临的输入长度限制问题,已成为制约技术落地的关键瓶颈。在虚拟角色场景中,由于长文本能力不足,角色常会忘记多轮对话中的关键信息,用户不得不频繁重启对话。而Kimi Chat的超长上下文处理能力,将彻底改变这一现状。无论是公众号长文的智能总结、英伟达财报的关键信息分析,还是海量发票的快速整理、算法论文的复现代码,甚至是与《月亮与六便士》整本书的深度互动,Kimi Chat都能提供前所未有的智能体验。当模型能够处理更长的上下文后,其应用场景将实现跨越式拓展,同时有效解决当前大模型普遍存在的”幻觉”问题。
Moonshot AI的技术突破并非建立在”捷径”之上。传统大模型受限于参数量与上下文长度的矛盾,往往采用滑动窗口、降采样等方案,但这些都以牺牲性能为代价。杨植麟指出,长文本技术的开发存在三大误区:容易”健忘”的”金鱼”模型、只关注局部的”蜜蜂”模型,以及通过减少参数量换取长上下文的”蝌蚪”模型。Moonshot AI选择直面算法与工程的双重挑战,通过创新网络结构和工程优化,实现了真正意义上的大内存模型产品化。
在训练层面,团队攻克了三大技术难关:如何在百万级上下文窗口中精准定位关键信息而不降低基础能力;如何满足千亿级参数模型训练所需的超高算力和显存;如何解决高质量长序列数据的匮乏问题。在推理层面,Moonshot AI更是突破了多项技术壁垒:通过优化Transformer模型的自注意力机制,大幅降低计算复杂度;创新显存管理方案,突破传统单机配置限制;通过显存带宽优化技术,实现超长文本的流畅处理。这些创新使Moonshot AI得以绕开传统捷径,打造出真正实用的大模型产品。
杨植麟教授曾提出,无论是文字、语音还是视频,无损压缩技术都能实现高程度智能,而长上下文窗口技术正是实现多模态数据生成的关键。Moonshot AI选择扩展上下文长度的策略,源于团队对大模型底层逻辑的深刻理解、强大的技术实力以及对应用需求的精准把握。他坚信,更长的上下文长度将开启大模型应用的新纪元,推动大模型从LLM时代迈入L(Long)LLM时代。这仅仅是Moonshot AI在下一代大模型技术探索中的第一步,未来将带来更多令人期待的技术突破。