越是前沿的领域,越充满变数。大模型领域对公众而言,似乎只是出现了几个玩具般的App,虽强大却缺乏实用性,真正的商用落地仍需时日。然而商业端,大小公司之间的竞争已进入白热化阶段,战况瞬息万变,反转频出,仿佛战火已燃。太多的细节对初学者而言略显复杂,若想深入了解这场大模型之争,不妨抓住主线——开源VS闭源,这或许是今年大模型领域最核心的博弈。
01 开源:后发者的驱虎吞狼
软件科技史虽短,但已显现出一些规律。每当全新时代来临,核心产品往往呈现两条路线:先发者闭源,后发者开源。PC时代,Windows VS Linux;移动互联网时代,iOS VS Android;如今AI时代,GPT VS ?第一次,Linux比Windows晚了整整六年,虽地位显赫,商业价值却远不及Windows。第二次,Android仅比iOS晚十个月,却拿下80%以上市场份额,苹果则攫取了90%以上利润。最新数据显示,Android市场份额降至70%,苹果利润占比跌至85%,与中国厂商崛起密不可分。开源系统影响力虽大,商业价值却仍被闭源系统碾压。第三次,商业化进程尚未正式开启,开源系统已势如破竹。
这一路线分歧背后,存在必然的商业逻辑。前沿科技领域的技术突破需巨额研发成本,对企业的资本、精力、人员投入乃至运气都要求极高。OpenAI每天仅维持ChatGPT运行就需要约70万美元,若无10亿美元的启动资金,恐怕难以支撑。巨额投入的先发优势,往往使产品质量成为市场最优,尽管这种优势会随技术进步减弱,但仍是直接收费的市场支撑。制药领域便是典型例子,早期高投入研制特效药,前期专利保护高价售卖回本,后期逐步放开惠及市场。但软件领域存在极大网络效应,时间尤为关键,先发者往往能赢家通吃。药品市场若新药研发稍慢,但价格更优或具差异化特性,仍能占据份额,故而倾向于闭源模式。软件领域市场瞬息万变,新入场的创业者、开发人员及应用生态不断涌现,更换成本随时间升高。微信生态的建立,使用户难以更换通讯软件,形成赢家通吃的局面。米聊、易信、飞信等早期软件,最终都因微信生态的崛起而黯然离场。Android的成功,为后发者提供了生机:开源。开源的本质,是驱虎吞狼。单挑打不过,就免费送入场券,邀请所有人入场。个人失败固然痛心,但同行成功更令人无法忍受。既然生态建立是赢家核心优势,那我就不让你顺利垄断,通过免费行为搅浑生态。
02 攻防战的背后,竞合大于竞争
梳理过往经验,可清晰看到几个规律和趋势:1、商业价值上,开源系统优势在于迅速扩散影响力,闭源系统则更有保障利润;2、与Linux相比,Android获得巨大成功,这与后发者反应速度密切相关;3、结合上一点,大模型领域后发者的开源进程已提前布局。我们有理由相信,开源大模型可能取得比Android更优异的成绩,这对包括GPT在内的所有闭源大模型都不是好消息。谷歌研究员匿名报告所担心的,正是这一趋势。当下是开源模型的强势期,后发者以“免费开源”必杀器搅动行业现状。但另一边,OpenAI的先发优势已十分稳固,闭源系统已拿下这一城。不要轻信开源社区所谓的“透明化、分享精神、更高效的组织形式”等。商业领域,尤其是对股东负责的上市公司,不可能纯做活雷锋。真有信心硬刚OpenAI,能赚钱为什么不赚?回顾过去一年,双方攻防数轮,精彩纷呈:ChatGPT月活刚突破1亿,Meta就推出LLaMA;羊驼被“非故意开源”后,基于开源模型的GPT平替爆发,OpenAI反手推出GPT-4;Dolly 2.0首创开源、遵循指令、提供可商业化数据集,ChatGPT APP再次掀起风暴;Meta推出新一代开源大模型Llama 2,被称为GPT-4的“最强平替”,首席人工智能科学家杨立昆被叫到参议院接受质询……总体来看,双方仍是竞速赛。虽然出现了“媒体舆论”和“政策监管”等盘外招,但长期来看,商业格局仍取决于算法、算力、算据三要素。
算法方面,开源模型已汲取GPT-3大量养分,但GPT-4更加封闭,能否持续保持竞争力仍待观察。清华大学电子工程系长聘教授周伯文表示:“我们目前只知道GPT-4是多模态大语言模型,但如何理解图片、如何用RLHF微调,以及参数量规模、训练数据和成本等技术细节,OpenAI全部隐藏。”对OpenAI而言,大模型赛道的技术长度是其优势,若GPT-5乃至GPT-6持续推出,开源模型能否保持竞争力尚未可知。算力方面,双方均实力雄厚。算据方面,我们认为,存量数据价值远不如原生数据。存量数据如同AI小宝宝看电视被动学说话,原生数据则是直接与人交流。更即时反馈、更快速纠错、更贴合实际应用的数据价值,更有利于AI进化迭代。ChatGPT APP的战略价值进一步被放大。开源生态方面,需观察垂类原生应用的进展。羊驼泄露后,GPT平替爆发,知识蒸馏大幅降低计算成本,间接促进开源生态繁荣。
总体来说,双方各有优势。闭源大模型不断拓宽行业天花板,技术外溢将引领开源大模型发展。开源大模型则横向拓展AI生态繁荣,这一繁荣带来的新增市场,将被闭源大模型共同分享。目前仍处于市场越做越大的阶段,“在竞争中共同成长”,极有可能是未来主题。
03 基座之争收尾,下一阶段争什么?
开源模型的出现,意味着大模型时代基座斗争已进入尾声。闭源方面,OpenAI坐稳江山,对手只有自己和技术本身。短期来看,开源上手成本低、使用灵活,给予中小企业极大自主性和安全感,必将形成强烈冲击。但中长期来看,开源项目仍需大量人力和资源维护,综合成本会持续上升,OpenAI市场可能再度回升。未来形势或会反复,但巨大反转不太可能。开源生态方面,Meta的Llama目前优势明显。开源后,Meta拥有更多可训练数据,开发人员能帮助Llama 2发现和解决漏洞,并快速打开市场,为商业化铺路。扎克伯格表示,开发者改进或修补模型后,Meta能将其纳入自家AI模型。当然,应用级生态建立仍需时间观察。同时,中国市场这一变量,开源大模型或许仍需参加半决赛乃至附加赛。开源这一最终杀器的祭出,意味着通用大模型基座维度最大变数已落地。
此外,开源模式的出现,开启了一个新阶段——应用层产品的涌现。此前,人们常质疑其商业壁垒,如投资人朱啸虎所言:“若90%能力是ChatGPT提供,AIGC应用投资价值有限。”其潜台词是,无论你多强大,利润都可能被OpenAI拿走。但开源模型彻底打消了这一顾虑。开源社区爆发式增长,基础能力大模型迅速普及,大模型趋于白菜价。应用级企业自主研发门槛降低,自主性得到保障。应用级企业被巨头釜底抽薪的可能性消失,“寒武纪式”物种爆发近在眼前。接下来,应用级层面的Killer App将成为行业核心赛点,市场竞争重心将从100%技术驱动,向代表用户体验的产品驱动倾斜。