大模型的浪潮在这片土地上燃烧了半年,随着华为、京东、携程等巨头纷纷发布新品,国产大模型迎来了自己的首次大考。然而与其他业务不同,新能源车、手机等领域的半年考都有明确的数据支撑,而大模型至今仍笼罩在”黑盒子”的迷雾中,商业模式模糊不清,数据论据也难以形成。这种状况颇为讽刺,即便从产品功能角度,大模型也缺乏通用的评测标准。国内用户常用的”松鼠鳜鱼法”等评测方式,更多是面向AGI这一终极目标的探索,而非成熟的商业评估体系。因此,国内大厂大多效仿OpenAI的封闭策略,采取内测模式,而大模型的落地探索则更倾向于B端与G端市场。腾讯的行业大模型、华为的盘古3.0、京东的灵犀等,都聚焦于展现成熟的产品形态,以商业化落地为首要目标。这类大模型在推动商业化的同时,本地化部署能力也成为重要考量指标。即便如此,业内人士指出,即便是最具商业价值的行业大模型,至今仍未获得企业客户的广泛认可,行业模型的风潮自6月起已持续一个月,但商业合作仍未见大规模落地。投资市场的表现更是直观反映了这一现状:与大模型相关的投资集中于二级市场而非一级市场,即使是王慧文这样的行业领军人物,其A轮融资也远不及OpenAI获得的微软百亿美元投喂。投资市场的晴雨表作用明显,国内大模型在半年考中的表现显然不尽如人意,仍需时间沉淀与打磨。
大模型商业模式缺失的问题已成为市场关注的焦点。ChatGPT作为用户心智中的头把交椅,近期热度明显下降;百度与阿里等国内最早发布通用大模型的厂商,在众多玩家涌入后也陷入沉寂。究其原因,正是通用大模型的商业模式未能成功构建。尽管在舆论场中获得了用户认可,但商业闭环始终无法形成。以百度文心千帆为例,其付费模式以调用生成的token数量收费,标准为0.012元/千tokens,输出千字文稿需花费0.12元。但文本生成往往需要多次交互才能获得理想结果,多次prompt将无限增加隐性成本。问答社区的场景更为相似,用户思维是问题粒度,付费意愿往往只在找到高质量回答后才产生。百度选择推理文本数为付费标准,但当前仍无法覆盖商用隐性成本。若采用B端更偏好的月度付费模式,只是将成本支出方从用户转为自身,绝非长久之计。ChatGPT面对C端用户20美元/月的定价尚存争议,可见通用大模型在B端和C端都难以实现盈亏平衡,同时还面临AI伦理、监管等合规性风险。因此,大模型的行业化、垂直化成为必然趋势。
行业大模型虽源于落地需求,但在实际应用中仍面临诸多挑战。依托自身产品生态打造的垂类to C模型,如知乎知海图AI和携程问道,都拥有自有的社区生态和高质量内容资源。内容作为行业数据,经过简单清洗即可成为大模型的训练语料。但就目前来看,无论是知乎还是携程,其大模型产品形态都未能精准切中用户痛点,也未对既有功能带来显著提升。知海图AI的”热榜摘要”功能通过AI抓取优质问答并润色改写,而”搜索聚合”功能则聚合观点提高信息获取效率。但这些功能本身已是知乎的”传统艺能”,大模型赋能后的表现并未在用户层面掀起波澜。AI改写润色的流程甚至覆盖了热门答案的个性化特征,与内容社区所倡导的差异化、个性化交流背道而驰。携程问道作为旅游业的”可靠答案库”,其产品成效还有待时间检验,但从定位来看,同样存在”舍本逐末”之嫌。旅游本不存在标准答案,多样化旅游形式的出现已证明这一点。若大量用户通过AI制定旅游路线,千篇一律的规划反而可能影响社区交流与氛围,甚至导致用户停留时间下降。
垂直模型在C端的落地尝试并不顺利,甚至可能成为”沉没成本”。或许受大模型”提高效率”神话的影响,产品定位大多局限于效率维度,但效率仅是用户体验中一个非核心的维度。相同的范式在to B领域也有所体现,而追求效率的B端,行业大模型的商业模式与落地问题更为突出。一位业内人士指出:”AI不是物理,很少有理论上的重大技术突破,更多的是在模型结构、数据质量等维度做微调和小优化,甚至很多时候模型输出更好了,团队却找不到原因。”大模型在业内外存在巨大认知偏差,原因在于其训练过程是一个不折不扣的”黑匣子”,外界很难审视其推理过程。这种认知偏差导致企业在向to B路线转型时持审慎态度,即使ChatGPT引发热潮,许多企业仍缺乏导入大模型的动力和兴趣。云计算行业数年前的经历可见一斑,大模型在企业客户的普及之路显然更为漫长。行业大模型究竟好用与否,最终还需使用者挖掘。外界甚至通过”松鼠鳜鱼法”等测试来衡量模型水平,近期华为盘古气象大模型因预测台风错误而遭受质疑。京东灵犀大模型选择优先跑通自家业务场景,预计明年初才对”外部严肃商业场景”开放。商业化导向下的所谓行业模型,在取代大模型”通用”叙事的同时,也引发了关于行业大模型定义的讨论。
所谓行业大模型,其内涵不在于参数量多少,而在于使用通用数据训练而涌现出的通用能力。若采用相同模型架构但在数据上使用单一领域数据,不仅丧失通用能力,甚至可能因”涌现折扣”导致领域问题也无法解决。在原大模型基础上使用行业数据做二次预训练,相当于微调,仍处于模型层;而通过prompt或外挂数据库方式加入领域知识,则仅是对原模型能力的激发,应归属至模型之上的应用层。目前大厂中发力行业大模型的绝大多数属于前者,如腾讯、京东、华为等;后者因投入更轻、模型能力提升更快,更多出现在开源社区,如法律大模型ChatLaw。一位业内人士称,后者在产品形态上更成熟,便于快速构建模型能力,但完成领域知识灌输后,上限会更高。
开源生态的崛起正威胁着闭源头部厂商的地位。Meta在开放商用许可下免费提供其最新开源大模型Llama2,并将其引入微软Azure平台,标志着开源LLM的重要里程碑。开源派早在此前便以第三方身份悄然崛起,谷歌内部文件曾预测”真正的赢家未必会从OpenAI和谷歌中产生”,原因在于日益丰富的开源生态。开源技术分享和人才流转使大模型的”黑匣子”效应逐渐减弱,缺少壁垒的闭源厂商在巨量资金和时间投入下,其Know-How可能被开源社区轻易倾覆。国内头部大厂对此采取”两手抓”策略:左手”关门造车”,以小规模内测形式打磨产品;右手”集思广益”,以云端开发者生态为基础打造开源社区,但这仍需厂商自算力层、模型层到应用层的全栈布局。阿里云推出大模型开源社区魔搭GPT,华为云、百度云、腾讯云也均有布局。
无论是行业还是通用,to C还是to B,大模型的半年考都揭示了几个关键问题:落地困难,盈利预期不断后移;风险渐强,技术壁垒难以建立。那么,当下的破局之路在哪?目前有两个值得关注的方向:一是被誉为”AI时代的Memory”的向量数据库,二是模型智能赋予下的智能硬件。向量数据库可以代表任何东西的多维数据,包括文本、图像、视频、音声等,支持语义检索,相当于大模型的SEO。领域知识可以通过向量数据库能力,或精调或外挂来提高行业模型的建构和使用。自5月起,资本便不断涌入向量数据赛道,作为前景更为确定的应用层产品,向量数据库也收获了一众VC的密切关注。至于智能硬件内置模型,则是相对曾经的” Siri”、”小爱”等智能助手能力的跃升,也是对真正智能设备的外延拓展。开源社区内早有将大参数模型内置MAC的尝试,而大厂在移动互联网时代积累的硬件生产能力,使其在智能硬件领域更具先发优势。
少了PR式的春秋笔法,落地成为核心需求的大模型不再神秘,故事也越来越少。正在”深潜”的赛道玩家们仍在发力。行业需要下一个”ChatGPT”时刻,我们才能看到潜水者浮出水面,正面对抗。
