象征意义,往往超越实际意义。
编者按:本文源自微信公众号深燃(ID:shenrancaijing),作者李秋涵,编辑魏佳,经微新创想授权发布。
在全球掀起AI热潮的ChatGPT,似乎正步入瓶颈期。关于其使用率的数据,却并不如预期乐观。6月初,摩根士丹利发布的一项调查显示,仅有19%的受访者表示曾使用ChatGPT,而依赖该工具的人仅占4%。这一比例之低,令人惊讶。该调查于4月进行,样本量为2000人。尽管在全球78亿人口中,这一样本量不算庞大,但参考性也受到一定影响。更值得关注的是一项更广泛的数据——ChatGPT的增长已明显放缓。根据网站数据分析工具SimilarWeb的数据,ChatGPT的访问量增长率曾一度惊人:1月份环比增长131.6%,2月份为62.5%,3月份为55.8%。然而,到了4月份,环比增长率已降至12.6%,5月份更是仅为2.8%。随着ChatGPT的普及,参考基数扩大,增长率放缓是正常现象。但根据现有趋势,6月份的环比增长率甚至可能为负数。
今年年初,ChatGPT如惊雷般震撼全球,让世人见识到生成式AI的强大,其背后的GPT(生成式预训练Transformer模型)也备受瞩目,掀起大模型创业热潮。它刷新了无数纪录,最令人印象深刻的,是成为史上用户增长最快的消费级应用——仅两个月后,月活用户便突破1亿。然而,对于它的未来,即便是创造者也无法给出明确答案。OpenAI董事会成员海伦·托勒曾表示:“甚至创造它们的人也不知道它们能做什么,不能做什么。我们可能需要数年时间才能真正了解GPT-4能做和不能做的事情。”ChatGPT目前的局限,不代表GPT的天花板。但作为目前最强大的大语言模型支撑的产品,ChatGPT的走向,仍能成为观察GPT应用的一个窗口。
关于AI的狂想仍在继续,时间已过去近半年。我们好奇的是,ChatGPT的使用情况究竟如何?它是否被高估了?
### ChatGPT真的很多人用吗?
对于ChatGPT的使用体验,不同行业、不同人感受迥异。有人将其视为玩具,使用一两次便不再登录;有人努力将其变为工具,以提高工作效率;也有人尝试将其变为工具,却因“不够好用”而失败。夏楠属于后一种。她从事外贸行业,曾用ChatGPT撰写工作邮件,解答生活烦恼,甚至尝试用英文指令更好地使用它。从2月开始使用ChatGPT,她的体验分为三个阶段:最初充满好奇,不断探索它的能力;5月起,她感觉ChatGPT“变笨了”,许多功能不再正常工作;如今,她评价ChatGPT为“不好用”。例如,最近公司接了炒菜机器人的ODM(原始设备制造)业务,她想借助ChatGPT预测市场数据,但反复尝试后仍未得到答案。在写工作邮件时,尽管经过调教,ChatGPT也仅能提供命令式的跟进邮件,文字冗长且不符合她的需求——她希望“它能写出有礼貌、信息明确的邮件”。她认为,ChatGPT的短板在于“不懂得人情世故”。由于得不到想要的结果,她的使用频次从每周五六次降至每周一次。
当然,这样的体验背后,影响因素众多,包括使用者是否触及了ChatGPT擅长的领域,以及是否找到了合适的交流方式。正在澳大利亚生活的Lucy,从ChatGPT推出后便开始用英文使用它。如今,她日常用ChatGPT整理学术研究思路、学习语言,已成为生活中不可或缺的工具。但准确性问题一直困扰着她——文献参考需要自行查找,“如果我质疑它的回答,它就会顺着我的思路回答”。
除了个体体验的差异,数据也显示ChatGPT的普及率尚未达到预期。除了摩根士丹利的报告,SimilarWeb的数据可作为佐证。3月至5月,美国和日本是全球ChatGPT流量份额最高的国家,分别位列第一和第三。但最近,美国流量已下滑10.28%。美国皮尤研究中心5月底发布的一份调查显示,18%的受访者对ChatGPT“听说过很多事”,39%“听说过一点”,42%“完全没听说过”。而在日本,根据MM总研的最新调查,5月24日至31日期间,13814名员工(日本13412人、美国402人)中,日本企业的ChatGPT使用率仅为7%,远低于美国企业的51%。近半数日本员工(46%)表示“不知道”ChatGPT,即便知道也42%的人表示“未使用”。
尽管全球关于ChatGPT的使用报告众多,观点不一,甚至存在相反结论,但上述报告仍具有一定参考性。然而,因地域和人群差异,它们未必能完全反映真实情况。更值得参考的整体性数据,有助于我们了解ChatGPT的应用现状。根据SimilarWeb,ChatGPT的增长已明显放缓,尤其在6月,截至6月20日,访问量较5月减少约38%。粗略推算,若无新的刺激因素,6月31日的环比流量或将下降。此外,5月ChatGPT的跳出率为12.59%,低于谷歌、Youtube等,但6月24日已升至37.37%。平均访问持续时间也从8分32秒降至7分48秒。接入GPT大模型后,Bing的市场份额变化也值得关注。根据Statcounter,2023年3月Bing的市场份额为2.86%,5月降至2.77%,不仅未提高,反而呈下降趋势。
### 是什么限制了ChatGPT?
关于ChatGPT应用上的问题,已老生常谈。但这些问题对它普及的影响,或许比想象中更深远。首先是“变笨”现象。6月初,“ChatGPT变笨了”引发热议。OpenAI开发者推广大使Logan Kilpatrick回应称,自GPT-4发布以来,大模型本体一直处于静态,不存在大量外部数据污染。但他也承认,大模型本身存在不稳定性,对相通的提示词可能存在前后不一致的回答。一位AI从业者告诉深燃,5月就有国外从业者分享论证GPT变笨的文章。他最近用GPT-4的API测试,发现GPT-4-0314(3月14日快照)在简单计算题中满分,GPT-4得80分,GPT-4-0613(6月13日快照)仅得50分。这一结果让他感觉GPT-4被削弱了。
监管机构NewsGuard的专家分析也指出,GPT-4在输出信息方面比GPT-3.5更糟糕。今年3月发布的报告中,NewsGuard提到,GPT-4不仅会回答完全虚假的新闻叙述,而且比GPT-3.5的回答更差。AI行业从业者认为,这一变化导致用户需要更具体、主动地引导GPT-4,才能获得满意的回答。这也再度提高了ChatGPT的使用门槛,与其初衷有所背离。
ChatGPT最初爆火时,有业内人士分析,它将通用人工智能置于每个用户面前,也把人机交互的门槛降至最低。但目前看来,门槛依然存在。从ChatGPT的用户画像来看,其普及情况也可见一斑。根据SimilarWeb数据,使用者主要来自计算机电子与技术行业,其中编程和软件开发占比最大。其他行业里,只有游戏行业中的视频游戏机和配件从业者占比较多。一位工程师给深燃的反馈最为积极,表示一直在用,“能帮我解决小的程序问题”。
尽管常说“淘汰你的不是AI,是会用AI的人”,但如果普通人使用门槛越来越高,ChatGPT的初衷便可能落空。
还有两个问题,是ChatGPT从一开始就面临的质疑:准确率和隐私保护。根据日本相关机构的报告,被问到若继续/扩大使用ChatGPT需解决什么问题时,日本和美国企业分别高达49%和45%的回答是“准确率”,其次是“个人资料等隐私”(日企34%、美企35%)和“对问题的理解程度”(日企33%、美企34%)。
关于准确率,OpenAICEO山姆·奥特曼曾解释,ChatGPT会自信地宣称一些事实,但实际上是编造的,他称之为“幻觉难题”。准确率要实现起来非常困难,因为大语言模型依赖演绎推理而非记忆,不可能像数据库一样完全准确。AI行业从业者杨阳告诉深燃:“大语言模型靠的是推理的拼字游戏,不可能完全准确,人也不能完全保证准确。”
隐私方面,OpenAI至今未给出明确解决方案。加拿大工作的小虹就表示,公司特意发邮件通知大家谨慎使用ChatGPT。
基于这些限制,ChatGPT的应用场景也受到限制。关注产业的投资人陈默默告诉深燃,它更适合“生产力驱动”的内容生产,而非“创意驱动”的内容生产,在前者上,能替代不少有重复经验累积的人力。用户洛洛从4月开始使用ChatGPT,她开了会员,主要用于写脚本和文案,“只要能给它正确的公式,基本可以反馈给我任意思维的脚本,只是拿到手要改”。她表示,产出的脚本比较基础,难以成为爆款,但逻辑没有问题,“像公司日常的大量视频输出,是可以支持的”,她现在的ChatGPT使用频率,已达到每周3次以上。
夏楠调整了策略,只问ChatGPT流程式的问题,如开ebay网店的流程。尽管这类问题也可问谷歌、百度,但她认为“ChatGPT的回答更好”。例如,最近她去德国旅行,让ChatGPT安排行程,给出的答案有参考性,交通安排也很清晰。
这些长期使用ChatGPT的用户,无论体验满意与否,都提到ChatGPT更像是一个升级版的谷歌、百度,带来了一定助力。
### ChatGPT,象征意义高过实质意义?
最近,OpenAI推出了类似LLM版的App Store,加速生态建设,并曝光了一些功能优化。这背后也隐藏着一个信号:GPT-4暂时已到天花板,要加速生态建设,在GPT-5出现前,先优化体验。早在4月,山姆·奥特曼就表示,尚未开始研究GPT-5,也没有立即计划的打算,甚至曾表示“大型模型时代已到头了”。
据OpenAI官网,GPT模型参数数量(可理解为喂养模型的语言材料)不断提升:GPT-1是1.17亿,GPT-2有15亿,GPT-3飙升至1750亿,GPT-4据国外媒体机构Semafor报告,比GPT-3大六倍左右,具有1万亿个参数。此前杨阳对深燃表示,或许GPT-4就成长到头了,语料是原因,“人类历史上创造出的优秀资源就这些了”,模型限制也是原因。在他看来,现在GPT-4被限制,应该有能力未被完全开发出来。
近日,Meta首席人工智能科学家Yann LeCun指出,ChatGPT背后的生成式AI技术已进入死胡同,拥有太多局限性。尽管出于巨头竞争关系,这话难以作为客观参考,但ChatGPT的确遇到了瓶颈。要让大语言模型有更好的应用,不少人将视线投向垂直领域的应用上。
AI行业从业者秦凯对深燃做了一个比喻:ChatGPT这类泛化型人工智能,应用宽泛时,能力如同高中生、大学生;和垂直场景结合时,通过fine-tuning(微调)技术,数据足够精确贴合场景,能力就能变为硕士、博士,解决更具体的需求。杨阳也认同这一看法。他提到,目前模型最多只能进行一倍左右的优化,“大家有一个基础共识,GPT-5来了,也不会带来颠覆性进化”,短期内不可能达到AGI(通用人工智能)水平。
不过,杨阳也表示,现在做具体垂类应用,首先是费用高,训练模型对公司来说仍是不小的成本;其次是数据安全、数据隔离的问题,目前采用“在大模型基础上套小模型”的办法,但问题是,底层技术仍在变化,“没有人知道下一个模型、更优秀的模型什么时候出现”,这个中间阶段让人迷茫,“如果三五年后才出现,那现在基于大模型做垂类的产品是不亏的,场景落地后有机会回收资金。但如果很快就出现,那大家现在做的外挂型垂类产品,是没有多少意义的。”
投资人陈默默表示,这是一个“先有鸡还是先有蛋”的问题,他们仍愿意看相关项目,在细分领域里切一个特定场景的应用,因为“哪怕未来的底层有变化,只要行业没有变动,在应用层的行业理解上还是会有沉淀”。但他们在看项目时遇到的问题是,很难有人能明确告诉他们,产品能节省多少人力成本。她举例,关注赋能研发端论文筛选归纳的垂类产品,实际使用中仍需一人顺着机器结果做进一步验真、开发和研究,实际上很难说效率有特别好的优化,所以现在,一些投资人会倾向于再观望观望。
在关注垂类领域的AI创业公司产品时,她的感受是,“我们对技术带来的产业升级机会保持谨慎乐观,目前可能它的市场意义,高过实质意义”。
秦凯总结,人们对ChatGPT的期望过高,但有两个瓶颈:首先,下一代大语言模型通过更大的参数规模和更强算力的收益边际递减,人们的期望可能无法很快满足;其次,当前的大语言模型是泛化的,需要很长时间来解决特定、真实的问题。目前垂直领域的生成式AI,已变成针对具体企业做定制化需求和私有部署的体力活,“底层模型依靠transformer方式缺乏解决非常复杂问题的能力,现在的应用情况与预期的水平相距甚远”。
应用仍在继续,技术仍在发展,关于ChatGPT的应用及潜力还需要再观望。即便如此,ChatGPT已让一些人的生产效率有数量级的提高,即便当下有瓶颈,“ChatGPT已经是很伟大的产品,这就够了。”杨阳表示。
*题图来源于unsplash。应受访者要求,文中夏楠、Lucy、杨阳、小虹、洛洛为化名。本文(含图片)为合作媒体授权微新创想转载,不代表微新创想立场,转载请联系原作者。如有任何疑问,请联系http://www.idea2003.com/。