在这个信息爆炸的时代,没有人希望生活在一个被虚假信息充斥的世界里。然而,随着人工智能技术的飞速发展,我们正面临着前所未有的挑战——AI生成内容的泛滥正在逐渐侵蚀着真实与虚假的边界。
编者按:本文由微信公众号雷科技(ID:leitech)独家授权发布,编辑失魂引,内容经微新创想精心整理。2024年2月,ChatGPT与微软Bing AI的相继爆发,引发了全球范围内的广泛关注,相关概念股股价应声而动。知乎作为国内知名问答社区,因其海量问答数据被广泛应用于生成式AI的训练,股价一度飙升31%。随后,百度文心一言的问世再次推动了股价的上涨。然而,好景不长,进入4月,一位知名程序员在V2ex社区发帖表示担忧:“ChatGPT可能成为知乎最大的威胁。”这一观点迅速引发共鸣,许多人发现知乎平台上充斥着大量AI生成的回答,其中不乏缺乏实质内容的观点,甚至出现了“一本正经胡说八道”的现象。
与此同时,AI生成内容的“领土”正在从互联网向现实世界扩张。在海外技术社区Hacker News上,有人指出一家网红营销机构网站上的博文出现了“抱歉,作为一种AI语言模型,我无法预测未来的事件或趋势”的提示。类似的声音还出现在卡塔尔的购物中心目录和芬兰的一家电子产品商店网站等地方。这些只是冰山一角,更多被AI精心伪装的虚假内容,或许正潜伏在我们尚未察觉的角落。
回想起今年3月,网络上流传出一系列“特朗普被捕”的AI生成照片,尽管后续报道证实其为虚假,但在最初的热传阶段,仍有大量网友信以为真。而后来出现的“甘肃火车事故”“八角大楼被袭”等假新闻,更是不断挑战着人们的认知底线。过去半年,ChatGPT等生成式AI已经证明,它们能够无视事实真相,批量制造似是而非的内容。更令人担忧的是,这些AI生成的虚假内容会被其他AI学习并进一步加工,从而创造出更加逼真的假象。甚至,AI还能根据用户的个人偏好,量身定制虚假信息。这种AI驱动的假新闻生产和再生产,未来可能对舆论场造成毁灭性打击。
更大的隐忧在于,如果互联网乃至现实世界都被AI生成的虚假内容所淹没,整个社会秩序都可能陷入崩溃。从文字到图片再到声音,如今AI生成的内容与真人创作的内容之间的界限已经变得模糊不清,就像我们大多数人已经无法区分AI孙燕姿、AI Drake与真人声音的差别。而AI的进化速度更是令人瞠目结舌。几个月前,人们还在抱怨AI绘画“不会画手”,但Midjourney V5新版本的推出彻底打破了这一认知,AI不仅能够精准绘制手部细节,各种细节的逼真度也达到了前所未有的高度。就连孙燕姿本人也在回应AI歌手时坦言:“你可能会说还能分辨出区别,因为它没有情绪,没有音调和呼吸的变化。但我怀疑这只是暂时的。”
因此,问题已经不再是我们能否分辨AI生成的内容,而是该如何有效识别。人工识别显然不切实际,不仅准确率难以保证,还需要投入巨大的人力资源。去年年底,ChatGPT一经发布,就被许多学生用于生成论文,并取得了不错的效果,从而引发了更广泛的使用浪潮。随后,巴黎政治学院等全球知名学府纷纷出台禁令。但据Study.com的一项调查显示,1000名18岁以上的学生中,超过89%的人都在使用ChatGPT完成作业。面对这一挑战,或许最好的办法就是用“魔法”打败“魔法”。
众所周知,一个社区的核心在于用户之间的真诚交流,而AI生成的虚假内容一旦泛滥,很容易摧毁这种交流氛围。以V2ex为例,其站长Livid为了辨别AI生成的灌水内容,甚至直接向AI提问“是否由AI生成”,以此作为封禁用户的依据。然而,这种方法仍然存在诸多不确定性。
就在ChatGPT刚推出时,OpenAI联合哈佛大学等机构推出了GPT-2 Output Detector,试图通过基于GPT-2模型微调输出的方式检测AI生成内容。但这一工具对基于GPT-3.5的ChatGPT效果不佳。于是,OpenAI在2月1日又推出了“AI生成内容识别器”,本质上是一个辨别真实与AI生成文本的分类器。然而,OpenAI在博客中坦诚,该识别器的检测成功率仅为26%,可能还不如网友的随机猜测。国内也出现了类似的AIGC-X检测工具,由人民网下属传播内容认知国家重点实验室等机构联合研发,号称对中文文本检测准确率超过90%,但实际效果并不尽如人意。
尽管如此,到目前为止,所有试图用AI对抗AI的努力都没有取得成功。这一路径本身也存在争议,有人将其形容为新时代的“自相矛盾”——用最强的矛去攻击最强的盾。相比之下,“水印”技术逐渐成为越来越普遍的选择。在5月召开的谷歌I/O大会上,谷歌宣布所有AI生成的图片都将内嵌不可见的水印,这些水印可以通过谷歌搜索引擎等工具读取并标注出来,从而提醒用户该图片由AI生成。随后,Shutterstock、Midjourney等AI应用也纷纷宣布支持这一新的标记方法。然而,AI生成文字内容的标记方案仍在探索中。OpenAI也在考虑在生成的文本中加入数字水印,以降低模型被滥用的风险。但OpenAICEO Sam Altman在接受采访时提醒,不存在完美的AI生成文字识别工具,因为人们总会调整修改文本,而且还会出现新的修改工具。
写在最后,之前在某个论坛上看到一位网友的帖子,他通过搜索引擎来到知乎,阅读了一半的回答后突然意识到这可能是AI生成的,顿时感到一阵反胃。关键在于,即使我们主动使用ChatGPT等生成式AI,也可能会对其真实性和可靠性有所预期,但显然我们无法阻止其他人发布AI生成的虚假内容。打个比方,如果对历史不太了解的人,在知乎上看到一篇关于亚瑟王的详细讨论,可能会误以为亚瑟王是真实存在的历史人物,甚至是一位女骑士(型月作品中的设定)。但坦白说,除了那些明显带有AI风格的文本,我们很难在陌生领域分辨出内容是否由AI生成,唯一能做的,可能就是更加审慎地对待我们所看到的一切。
本文为专栏作者授权微新创想发表,版权归原作者所有。文章系作者个人观点,不代表微新创想立场,转载请联系原作者。如有任何疑问,请联系http://www.idea2003.com/。