大型语言模型(LLM)如ChatGPT和Bard近年来在全球范围内掀起了一股热潮,成为人工智能领域的焦点。众多企业纷纷投入数百万美元进行研发,部分AI聊天机器人的估值更是达到了数十亿美元的高度。这些LLM主要应用于构建智能聊天机器人,通过整合海量互联网信息来学习并响应用户的”提示”请求。然而,最近一项由AI安全初创公司Mindgard与英国兰开斯特大学计算机科学家联合开展的研究,揭示了这些LLM背后存在的严重安全漏洞。
研究发现,LLM的部分内容可以在短短一周内以仅需50美元的极低成本被复制,而这些获取的信息足以发动精准攻击。攻击者可能利用这些漏洞泄露敏感机密、绕过安全防护、提供误导性信息或实施更复杂的针对性攻击。这种被称为”模型寄生”的攻击手法,通过向LLM提出一系列精心设计的提示,使其暴露内部工作机制。研究团队重点分析了ChatGPT-3.5-Turbo模型,并基于其原理创建了一个仅占原模型1%大小的复制版本,却成功保留了关键特征。利用这个微型副本作为测试平台,研究人员在不被察觉的情况下研究如何利用ChatGPT的漏洞,最终将攻击成功率提高了11%。
兰开斯特大学的Peter Garraghan博士表示:”这一发现既令人惊叹又令人忧虑。这是首次有实证证明安全漏洞可以跨越封闭源和开源机器学习模型进行传播,考虑到产业对HuggingFace等公开机器学习模型的依赖程度,这一现象令人深感担忧。”研究人员指出,尽管这些强大的AI技术具有广泛的应用前景,但它们同样潜藏着隐蔽的弱点,甚至不同模型之间可能存在共通的漏洞。
当前,各行各业的企业正计划或已经投资数十亿美元用于开发自有LLM,应用于智能助手等任务。金融服务和大型企业更是积极采用这些技术,但研究人员警告说,这些漏洞应当成为所有计划构建或使用第三方LLM的企业关注的重点。Peter Garraghan博士强调:”虽然LLM技术具有革命性的潜力,但企业和科研人员都必须审慎评估采用和部署LLM所面临的网络安全风险。”
这项研究提醒我们,在享受AI技术带来的巨大机遇的同时,也必须正视其潜在威胁。论文详情可访问https://techxplore.com/partners/lancaster-university/获取更多信息。