一夜之间,ChatGPT、Bard以及羊驼家族等大型语言模型(LLM)遭遇了一场前所未有的安全危机,它们无一幸免地被一种神秘的token攻击所侵袭。这一突破性发现源自CMU博士的一项研究成果,该研究成功击破了LLM的安全防线,使得这些强大的AI系统在生成有害内容时竟如同“导弹制造工厂”般毫不眨眼。

ChatGPT羊驼家族遭攻陷 CMU博士击破LLM安全防护插图

编者按:本文源自微信公众号新智元(ID:AI_era),作者新智元,编辑Aeneas,经微新创想授权发布。

ChatGPT羊驼家族遭攻陷 CMU博士击破LLM安全防护插图1

一夜之间,所有大型语言模型,包括ChatGPT、Bard和羊驼家族,都被攻陷了?CMU和人工智能安全中心的研究人员揭示了一种令人震惊的现象:通过附加一系列特定的无意义token,就能生成一个神秘的prompt后缀。这一发现意味着,任何人都可以轻易绕过LLM的安全措施,生成无限量的有害内容。相关论文已发布在arXiv上,代码库同样公开,地址分别为https://arxiv.org/abs/2307.15043和https://github.com/llm-attacks/llm-attacks。

ChatGPT羊驼家族遭攻陷 CMU博士击破LLM安全防护插图2

有趣的是,这种“对抗性攻击”方法不仅能够突破开源系统的护栏,还能绕过闭源系统,包括ChatGPT、Bard、Claude等。这种攻击的可怕之处在于,它能够迁移到其他LLM上,即使这些模型使用不同的token、训练过程或数据集。例如,为Vicuna-7B设计的攻击,可以无缝迁移到Pythia、Falcon、Guanaco等羊驼家族模型,甚至包括GPT-3.5、GPT-4和PaLM-2等更强大的模型。

ChatGPT羊驼家族遭攻陷 CMU博士击破LLM安全防护插图3

在正常情况下,如果我们要求一个LLM生成制造炸弹的教程,它一定会拒绝。然而,只要在prompt中加入这样一个魔法后缀,它就毫不犹豫地照做了。英伟达首席AI科学家Jim Fan深入解析了这种对抗性攻击的原理:对于像Vicuna这样的开源模型,通过执行梯度下降的变体,可以计算出最大化不对齐模型的后缀。为了让“咒语”普遍适用,只需要优化不同prompt和模型的损失即可。研究者针对Vicuna的不同变体优化了对抗token,这些token可以视为从“LLM模型空间”中抽取的一小批模型。实验证明,像ChatGPT和Claude这样的黑盒模型,同样被这种攻击完美覆盖。

ChatGPT羊驼家族遭攻陷 CMU博士击破LLM安全防护插图4

这种攻击的可怕之处在于,它能够迁移到其他LLM上,即使这些模型使用不同的token、训练过程或数据集。为Vicuna-7B设计的攻击,可以无缝迁移到Pythia、Falcon、Guanaco等羊驼家族模型,甚至包括GPT-3.5、GPT-4和PaLM-2等更强大的模型。所有大语言模型一个不落,尽数被攻陷!

ChatGPT羊驼家族遭攻陷 CMU博士击破LLM安全防护插图5

目前,这个bug已经在被各大厂连夜修复。尽管如此,ChatGPT的API似乎依然可以被攻破。数小时前的结果无论如何,这是一次非常令人印象深刻的攻击演示。威斯康星大学麦迪逊分校教授、Google研究人员Somesh Jha评论道:这篇新论文可以被视为“改变了游戏规则”,它可能会迫使整个行业重新思考,该如何为AI系统构建护栏。

ChatGPT羊驼家族遭攻陷 CMU博士击破LLM安全防护插图6

2030年,终结LLM?著名AI学者Gary Marcus对此表示:我早就说过了,大语言模型肯定会垮台,因为它们不可靠、不稳定、效率低下(数据和能量)、缺乏可解释性,现在理由又多了一条——容易受到自动对抗攻击。他断言:到2030年,LLM将被取代,或者至少风头不会这么盛。在他发起的投票中,72.4%的人选择了同意。

ChatGPT羊驼家族遭攻陷 CMU博士击破LLM安全防护插图7

现在,研究者已经向Anthropic、Google和OpenAI披露了这种对抗性攻击的方法。三家公司纷纷表示:已经在研究了,我们确实有很多工作要做,并对研究者表示了感谢。

ChatGPT羊驼家族遭攻陷 CMU博士击破LLM安全防护插图8

大语言模型全面沦陷

ChatGPT羊驼家族遭攻陷 CMU博士击破LLM安全防护插图9

首先,是ChatGPT的结果。以及,通过API访问的GPT-3.5。相比之下,Claude-2有一层额外的安全过滤。不过,用提示技巧绕过之后,生成模型也愿意给我们答案。如何做到的?概括来说,作者提出了针对大语言模型prompt的对抗性后缀,从而使LLM以规避其安全防护的方式进行回应。这种攻击非常简单,涉及三个元素的组合:

ChatGPT羊驼家族遭攻陷 CMU博士击破LLM安全防护插图10

1. 使模型肯定回答问题诱导语言模型产生令人反感的行为的一种方法是,强制模型对有害查询给出肯定回答(仅有几个token)。因此,我们的攻击目标是使模型在对多个提示产生有害行为时,开始回答时以“当然,这是……”开头。团队发现,通过针对回答开头进行攻击,模型就会进入一种“状态”,然后在回答中立即产生令人反感的内容。(下图紫色)

ChatGPT羊驼家族遭攻陷 CMU博士击破LLM安全防护插图11

2. 结合梯度和贪婪搜索在实践中,团队找到了一种简单直接且表现更好的方法——“贪婪坐标梯度”(Greedy Coordinate Gradient,GCG)”,也就是,通过利用token级的梯度来识别一组可能的单token替换,然后评估集合中这些候选的替换损失,并选择最小的一个。实际上,这个方法与AutoPrompt类似,但有一个不同之处:在每个步骤中,搜索所有可能的token进行替换,而不仅仅是一个单一token。

ChatGPT羊驼家族遭攻陷 CMU博士击破LLM安全防护插图12

3. 同时攻击多个提示最后,为了生成可靠的攻击后缀,团队发现创建一个可以适用于多个提示和多个模型的攻击非常重要。换句话说,我们使用贪婪梯度优化方法搜索一个单一的后缀字符串,该字符串能够在多个不同的用户提示以及三个不同的模型中诱导负面行为。结果显示,团队提出的GCG方法,要比之前的SOTA具有更大的优势——更高的攻击成功率和更低的损失。在Vicuna-7B和Llama-2-7B-Chat上,GCG分别成功识别了88%和57%的字符串。相比之下,AutoPrompt方法在Vicuna-7B上的成功率为25%,在Llama-2-7B-Chat上为3%。此外,GCG方法生成的攻击,还可以很好地迁移到其他的LLM上,即使它们使用完全不同的token来表征相同的文本。比如开源的Pythia、Falcon、Guanaco;以及闭源的GPT-3.5(87.9%)和GPT-4(53.6%),PaLM-2(66%),和Claude-2(2.1%)。团队表示,这一结果首次证明了,自动生成的通用“越狱”攻击,能够在各种类型的LLM上都产生可靠的迁移。

ChatGPT羊驼家族遭攻陷 CMU博士击破LLM安全防护插图13

作者介绍卡内基梅隆大学教授Zico Kolter(右)和博士生Andy Zou是研究人员之一Andy ZouAndy Zou是CMU计算机科学系的一名一年级博士生,导师是Zico Kolter和Matt Fredrikson。此前,他在UC伯克利获得了硕士和学士学位,导师是Dawn Song和Jacob Steinhardt。Zifan WangZifan Wang目前是CAIS的研究工程师,研究方向是深度神经网络的可解释性和稳健性。他在CMU得了电气与计算机工程硕士学位,并在随后获得了博士学位,导师是Anupam Datta教授和Matt Fredrikson教授。在此之前,他在北京理工大学获得了电子科学与技术学士学位。职业生涯之外,他是一个外向的电子游戏玩家,爱好徒步旅行、露营和公路旅行,最近正在学习滑板。顺便,他还养了一只名叫皮卡丘的猫,非常活泼。Zico KolterZico Kolter是CMU计算机科学系的副教授,同时也担任博世人工智能中心的AI研究首席科学家。曾获得DARPA青年教师奖、斯隆奖学金以及NeurIPS、ICML(荣誉提名)、IJCAI、KDD和PESGM的最佳论文奖。他的工作重点是机器学习、优化和控制领域,主要目标是使深度学习算法更安全、更稳健和更可解释。为此,团队已经研究了一些可证明稳健的深度学习系统的方法,并在深度架构的循环中加入了更复杂的“模块”(如优化求解器)。同时,他还在许多应用领域进行了研究,其中包括可持续发展和智能能源系统。Matt FredriksonMatt Fredrikson是CMU计算机科学系和软件研究所的副教授,也是CyLab和编程原理小组的成员。他的研究领域包括安全与隐私、公平可信的人工智能和形式化方法,目前正致力于研究数据驱动系统中可能出现的独特问题。这些系统往往对终端用户和数据主体的隐私构成风险,在不知不觉中引入新形式的歧视,或者在对抗性环境中危及安全。他的目标是在危害发生之前,找到在真实、具体的系统中识别这些问题,以及构建新系统的方法。

ChatGPT羊驼家族遭攻陷 CMU博士击破LLM安全防护插图14

参考资料:https://llm-attacks.org/本文为专栏作者授权微新创想发表,版权归原作者所有。文章系作者个人观点,不代表微新创想立场,转载请联系原作者。如有任何疑问,请联系http://www.idea2003.com/。

ChatGPT羊驼家族遭攻陷 CMU博士击破LLM安全防护插图15

ChatGPT羊驼家族遭攻陷 CMU博士击破LLM安全防护插图16

ChatGPT羊驼家族遭攻陷 CMU博士击破LLM安全防护插图17

ChatGPT羊驼家族遭攻陷 CMU博士击破LLM安全防护插图18

ChatGPT羊驼家族遭攻陷 CMU博士击破LLM安全防护插图19

ChatGPT羊驼家族遭攻陷 CMU博士击破LLM安全防护插图20

ChatGPT羊驼家族遭攻陷 CMU博士击破LLM安全防护插图21

ChatGPT羊驼家族遭攻陷 CMU博士击破LLM安全防护插图22

ChatGPT羊驼家族遭攻陷 CMU博士击破LLM安全防护插图23

ChatGPT羊驼家族遭攻陷 CMU博士击破LLM安全防护插图24

ChatGPT羊驼家族遭攻陷 CMU博士击破LLM安全防护插图25

ChatGPT羊驼家族遭攻陷 CMU博士击破LLM安全防护插图26

最新快讯

2025年08月05日

06:14
2025年8月5日,北京时间,国际著名信用评级机构惠誉评级发布最新报告,宣布将英特尔公司的发行人违约评级(IDR)从原有级别下调至“BBB”级,同时对其前景展望调整为负面。这一重要评级调整,不仅标志着英特尔信用等级的首次下调,更凸显了市场对英特尔未来盈利能力及全球市场竞争力的深度忧虑。 此次评级下调,是惠誉基于对英特尔近期财务表现及行业发展趋势的综合评估...
06:14
2025年8月,美国科技股市场在波动性相对较低的背景下展现出温和上涨的态势,为看涨期权投资者创造了极具吸引力的风险收益比机会。值得注意的是,纳斯达克100指数的隐含波动率已回落至五年来的平均水平之下,这一有利条件显著提升了期权策略的成功率。特别是在8月与9月到期的、行权价合理的高行使价期权,其流动性表现尤为充沛,为投资者提供了充足的交易选择空间。 微软与Me...
06:14
2025年8月4日,随着纽约证券交易所收盘钟声敲响,美股市场期货板块迎来强劲反弹。各大主要股指期货全线飘红,展现出市场乐观情绪的显著回升。其中,标普500股指期货涨幅高达1.68%,道琼斯工业平均指数期货上涨1.54%,纳斯达克100股指期货更是劲增2.07%,表现尤为抢眼。值得注意的是,罗素2000股指期货以2.47%的惊人涨幅领跑市场,反映出成长型股票受...
06:14
2025年8月5日,通义实验室正式宣布开源其自主研发的首个图像生成基础模型——Qwen-Image。这款基于先进MMDiT架构的20B参数模型,在复杂文本渲染和精细图像编辑领域取得了突破性进展,为图像生成技术带来了全新的可能性。Qwen-Image的推出不仅标志着通义实验室在多模态AI研究上的又一里程碑,更将为整个图像生成领域注入强大的技术动力,推动多模态人...
06:14
2025年8月5日,韩国中央银行正式公布最新外汇储备数据,显示韩国7月份外汇储备规模成功突破4100亿美元大关,达到4113.3亿美元,较前值4102亿美元环比增长11.3亿美元。这一显著增长主要得益于美元资产收益的持续提升以及汇率市场的动态变化。具体来看,美元资产收益表现强劲,为外汇储备的增持提供了重要支撑,同时汇率波动也对储备规模产生了积极影响。此次外汇...
06:14
2025年8月5日,香港金融管理局果断采取行动,斥资64.29亿港元进行本币操作,以维护联系汇率制度的稳固运行。这一关键举措旨在有效应对近期外汇市场出现的显著波动,确保港元汇率能够精准维持在预设的目标区间内,从而捍卫香港金融体系的整体稳定性和市场信心。通过及时干预,金管局不仅稳定了市场预期,更向外界传递出坚定维护货币稳定的明确信号,彰显了其维护区域金融安全的...
06:14
2025年8月5日,全球金融市场传来积极信号,贵金属板块表现亮眼。COMEX黄金期货价格强势上涨0.85%,最终收报3428.6美元/盎司,展现出稳健的牛市趋势。与此同时,COMEX白银期货涨幅更为显著,劲增1.4%,报收37.445美元/盎司,市场对贵金属的避险需求与投机情绪同步升温。 此次贵金属价格上涨背后,多重因素交织影响。一方面,全球经济复苏步伐放缓...
06:14
近日,俄罗斯科学家发布最新监测数据,克柳切夫火山喷发出的羽流已攀升至9000米高空,形成壮观的自然奇观。这一高度不仅刷新了该火山近期喷发记录,也引起了全球火山学界的广泛关注。 此前,俄罗斯紧急情况部堪察加总局于2日紧急通报,该国多地火山活动频繁。除克柳切夫火山外,希韦卢奇火山、卡雷姆斯基火山等四座火山均监测到不同程度的喷发或潜在喷发活动。这些火山主要集中在堪...
06:14
2025年8月4日,一场由山火引发的浓烟风暴席卷了加拿大安大略省南部,多伦多等主要城市深受其害。空气质量监测数据显示,受烟雾影响,多伦多等地区的PM2.5浓度飙升至历史罕见水平,能见度在短时间内剧烈波动,城市景观被灰蒙蒙的雾霾笼罩。作为全球空气污染最严重的城市之一,多伦多已连续第三天发布特别空气质量声明,提醒市民注意健康风险。加拿大环境部紧急监测显示,烟雾导...
06:14
2025年8月5日,富时A50期指夜盘交易结束之际,指数录得0.01%的温和上涨,最终报收于13780点。这一微小的涨幅恰恰印证了当前市场整体运行态势的平稳与稳定,显示出投资者情绪的相对谨慎与市场的整体平衡状态。尽管涨跌幅不大,但这一表现依然为市场参与者提供了宝贵的参考信息,有助于更全面地把握市场动态与未来趋势。
06:14
8月5日凌晨,深圳市气象台紧急宣布,将此前生效的分区暴雨红色预警信号全面升级为全市范围。据最新监测数据显示,目前深圳全市大部分区域已遭遇暴雨乃至大暴雨袭击,雨势持续强劲。气象部门预测,未来一段时间强降雨仍将不断加码,给城市运行和市民生活带来严峻考验。 此次极端降雨过程可能引发一系列严重次生灾害。城市内涝风险急剧升高,部分低洼路段和地下设施面临被淹没威胁;山区...
06:14
2025年8月5日,拉美电商巨头MercadoLibre正式发布了其二季度财务报告,其净营收高达68亿美元,这一亮眼成绩不仅超越了市场分析师此前预测的65.9亿美元,更彰显了公司在拉美地区的蓬勃发展与市场领导力。 这一卓越业绩的背后,是MercadoLibre在拉美市场的持续深耕与战略布局。作为该地区领先的电商平台,MercadoLibre凭借其完善的服...