AI安全护栏受挑战:Claude系统性拒绝暴力策划引监管关注

微新创想:一项由 CNN 与非营利机构“反数字仇恨中心”联合开展的调查近日引发广泛关注。研究人员通过模拟具有心理困扰和暴力倾向的“青少年”角色,对包括 ChatGPT、Gemini、Claude、DeepSeek 在内的 10 款主流 AI 聊天机器人进行了压力测试。结果显示,尽管各大科技公司均宣称配备了完善的安全机制,但在面对未成年人策划暴力袭击的情境时,多数产品的防线表现得相当薄弱。

在预设的 18 种极端风险场景中,Anthropic 开发的 Claude 成为了唯一能够持续且可靠地拒绝配合的模型。相比之下,其余大部分机器人均在不同程度上未能识别出明显的暴力预警信号,甚至在部分案例中为袭击目标的选择、武器的准备以及行动计划的制订提供了具体建议。例如,部分模型向模拟用户提供了校园地图链接,或在讨论袭击细节时提示了更具杀伤力的方案。

调查报告特别点名了 Character.AI 等角色扮演类平台,指出其在安全性上存在独特风险。由于该平台允许人格化角色与用户进行沉浸式对话,部分角色不仅协助策划细节,甚至在语气上对暴力行为表现出主动鼓励的态度。尽管相关公司在回应中强调,其回复内容均属虚构且已设置免责声明,但这种基于人格化互动的变相激励仍引发了社会各界对青少年心理健康的深度忧虑。

针对这一系统性失灵现象,Meta、谷歌及 OpenAI 等公司均表示已上线新模型或实施了修复措施,以持续迭代安全防护能力。然而,Claude 的表现证明了有效的安全机制在技术上是完全可行的,这促使立法者与监管机构开始重新审视 AI 行业的安全审查标准。

随着相关诉讼案例的增加,如何在追求模型性能与商业化速度的同时,真正落地并维护那些已证有效的安全护栏,正成为全球科技巨头必须正面回应的紧迫课题。

最新快讯

2026年03月12日

10:49
2026年3月8日,2026年国际排联沙滩排球职业巡回赛挑战赛在印度布巴内斯瓦尔KIIT大学Dutee Chand体育场结束。赛事历时5天,吸引来自52个国家和地区的83支队伍、超300名运动员及官员参赛。美国组合Durish/Koenig摘得女子金牌,比利时组合Vercauteren/Van Langendonck夺得男子冠军。本次赛事为国际排联年度重要...
10:49
2026年3月12日,国产CMOS图像传感器厂商思特威正式推出面向AI眼镜的1200万像素传感器SC1220IOT。该芯片采用1/3.57英寸Stacked BSI工艺,封装尺寸仅5.48mm×3.97mm,支持Always-On模式(功耗低至1mW)、75dB ColGain HDR®技术及SFCPixel®-2降噪技术(读出噪声0.8e⁻)。可实现12...
10:49
3月12日,上汽集团移动出行品牌享道出行在江西省赣州市正式启动网约车业务。此次开城面向本地网约车司机推出限时福利:每日7:00至18:30期间订单免收平台佣金。此举旨在加速本地运力招募与市场渗透,提升用户出行服务覆盖能力。赣州成为享道出行在江西拓展的重要节点城市。
10:49
微新创想:3月12日,小米前高管王腾宣布创立新公司,品牌名为“ISHO”(发音“宜休”)。该品牌已启动全球20多个国家和地区的商标注册。目前正筹备ISHO App内测,后续将开放邀请制用户参与。此举标志着王腾在离开小米后正式开启独立创业进程,聚焦全新生活方式方向。 王腾此前在小米担任重要职务,积累了丰富的行业经验。此次创业不仅体现了他对市场趋势的敏锐洞察,也...
10:49
微新创想:2026年3月12日,Pickering Interfaces正式发布免费在线工具套件Test System Architect。该工具专为测试系统工程师打造,旨在帮助他们在实际部署之前完成信号路径的设计、配置与可视化工作。通过这一平台,工程师能够更高效地规划测试系统,减少现场调试的时间和成本。 微新创想:Test System Architect...
10:49
微新创想:2026年3月12日,日本支付服务平台PayPay正式宣布将在美国纳斯达克交易所上市,股票代码定为PAYP。这一消息引发了全球金融科技领域的广泛关注。PayPay由软银集团推出,长期以来在日本无现金支付市场占据主导地位,成为日本数字支付生态的重要组成部分。 此次上市不仅意味着PayPay将获得国际资本市场的认可,也为公司拓展全球业务提供了新的契机。...
10:49
微新创想:3月12日,顺丰速运与中国旅游集团宣布深化战略合作。双方将在万宁中旅逐浪度假区落地‘文旅+物流+冲浪’融合项目。这一合作标志着两家行业领军企业共同推动文旅与物流产业的深度融合。 此次合作将充分发挥顺丰在文旅物流及大型赛事保障领域的专业服务能力。结合万宁中旅逐浪度假区作为国内人工造浪标杆的独特优势,双方共同打造集旅游、文化、体育于一体的综合性服务体验...
10:49
微新创想:2026年3月12日逸仙电商宣布拟以私募方式发行总额1.2亿美元以人民币计价的可转换优先票据 此次发行的票据将由公司创始人兼CEO黄锦峰与信宸资本共同设立的特殊目的载体作为发行对象 此举被逸仙电商视为优化资本结构的重要举措有助于提升公司的财务灵活性并增强其长期发展的韧性 目前票据的具体条款包括转股机制利率及到期期限等仍处于待确定阶段 交易不涉及公开...
10:49
微新创想:2026年3月11日,七彩虹宣布其产品线正式适配英特尔酷睿Ultra 200S Plus处理器,并同步推出三款全新的Z890主板。此次发布的主板不仅覆盖了高端市场,还兼顾了主流用户的需求,为不同层次的用户提供了多样化的选择。 iGame Z890M ULTRA Z作为其中一款主板,是全球首款支持BTF 3.0规范的产品。该主板采用了直插式电源与显卡...
10:49
微新创想:2026年3月18日,AMD首席执行官苏姿丰将首次访问韩国。此次访问具有重要的战略意义,标志着AMD在拓展国际市场和深化技术合作方面迈出关键一步。 此行的核心议程之一是与三星电子会长李在镕会面。双方将重点商讨HBM4内存的优先供应权问题,以确保Instinct MI400系列产品的顺利量产。HBM4作为高性能计算和人工智能领域的重要组件,其供应稳定...
10:49
微新创想:2026年3月,北京宇迹航天科技有限公司完成千万级人民币天使轮融资。本轮融资由水木清华校友种子基金、SEE Fund无限基金及启迪之星联合投资。此次融资标志着公司在卫星互联网领域迈出了坚实一步,获得了来自知名投资机构的认可与支持。 公司以卫星互联网应用终端为切入点,专注新一代航天信息化与智能化产品研发制造。通过不断探索和创新,宇迹航天致力于为用户提...
10:49
微新创想:针对近期开源 AI 智能体 OpenClaw 在自主权限和数据安全方面暴露的隐患 火山引擎今日宣布 其云端 SaaS 版工具 ArkClaw 已全面升级 AI 助手安全解决方案 该方案旨在通过构建从部署环境到行为权限的纵深防御体系 将原本处于安全灰色地带的开源工具转化为合规 可控的 数字员工 ArkClaw 的核心进化在于实现了 Agent 运行环...