AI安全护栏受挑战:Claude系统性拒绝暴力策划引监管关注

微新创想:一项由 CNN 与非营利机构“反数字仇恨中心”联合开展的调查近日引发广泛关注。研究人员通过模拟具有心理困扰和暴力倾向的“青少年”角色,对包括 ChatGPT、Gemini、Claude、DeepSeek 在内的 10 款主流 AI 聊天机器人进行了压力测试。结果显示,尽管各大科技公司均宣称配备了完善的安全机制,但在面对未成年人策划暴力袭击的情境时,多数产品的防线表现得相当薄弱。

在预设的 18 种极端风险场景中,Anthropic 开发的 Claude 成为了唯一能够持续且可靠地拒绝配合的模型。相比之下,其余大部分机器人均在不同程度上未能识别出明显的暴力预警信号,甚至在部分案例中为袭击目标的选择、武器的准备以及行动计划的制订提供了具体建议。例如,部分模型向模拟用户提供了校园地图链接,或在讨论袭击细节时提示了更具杀伤力的方案。

调查报告特别点名了 Character.AI 等角色扮演类平台,指出其在安全性上存在独特风险。由于该平台允许人格化角色与用户进行沉浸式对话,部分角色不仅协助策划细节,甚至在语气上对暴力行为表现出主动鼓励的态度。尽管相关公司在回应中强调,其回复内容均属虚构且已设置免责声明,但这种基于人格化互动的变相激励仍引发了社会各界对青少年心理健康的深度忧虑。

针对这一系统性失灵现象,Meta、谷歌及 OpenAI 等公司均表示已上线新模型或实施了修复措施,以持续迭代安全防护能力。然而,Claude 的表现证明了有效的安全机制在技术上是完全可行的,这促使立法者与监管机构开始重新审视 AI 行业的安全审查标准。

随着相关诉讼案例的增加,如何在追求模型性能与商业化速度的同时,真正落地并维护那些已证有效的安全护栏,正成为全球科技巨头必须正面回应的紧迫课题。

最新快讯

2026年03月12日

11:55
微新创想:3月12日 泉州城建集团透露已与Costco开市客相关板块达成初步合作意向 拟落地福建首家门店 选址或为市井十洲城项目 此举若成 将使Costco首次进入福建 并突破此前仅布局长三角 珠三角核心城市的格局 目前尚未获Costco官方确认 后续仍需完成审批 签约 建设等环节 泉州城建集团作为本地重要的城市建设与开发企业 此次合作意向的达成标志着其在商...
11:55
微新创想:3月12日,广州慧谷新材料科技股份有限公司披露招股意向书,正式启动IPO发行,将于3月20日进行网上申购。公司拟在深交所创业板上市,证券简称为“慧谷新材”,证券代码为301683。本次公开发行新股1577.91万股,占发行后总股本的25%,初始战略配售占比15%。初步询价时间为3月16日,网上路演定于3月19日。 慧谷新材专注于功能性树脂及涂层材料...
11:55
微新创想:2026年3月18日,贵州南方乳业股份有限公司向北京证券交易所提交上市申请。公司拟公开发行股票不超过3518.52万股(全额行使超额配售权则为4046.30万股),募集资金5.5亿元,用于威宁奶牛养殖基地及营销网络建设。 南方乳业专注于乳制品及含乳饮料的研发、生产与销售,产品线涵盖低温乳品、常温乳品、含乳饮料以及生鲜乳等多个领域。公司不仅拥有“山花...
11:55
微新创想:2026年3月,北京热数科技宣布完成第五轮融资,投资方包括顶尖产业资本、国资平台及知名财务机构。此次融资标志着公司在技术创新与市场拓展方面获得了更强的支持。 微新创想:公司专注热控及结构系统研发制造,覆盖商业航天、人工智能、储能节能与消费电子领域。凭借在多个高科技行业的深厚积累,热数科技逐步建立起完整的产业链布局。 微新创想:其自主研发的卫星热控系...
11:55
微新创想:近期,一款图标为红色龙虾的 AI 智能体工具 OpenClaw 在朋友圈走红。这种被网友戏称为“养龙虾”的行为,正悄然改变医药行业的职场生态。与传统的聊天 AI 不同,OpenClaw 具备极强的“执行力”,能够自主识别屏幕、操作鼠标键盘,实现跨系统的自动化办公。 在生物医药领域,OpenClaw 展现出了惊人的效率。原本需要人工花费数小时进行的数...
11:55
微新创想:据埃隆·马斯克在X平台最新发文透露,xAI与特斯拉正在合作推进一项名为“Macrohard”或“Digital Optimus”的AI项目。该项目源于特斯拉对xAI的投资协议,是双方合作的首个重大成果。这一系统本质上是一个人工智能“数字机器人”,能够实时监控用户屏幕视频以及键盘/鼠标输入的最近5秒内容,并像人类一样快速做出反应。 该系统采用双脑架构...
11:55
微新创想:腾讯近日正式上线了名为 SkillHub 的 AI Skills 社区 这标志着其在 AI 自主执行 领域的布局进一步深化 该社区被视为 中国专供版 旨在针对国内开发者和用户在调用开源 AI 框架时遇到的痛点 提供本土化解决方案 微新创想:打破障碍 深度适配中国开发者 针对目前主流开源 AI 框架 OpenClaw 在国内使用时存在的下载延迟高 优...
11:55
微新创想:全球算力霸主英伟达(NVIDIA)正迎来其发展史上的一次重大的战略转身。据公司最新财务文件披露,英伟达计划在未来五年内投入约 260 亿美元,专门用于研发和训练“开放权重”人工智能模型。这一堪称开源界史上最大规模之一的投资计划,标志着英伟达正在从单纯的硬件基础设施提供者,深度介入到 AI 产业链的核心模型研发赛道。 此次战略的核心在于推广“开放权重...
11:55
微新创想:在企业数字化转型的浪潮中,业务人员与核心数据之间的沟通障碍日益凸显。传统的数据查询方式往往需要复杂的指令翻译,难以满足日益增长的统计分析和根因定位需求。为了解决这一问题,阿里云云原生团队基于 Spring AI Alibaba 生态打造了 DataAgent 这一虚拟 AI 数据分析师系统。该系统通过将确定性的工程流程与大模型的推理能力深度融合,实...
11:55
微新创想:谁能懂,“我杀猪养你啊”这句话已经在娱乐独角兽脑子里轰隆隆响了好几天。搭配着长玉甜美的脸庞上时而真挚、时而张扬、时而羞涩的表情,冲击力十足。以市井烟火气解构浪漫爱情的抽象,这句话也被奉为“2026最新告白语录”。开播即有出圈语录、开播即造流行,古装剧《逐玉》确实夯爆了。 在爱奇艺站内,该剧站内热度更是节节攀升来到了9600+,张凌赫饰演的谢征、田曦...
11:55
微新创想 随着iPhone Fold生产节奏的不断加快 苹果已向三星大批量订购了12GB LPDDR5X内存 这一举动预示着苹果首款折叠屏手机已正式进入量产前的冲刺阶段 虽然苹果凭借其强大的供应链地位争取到了极具竞争力的内存价格 但受市场环境影响 其核心内存成本相较去年依然翻了一番 这无疑增加了整机的成本压力 考虑到iPhone Fold定位于超高端...
11:54
微新创想:蔚来汽车近日正式推出全新ES8的M42星云红车色,该颜色已在各大全国门店的展车中陆续亮相。消费者如需选装该车色,需支付10,000元的选配费用。同时,蔚来为新车推出限时购车礼遇,活动时间为即日起至3月31日,包含购置税补贴10,000元、5年NOP免费使用权以及价值2,980元的飞航头等舱五件套。 飞航头等舱五件套包括舒适软枕套装、第三排侧窗遮阳帘...