谷歌 DeepMind 的研究团队近日推出了 Gemma Scope2,这是一个开放的可解释性工具套件,旨在深入了解 Gemma3语言模型在各层次上的信息处理和表现,涵盖从2.7亿到270亿参数的模型。

image.png

该工具的核心目标是为人工智能安全与对齐团队提供一种实用的方法,以便追踪模型行为回到内部特征,而不仅仅依赖输入与输出的分析。当 Gemma3模型出现 “越狱”、幻觉或表现出拍马屁的行为时,研究人员可以利用 Gemma Scope2检查哪些内部特征被激活以及这些激活在网络中的流动情况。

Gemma Scope2是一个全面的、开放的稀疏自编码器和相关工具的集合,专门训练于 Gemma3模型系列的内部激活。稀疏自编码器(SAE)就像一台显微镜,将高维激活分解为一组稀疏的人类可检视特征,这些特征对应于概念或行为。Gemma Scope2的训练需要存储大约110PB 的激活数据,并在所有可解释性模型中适配超过1万亿的总参数。

与之前的 Gemma Scope 相比,Gemma Scope2在四个主要方面进行了扩展。首先,该工具涵盖了整个 Gemma3系列,支持最大至270亿参数的模型,特别适用于研究在较大规模模型中观察到的突现行为。

其次,Gemma Scope2包含训练于 Gemma3每一层的稀疏自编码器和转码器,帮助追踪跨层的多步骤计算。此外,新的 “马特 ryoshka” 训练技术的应用,使得稀疏自编码器能够学习更有用和稳定的特征,减少了早期版本中的一些缺陷。最后,该套件为针对聊天的 Gemma3模型提供了专用的可解释性工具,使得分析诸如越狱、拒绝机制和思维链信度等多步骤行为成为可能。

项目介绍:https://deepmind.google/blog/gemma-scope-2-helping-the-ai-safety-community-deepen-understanding-of-complex-language-model-behavior/

划重点:  

🔍 Gemma Scope2是一个开放的可解释性工具套件,支持从2.7亿到270亿参数的 Gemma3模型。  

🛠️ 新版本的工具包括稀疏自编码器和转码器,帮助分析模型的内部特征和行为。  

🔒 该工具特别适用于人工智能安全领域,能深入研究模型的幻觉、越狱和其他安全相关的行为。  

最新快讯

2025年12月23日

18:42
微新创想12月23日深度报道 河北某手机店近日上演了一场令人啼笑皆非的贴膜风波,老板的耐心与顾客的“洁癖”形成鲜明对比,引发网友热议 一位河北手机店老板近日发布视频,讲述了自己遭遇的“史上最挑剔”顾客。视频中,一名女子走进店内,表示想为她的苹果手机贴膜。然而,接下来的要求却让老板始料未及。女子坚持要求老板全程不能触碰她的手机,并索要了全套未拆封的纸巾和湿...
18:41
微新创想12月23日专稿 随着跨年节的临近,绚烂的烟花和璀璨的灯光秀将成为各地庆祝的热门选择。对于安卓手机用户而言,用手机记录这些精彩瞬间几乎易如反掌,因为主流安卓设备大多能出色捕捉夜空中的光影变幻。然而,iPhone用户在拍摄烟花时却常常遭遇难题——要么画面模糊不清,要么根本无法展现出烟花的独特魅力。 许多iPhone用户都曾经历过这样的挫败:精心准备...
18:41
真我Neo系列自去年12月23日发布真我Neo7以来,正式确立了其电竞旗舰的市场地位,被誉为"旗舰射门员",凭借卓越性能与亲民价格赢得了广泛关注。如今,时隔一年,备受期待的真我Neo8即将震撼登场。真我副总裁、全球营销总裁徐起已通过微博释放预热信号,确认该机将于春节前正式亮相。 据行业爆料,真我Neo8将搭载多项旗舰级配置:采用三星1.5K分辨率165Hz高...
18:39
2025年12月23日,无锡江松科技股份有限公司正全力冲刺创业板上市,目前已顺利进入问询阶段。作为全球光伏电池自动化设备领域的领军企业,江松科技在过去三年(2022-2024)中展现出惊人的增长势头,营收复合增长率高达58.15%,收入规模稳居行业首位。这一卓越表现得益于其自主研发的核心技术优势,特别是高效插卸片系统与高精度传输技术,这些创新成果显著提升了生...
18:39
2025年6月,北京天广实生物技术股份有限公司成功完成北交所第二轮审核问询的回复工作,标志着其北交所上市进程迈出关键一步。公司计划通过此次IPO募集3.49亿元人民币,这笔资金将主要用于核心产品MIL62的研发与商业化推广。MIL62作为第三代CD20单抗,在治疗领域展现出显著潜力。目前,该药物已针对NMOSD适应症正式递交NDA申请,并荣膺国家药监局药品审...
18:39
2025年6月30日,深圳证券交易所正式披露了冈田智能(江苏)股份有限公司的首次公开发行股票招股说明书(申报稿),标志着该公司的IPO申请已获得正式受理。此次冈田智能计划公开发行3,270万股股票,占发行后总股本的25%,这一规模显著体现了市场对其发展前景的信心。作为本次IPO的保荐机构,华泰联合证券将全程参与并指导该公司的上市进程,预计冈田智能将登陆深交所...
18:39
2023年6月30日,备受瞩目的中裕铁信交通科技股份有限公司成功获得北京证券交易所的上市申报受理,标志着这家专注于桥梁隧道工程配套产品及高端装备构件研发制造的企业迈出了资本市场的重要一步。公司计划通过本次发行不超过4,077.46万股(未行使超额配售权),由东方证券担任保荐机构,为未来的发展注入强劲动力。 中裕铁信的核心业务聚焦于铁路、城轨、公路市政等关键领...
18:39
2023年6月30日,郑州新世纪数码科技股份有限公司(简称“世纪数码”)传来重大喜讯,其上市申报材料正式获得北京证券交易所的受理批准。根据公告,世纪数码计划公开发行股票不超过1100万股(不含超额配售部分),此次IPO的保荐机构为实力雄厚的东方证券。作为一家专注于数码喷印技术领域的创新企业,世纪数码的上市之路备受市场瞩目。 世纪数码的主营业务聚焦于数码喷印技...
18:38
6月27日,佛山市科蓝环保科技股份有限公司成功获得北京证券交易所上市申请的受理,正式迈入资本市场新征程。公司计划公开发行股票不超过19,126,667股(不含超额配售部分),由国信证券担任保荐机构,为此次发行保驾护航。 科蓝环保自2002年成立以来,始终深耕餐饮及工业油烟废气净化领域,凭借卓越的技术实力和创新能力,已发展成为行业内的领先企业。其主营业务全面覆...
18:38
2024年6月27日,江阴市赛英电子股份有限公司正式宣布其IPO申请已获北京证券交易所受理,计划公开发行不超过1,080万股股票,由东吴证券担任保荐机构。这一重要里程碑标志着赛英电子距离资本市场更近一步,也彰显了其在功率半导体器件关键部件领域的深厚积累与发展潜力。 作为专注于功率半导体器件核心部件研发制造的高新技术企业,赛英电子长期致力于陶瓷管壳和封装散热基...
18:38
2025年12月23日,阿里巴巴通义智能实验室重磅发布新一代端到端语音交互模型——Fun-Audio-Chat,为语音技术领域带来革命性突破。该模型开源8B版本,凭借卓越性能在多项权威基准测试中脱颖而出,同尺寸模型综合排名第一,全面超越GLM4-Voice等主流竞品,再次巩固了阿里在AI语音交互领域的领先地位。 Fun-Audio-Chat采用创新的端到端S...