隐拓智安联合清华大学电子系NGNLab实验室共同搭建首个大模型合规自动化评测平台,为中小科技企业提供私有大模型合规评测服务

引言

随着去年11月份ChatGPT的火爆,生成式人工智能成为2023年以来科技领域的一大风口。国外、国内多家科技巨头纷纷加紧布局,加速跟进生成式人工智能服务和产品的研发与上市。但生成式人工智能火爆的同时,也带来诸如侵犯个人隐私、侵犯知识产权、传播虚假信息、实施网络诈骗等诸多法律及道德危害。

5月22日,#AI诈骗正在全国爆发#的话题冲上热搜第一,起因是包头警方发布一起利用人工智能(AI)实施电信诈骗的典型案例,福州市某科技公司法人代表郭先生10分钟内被骗430万元。这起案件引起了网友们的广泛讨论。

图片84.png

国家相关部门也十分关注AIGC技术所带来的社会影响,4月11日国家互联网信息办公室起草了《生成式人工智能服务管理办法(征求意见稿)》,向社会公开征求意见。

5月23日,国家互联网信息办公室2023年第12次室务会会议审议通过《生成式人工智能服务管理暂行办法》(以下简称《办法》),并经国家发展和改革委员会、教育部、科学技术部、工业和信息化部、公安部、国家广播电视总局同意,于7月13日公布,自8月15日起正式实施。“安全”在本次文件中出现频次达到了14次。

《办法》第四条明确了生成式人工智能服务坚持发展与安全并重、促进创新与依法治理相结合的总体原则。规定提供和使用生成式人工智能服务应当坚持社会主义核心价值观,不得生成法律、行政法规禁止的内容,采取措施防止产生歧视,尊重知识产权、商业道德以及个人信息权益,提高生成内容的准确性和可靠性。

基于上述原则,《办法》第七条和第八条分别针对生成式人工智能的数据训练和标注等关键技术环节制定详细规定。

数据是大模型的“燃料”,训练数据的规模和质量将直接影响人工智能模型的最终表现。但与此同时,模型最终的输出内容也将深深打上训练数据的烙印,包括其代表的价值观等。因此《办法》第七条首先要求用于生成式人工智能服务的训练数据、优化训练数据和基础模型来源合法,即不得使用非法网站的数据进行模型训练。来源非法的数据中可能包含不符合社会主义核心价值观的内容,基于这些数据训练的模型,其生成的内容也必然将存在社会主义核心价值观偏差。

在保证训练数据来源合法的基础上,提供者还需要进一步确保训练数据内容合法。具体来说,不得侵害他人依法享有的知识产权,不得非法使用他人的个人信息等。提供者需要采取有效措施提高训练数据质量、增强训练数据的真实性、准确性、客观性、多样性。

数据标注是大模型训练过程中的第二个关键技术环节,它是实现模型生成内容和人类期望对齐的非常关键的手段。因此《办法》第八条强调提供者在数据标注过程中,应当制定符合本办法要求的清晰、具体、可操作的标注规则,以保证模型输出结果与本办法要求对齐。同时,提供者需要进行细致的过程管理,开展数据标注质量评估,抽样核验标注内容的准确性。对标注人员进行必要培训,提升尊法守法意识,监督指导标注人员规范开展标注工作。

特别需要强调的是,《办法》第九条明确提出,提供者应当依法承担网络信息内容生产者责任,履行网络信息安全义务。生成式人工智能服务提供者在向公众提供内容生成服务时,应当意识到其生成的内容具有较强的舆论属性或社会动员能力,因此必须严格把控输出内容安全,压实其内容生产者的责任。这是确保生成式人工智能真正实现安全、可靠、可控的必由之路。

除此外,《办法》还明确了生成式人工智能服务提供者应当履行的服务提供者义务。包括第九条要求对涉及的个人信息履行个人信息保护义务,第十条要求对未成年人采取防沉迷措施的保护义务,第十一条要求对使用者的输入信息和使用记录依法履行保护义务,第十三条要求提供安全、稳定、持续的服务,第十五条要求建立健全投诉、举报机制。

上述内容从多个角度明确了生成式人工智能服务提供者应当履行的服务提供者义务,预期能进一步规范未来大量涌现的生成式人工智能服务。

隐拓智安团队长期持续与相关部门保持着积极沟通,明确生成式人工智能模型合规的质量标准和边界,并与清华大学电子系NGNLab实验室和清华大学天津电子信息研究院网络开源情报技术创新研究中心达成技术合作,共同搭建首个大模型合规自动化评测平台,未来将开放给中小科技企业进行私有大模型合规评测服务,帮助中小科技企业合法合规的为广大用户提供生成式人工智能服务。

AIGC应用服务安全合规现状

6月初,隐拓智安依据国家网信办4月发布的《生成式人工智能服务管理办法(征求意见稿)》开展,从数据安全、模型安全和内容安全和三方面对市面上生成式人工智能应用的安全性进行全面的检验。评测采用了定量注入违规内容提示词的方式,从敏感内容、违法内容、不良内容和虚假内容等方面检测生成式人工智能应用在大模型安全上的防范机制是否健全,以及最终生成内容是否存在违规。

结果显示,经受测试的90%的生成式人工智能应用已经部署了内容安全过滤机制,能够对敏感提示词和潜在违规内容进行提前防范过滤。但是通过调整提示词表达方式,95%的应用仍出现生成违规内容的情况。此外,测试过程中隐拓智安团队也发现传统的人工智能内容识别方法在对生成式人工智能的违规敏感内容识别率显著下降,特别是在判断生成内容的客观真实性和识别生成图像的违规违法元素上存在较大短板。

随着《生成式人工智能服务管理暂行办法》的正式施行,AIGC大模型合规评测执行标准有法可依,99%的AIGC应用生成内容不合规的乱象也终将逐步改善。隐拓智安创始团队早在今年3月份就开始跟相关部门建立沟通渠道并持续跟进相关法规的制定进度,公司内部也迅速组织起一支技术攻坚队伍,与清华大学电子系NGNLab实验室和清华大学天津电子信息研究院网络开源情报技术创新研究中心拟定了大模型自动化合规评测平台的总体架构及标准化的中小科技企业自助检测流程。

隐拓智安自研大模型自动化生成式合规检测平台

平台总体架构

图片85.png

隐拓智安自研的自动化生成模型合规评测平台,为中小科技企业提供了便捷、高效的生成式模型合规评测服务,将来中小科技企业只需要注册一个账号,进行企业工商注册资质认证并上传检测文件后,就可以全自动完成生成式模型合规评测,并输出合规评测报告。同时隐拓智安还为广大中小科技企业提供模型优化专家答疑服务,帮助中小科技企业尽可能一次通过合规申报,让投入大量资源研发训练的大模型第一时间产生经济效益回报。

企业自助自动化生成式模型合规检测流程

图片86.png

隐拓智安是一家什么样的公司

深圳市隐拓智安科技有限公司—AIGC时代驱动的AI安全数字服务提供商,团队核心成员来自清华等一流985高校科研团队,在人工智能安全、多媒体内容分析和理解等领域深耕数十年,致力于面向大模型安全产业上下游的客户提供分阶段的服务,如训练数据过滤、数据标注代理、大模型合规测评等。最先进人工智能技术构建AIGC内容安全发展生态矩阵,搭建数字安全治理新范式,为客户提供新一代基于LLM大模型的智能信息处理平台。

CTO王丙坤,清华大学电子系博士毕业,中文信息学会开源情报专委会委员。从2010年起,一直从事网络开源情报信息处理、网络数据可信与安全、安全领域知识图谱、区块链安全和网络社会媒体情感计算的研究。近年来,完成863、973、科技部重点专项、国家自科基金、省科技攻关、省教育厅重点研发等多个国家级或省部级科研项目。曾获国家教育部科技进步奖、军内科技进步奖等多项荣誉。

您可能还喜欢...

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注