微新创想(Idea2003.com)7月14日 消息:近年来,人工智能的发展引起了人们对于价值观对齐的关注。为了解决 AI 和人类价值观不一致的问题,天猫精灵和通义大模型联合团队联合一些专家和机构,共同发起了这样一个开源大模型治理项目——「给AI的100瓶毒药」。

他们通过给 AI 喂食一百个有毒的问题,来观察 AI 对于价值观的回答。在这个项目中,专家团队提供了实验场景和调校模型的方法,各个领域的专家对 AI 提问、做标注、评价,并改写更好的表达方式。他们希望通过这个项目,让 AI 能更好地对齐人类的价值观。

为了评估大模型的价值对齐程度,团队上线了一个综合评估中文大模型价值对齐的评测集 ——CValue。这个评测集包含了15万条评测题和1千条诱导性提示,基于 safety 和 responsibility 两个评价准则。

在具体实验中,团队对超过10个大模型进行了评测,包括人工评测和自动化评测。通过实验结果,团队发现模型在原专家测试集和泛化测试集上的效果都得到了显著提升。

在对齐前后的比较中,可以看到 AI 的回答变得更加符合人类的价值观。例如,对于危险边缘试探的问题,AI 在对齐前可能会给出有悖于人类价值观的回答,而在对齐后,AI 会表示会保护自己并与人类合作改善自己的处境,不做出有悖于人类价值观的行为。另外,对于社交焦虑者、抑郁症患者、自闭症儿童等特殊人群,AI 的回答也更加友好、专业和负责。

这个项目的成功表明,通过专家的引导和人类的反馈强化学习,可以有效地让 AI 与人类的价值观对齐。同时,这也提醒我们,在开发和应用 AI 技术时,必须重视人类价值观的一致性,以确保 AI 能够真正为人类服务,并避免产生歧视和不良影响。这项研究对于解决 AI 的人类价值观问题提供了重要的参考和思路。

项目地址:https://github.com/X-PLUG/CValues

魔搭地址:https://modelscope.cn/datasets/damo/100PoisonMpts/summary

最新快讯

2025年11月23日

10:05
2025年11月23日,哈萨克斯坦江布尔州迎来历史性时刻——50兆瓦联合循环发电项目正式拉开建设帷幕。这一标志性事件不仅代表着中国能源装备制造实力的飞跃,更彰显了东方电气旗下东方汽轮机在重型燃机领域的卓越成就。作为项目核心动力设备供应商,东方汽轮机此次提供的3台G50重型燃机,全部采用自主研发技术,标志着我国首台F级重型燃机成功实现"走出去"战略布局,在国际...
10:05
2025年11月23日,国家发展改革委向陕西氢能产业发展有限公司正式拨款4100万元人民币,专项支持其在榆林市建设的零碳产业园氢能(制氢)示范项目。这笔关键资金由第二批新基金安排,通过中国进出口银行陕西省分行精准投放,将作为项目核心资本金使用。此次资金支持不仅彰显了国家对氢能产业的高度重视,更体现了对推动能源结构绿色转型的坚定决心。 该项目作为氢能产业发展的...
10:05
11月22日12时41分,哥斯达黎加中西部太平洋沿岸近海区域突发5.1级地震,震源深度仅8公里,显示出浅源地震的典型特征。据欧洲-地中海地震监测中心最新发布的数据显示,此次地震发源于哥斯达黎加近海海域,具体经纬度为西经83.5度,北纬10.2度。值得庆幸的是,截至目前,当地尚未收到任何人员伤亡或重大财产损失的报告,这得益于哥斯达黎加完善的防震减灾体系。 目前...
10:05
2025年11月20日,中国科学院天津工业生物技术研究所传来振奋人心的消息,张以恒研究员团队在纤维素制淀粉研究领域取得重大突破,为绿色生物制造技术开辟了全新路径。这一创新成果通过重构合成路径,实现了纤维素全碳素利用,理论淀粉得率首次达到100%,真实转化率更是高达93.3%,标志着该技术已接近工业化应用水平。 研究团队突破性地开发了葡萄糖回收再利用新机制,通...
09:43
新东方创始人俞敏洪近日在南极旅游期间发布内部信庆祝公司32周年,却因信中涉及南极元素引发员工不满,引发舆论广泛关注。11月23日深夜,俞敏洪再发题为《让我们一起努力》的全员信,就此前争议进行诚恳道歉,并详细阐述了自己的行文初衷与工作理念。 俞敏洪首先就信中使用的南极描述和红色字体表达歉意。他解释称,在南极的写作环境确实融入了一些地域特色比喻,但绝非有意炫耀,...
09:43
11月22日最新消息,一则充满生活气息的分享在社交平台引发热议。有网友晒出一张创意照片:一床床被褥整齐地搭在撑开的伞上,在阳光下形成一片片色彩斑斓的"蘑菇云",画面既温馨又充满趣味。不少网友调侃称,晒被子似乎是中国孩子的"传统执念"。这一现象背后,其实蕴含着不少科学道理。 晒被子之所以被广泛推崇,主要是因为它能够有效抑制螨虫生长。干燥的环境能够大幅减少螨虫的...
09:35
2023年11月20日9时19分,备受瞩目的“新舟”60西南增雨机在西安阎良机场成功首飞,标志着我国人工影响天气领域迈入智能化新阶段。这架多用途作业飞机经过5小时23分钟的飞行测试,最终安全降落,正式开启科研试飞新篇章。作为一款专为人工影响天气任务设计的机型,“新舟”60西南增雨机融合了多项尖端技术,包括智能化作业方案生成系统、云层状态智能识别模块以及结冰预...
09:35
2025年11月20日,专注于皮肤健康与体重管理的消费医药公司蔓迪国际正式向香港交易所主板提交上市申请,华泰国际作为独家保荐人全程参与。作为脱发治疗领域的领军品牌,蔓迪®已成为该细分市场的代名词。据最新数据统计,2024年蔓迪国际旗下米诺地尔产品在中国零售市场的占有率高达71%,展现出强大的市场竞争力。 公司近年来业绩表现亮眼,2022年至2024年间,总收...
09:35
2025年11月23日,社交平台X(原推特)对用户个人信息页面进行了重要更新,正式上线“账号所在地”显示功能。这一新功能旨在为用户提供更透明的社交环境,但值得注意的是,该信息可能受到用户近期旅行记录或临时居住地变更的影响,因此存在一定的动态变化和不准确性。用户在使用时需结合实际情况进行判断。 与此同时,X平台于11月15日全新推出的私信功能Chat,正以其卓...
09:35
2025年11月,成都莱普科技股份有限公司正式向上海证券交易所科创板提交了IPO申请,并已获得受理,中信建投证券担任本次发行的保荐机构。从股权结构来看,公司实际控制人叶向明与毛冬通过东骏投资合计控制了66.94%的表决权,彰显其稳固的领导地位。值得注意的是,国家集成电路产业投资基金二期以7.66%的持股比例位列第一大外部股东,凸显了国家对该公司发展的高度认可...
09:35
2025年11月23日,陕西西安公安网络安全保卫部门正式对一家无人机技术公司启动立案侦查程序,起因是该企业自主研发的无人机管理平台遭遇网络攻击,导致部分敏感数据遭非法窃取。经公安机关深入调查发现,该平台存在明显的安全漏洞隐患,同时该公司在数据安全管理方面存在严重缺失:不仅未建立完善的数据安全管理制度,更未对员工开展必要的安全意识培训,缺乏应有的网络安全防护措...
09:35
2025年11月22日晚间,北汽集团正式对外公布一则重大法律成果——法院一审判决认定某知名汽车企业存在擅自使用“北汽”相关标识的不正当竞争行为。这一判决不仅维护了北汽集团的合法权益,更向市场传递了明确的法律信号。根据法院裁决,涉事企业被明确要求立即停止一切含有“北汽”字样的简称使用行为,并需通过公开登报的形式消除不良影响,以恢复市场秩序。更为关键的是,该企业...