2025年9月18日,备受瞩目的2025国家网络安全宣传周人工智能安全治理分论坛在昆明成功举办。在此重要场合,中文互联网基础语料3.0版本正式对外发布,标志着我国在人工智能数据资源建设领域迈出了坚实一步。新版本语料库规模宏大,总数据量高达120GB,为大模型训练和人工智能技术的持续创新提供了强大的数据支撑。
此次中文互联网基础语料3.0的问世,是在中央网信办的高度指导下,由中国网络空间安全协会联合国家互联网应急中心等权威机构共同研发的结晶。该语料库的建设充分体现了产学研协同创新的模式,得益于企业、高校和科研单位之间的紧密合作,特别是依托网安协会人工智能安全治理专委会建立的语料共建共享机制,实现了资源的高效整合与优化配置。与前两版相比,3.0版本在信源覆盖范围上实现了显著拓展,数据质量也得到了全面升级,为人工智能应用提供了更优质的原料。
在数据处理方面,中文互联网基础语料3.0经过了一系列严谨的工艺流程。研发团队实施了严格的信源筛选机制,运用先进的内容过滤技术,并开展了全面的数据去重工作。这些精细化处理措施确保了发布数据的可信度,有效净化了网络环境,为人工智能研究与应用营造了更为健康的生态空间。
用户获取渠道方面,中文互联网基础语料3.0已在中国网络空间安全协会官方网站上线。访问者只需登录网站,点击”中文互联网语料资源平台”专属链接,完成注册认证流程后,即可下载所需语料。相关负责人表示,此次3.0版本的推出,是社会各界共同努力的成果展示,未来将继续完善中文互联网基础语料体系,为人工智能技术创新和产业升级提供持续动力。
中文互联网基础语料3.0的问世,不仅为人工智能发展注入了新的活力,更为相关领域的研究奠定了更为坚实的地基。这一重大成果将有力推动我国人工智能技术的突破性进展,加速智能应用的落地进程,为数字经济发展注入强劲动能。