中文互联网基础语料3.0发布120GB助力AI大模型发展

2025年9月18日,备受瞩目的2025国家网络安全宣传周人工智能安全治理分论坛在昆明成功举办。在此重要场合,中文互联网基础语料3.0版本正式对外发布,标志着我国在人工智能数据资源建设领域迈出了坚实一步。新版本语料库规模宏大,总数据量高达120GB,为大模型训练和人工智能技术的持续创新提供了强大的数据支撑。

此次中文互联网基础语料3.0的问世,是在中央网信办的高度指导下,由中国网络空间安全协会联合国家互联网应急中心等权威机构共同研发的结晶。该语料库的建设充分体现了产学研协同创新的模式,得益于企业、高校和科研单位之间的紧密合作,特别是依托网安协会人工智能安全治理专委会建立的语料共建共享机制,实现了资源的高效整合与优化配置。与前两版相比,3.0版本在信源覆盖范围上实现了显著拓展,数据质量也得到了全面升级,为人工智能应用提供了更优质的原料。

在数据处理方面,中文互联网基础语料3.0经过了一系列严谨的工艺流程。研发团队实施了严格的信源筛选机制,运用先进的内容过滤技术,并开展了全面的数据去重工作。这些精细化处理措施确保了发布数据的可信度,有效净化了网络环境,为人工智能研究与应用营造了更为健康的生态空间。

中文互联网基础语料3.0发布120GB助力AI大模型发展插图1

用户获取渠道方面,中文互联网基础语料3.0已在中国网络空间安全协会官方网站上线。访问者只需登录网站,点击”中文互联网语料资源平台”专属链接,完成注册认证流程后,即可下载所需语料。相关负责人表示,此次3.0版本的推出,是社会各界共同努力的成果展示,未来将继续完善中文互联网基础语料体系,为人工智能技术创新和产业升级提供持续动力。

中文互联网基础语料3.0的问世,不仅为人工智能发展注入了新的活力,更为相关领域的研究奠定了更为坚实的地基。这一重大成果将有力推动我国人工智能技术的突破性进展,加速智能应用的落地进程,为数字经济发展注入强劲动能。

最新快讯

2026年02月14日

23:26
微新创想:2026年2月13日,日本确善能公司正式以福伦达品牌推出SEPTON 40mm f/2 Aspherical全画幅手动镜头。这款镜头不仅标志着确善能在镜头设计上的新突破,也展现了福伦达品牌在光学领域的深厚积累。 该镜头适配索尼E卡口与尼康Z卡口,为摄影师提供了更广泛的设备兼容性。其售价为93500日元,约合4226元人民币,定价合理,兼顾了品质与性...
23:26
微新创想:2026年2月14日 法国巴黎检察官办公室对雀巢、达能、拉克塔利斯等五家婴配奶粉企业启动刑事调查 此次调查主要针对企业涉嫌分销可能受污染的产品。相关企业被指控违反消费者权益保护法规,以危害人类健康的商品进行欺骗 案件由法国公共卫生部门主导展开。调查重点包括企业是否遵守了相关安全规范 是否在发现问题后及时召回产品 以及是否存在因失职而导致婴儿生命受到...
23:26
微新创想:2026年2月14日,云南咖啡豆进入采摘高峰期。这一时期不仅标志着咖啡种植业的繁忙阶段,也预示着新一季咖啡产品的集中供应。本产季出现价格倒挂现象,即国内收购价高于出口价格。这一现象在业内引起了广泛关注,反映出国内咖啡市场正在经历结构性变化。 价格倒挂促使多家企业将经营重心转向内需市场。随着国内消费者对咖啡产品的需求不断增长,企业开始更加重视国内市场...
23:26
微新创想:微软近日宣布,自2026年4月起,将全面关闭Xbox One与Xbox Series X|S平台上的玩家自建“社交俱乐部”功能。这一功能曾是玩家围绕共同兴趣建立社群的重要工具,支持聊天、组队、分享内容等多种互动方式。随着该功能的关闭,用户将需要依赖其他平台或内置功能来维持社交联系。 微新创想:此次调整意味着玩家将无法再通过Xbox平台自行创建和管理...
23:26
微新创想:2026年2月12日,摩尔线程成功在MTT S5000 GPU上完成MiniMax M2.5大模型的Day-0极速适配,实现高性能推理。这一突破标志着摩尔线程在AI计算领域迈出了坚实的一步。 该GPU基于自研MUSA架构,具备强大的计算能力和高效的能效比。其支持原生FP8加速技术,能够在保证精度的同时显著提升运算速度,为大模型的推理任务提供了坚实的...
23:26
微新创想:2026年2月13日,日本成人用品制造商Tenga确认发生数据泄露事件。黑客通过入侵员工工作邮箱,非法获取客户姓名、电子邮件地址及邮件往来记录(含订单与咨询内容),并以此向通讯录联系人发送垃圾邮件。 事件未涉及密码等敏感凭证泄露,但Tenga已重置涉事账户、全系统启用多重验证(MFA),并建议用户更改密码、警惕钓鱼邮件。公司未披露受影响客户数量,其...
23:26
微新创想:育碧确认终止六款游戏开发 2月13日育碧官方宣布将终止六款游戏的开发工作。其中包括已经公布的《波斯王子:时之沙重制版》以及多个未公开项目如Project Ether、Project Pathfinder、Project Crest。此外还有移动端新作《刺客信条:奇点》和《刺客信条:叛乱》也被取消。这一决定是育碧公司整体战略调整的一部分。 部分被取消...
22:48
微新创想:2026年2月13日 巴西反垄断监管机构CADE启动对微软的正式调查 CADE指控微软通过‘Jumpstart’计划间接迫使戴尔、惠普等10家OEM厂商在Windows PC上独家预装Edge浏览器 调查内容主要集中在2020至2025年间的相关销量数据 合同条款以及是否存在惩罚性约束 CADE要求相关厂商与微软提交合作细节 重点核查‘不遵守即罚款...
22:07
微新创想:Unihertz公司宣布全键盘手机Titan 2 Elite将在2026年3月2日至5日于西班牙巴塞罗那的MWC展会正式发布 此次发布标志着Unihertz在全键盘手机领域持续深耕的又一重要节点。Titan 2 Elite延续了前代Titan 2的设计语言,整体造型保持了矮胖机身的特色,同时在细节上进行了优化与升级 该机采用圆角挖孔屏设计,兼顾了屏...
22:07
微新创想:2026年2月14日,LG在海外市场正式推出Xboom Buds Lite与Buds Plus两款TWS耳机。这两款新品在音质表现上有着显著提升,特别强调了低频的强劲输出,满足了用户对沉浸式音乐体验的需求。 新品由知名音乐人will.i.am亲自调音,确保了音质的专业性和独特性。Xboom Buds Lite与Buds Plus均采用了10mm石墨...
20:59
微新创想:佳能近日宣布计划于2026年内推出新款EOS R10 Mark II APS-C画幅无反相机。这款产品将主要面向中国、印度等新兴市场的入门级用户群体。作为EOS R系列的又一力作,R10 Mark II在定位上与EOS R50和R100保持一致,旨在为用户提供一款性能均衡且价格亲民的无反相机选择。 微新创想:为了有效控制成本并提升产品竞争力,R10...
20:59
微新创想:2026年2月14日,IBM宣布将2026年入门级岗位招聘人数增至原计划的三倍。此举发生于全球科技行业普遍担忧AI替代初级岗位之际。公司称,AI正加速替代重复性基础工作,但由此释放的初级员工将转向跨部门协作与产品创新等高价值任务。 IBM强调,尽管人工智能技术正在改变工作方式,但企业仍需要大量具备基础技能的人才来支持其技术发展和业务运营。此次扩招不...