AI2开源3万亿token数据集Dolma 支持OLMo开放语言模型研发

2023-08-25 07:59:25 互联网 83 次阅读

美国艾伦人工智能研究所（AI2）近日宣布推出名为Dolma的开源数据集，该数据集规模宏大，包含3万亿个token，涵盖了网络内容、学术出版物、代码和书籍等多元化来源，是目前公开可用的同类数据集中规模最大的一个。这一突破性数据集将为AI2正在研发的开放语言模型OLMo奠定坚实基础，OLMo的目标是成为业界领先的开放语言模型，计划于2024年初正式发布。

Dolma数据集的构建过程体现了AI2对数据质量的严格把控。团队采用先进的语言识别模型对数据进行筛选，确保文本质量。为了兼顾语言多样性，项目团队将模型判断为英文置信度50%以上的所有文本纳入数据集，以弥补少数语言方言的偏差。未来版本中，Dolma将逐步扩展至更多语言，进一步提升全球覆盖范围。

在开放性方面，Dolma遵循开放许可协议，完全免费向全球研究人员开放。使用者在获取数据时需提供联系信息并同意Dolma的预期用途，同时项目建立了完善的机制，可根据要求删除个人数据，确保用户隐私安全。Dolma的数据主要来源于非营利性的Common Crawl项目收集的网络数据，此外还整合了其他网络页面、学术文本、代码示例和书籍等丰富内容。

AI2对理想数据集的标准有着清晰定义：开放性、代表性、规模和再现性，同时强调要最大限度降低风险，特别是那些可能影响个人的风险。Dolma的推出不仅为语言模型研究提供了强大的数据支持，也展现了AI2在推动人工智能领域开放合作方面的坚定承诺。

Dolma数据集的详细信息和使用指南可在以下网址查看：https://huggingface.co/datasets/allenai/dolma

2025年12月19日

23:25

AI2开源3万亿token数据集Dolma 支持OLMo开放语言模型研发

最新快讯

2025年12月19日

乌干达发布本土大模型向日葵支持多语种服务农业教育医疗

深圳泊寓10余家门店清退租客获补偿万科聚焦优质资产

西藏高原实战演练机器狗协同作战显神威

昌九高铁全线铺轨启动 350公里时速打造半小时经济圈

谷歌推扩展深色主题功能 Android16Pixel新特性解析

申联生物联营公司获艾滋病单抗专利推动抗艾药物研发新突破

智谱科技通过港交所上市聆讯商业化突破获认可

中国神华拟增资60亿予财务公司提升资本实力

索尼间接收购花生漫画80%股权拓展IP价值触达新一代观众

特鲁斯特证券上调特斯拉目标价至444美元显乐观预期

福信富通科技递表港交所主板谋发展

华硕ProArt PF120高性能散热风扇评测：静音强效散热神器