美国艾伦人工智能研究所(AI2)近日宣布推出名为Dolma的开源数据集,该数据集规模宏大,包含3万亿个token,涵盖了网络内容、学术出版物、代码和书籍等多元化来源,是目前公开可用的同类数据集中规模最大的一个。这一突破性数据集将为AI2正在研发的开放语言模型OLMo奠定坚实基础,OLMo的目标是成为业界领先的开放语言模型,计划于2024年初正式发布。
Dolma数据集的构建过程体现了AI2对数据质量的严格把控。团队采用先进的语言识别模型对数据进行筛选,确保文本质量。为了兼顾语言多样性,项目团队将模型判断为英文置信度50%以上的所有文本纳入数据集,以弥补少数语言方言的偏差。未来版本中,Dolma将逐步扩展至更多语言,进一步提升全球覆盖范围。
在开放性方面,Dolma遵循开放许可协议,完全免费向全球研究人员开放。使用者在获取数据时需提供联系信息并同意Dolma的预期用途,同时项目建立了完善的机制,可根据要求删除个人数据,确保用户隐私安全。Dolma的数据主要来源于非营利性的Common Crawl项目收集的网络数据,此外还整合了其他网络页面、学术文本、代码示例和书籍等丰富内容。
AI2对理想数据集的标准有着清晰定义:开放性、代表性、规模和再现性,同时强调要最大限度降低风险,特别是那些可能影响个人的风险。Dolma的推出不仅为语言模型研究提供了强大的数据支持,也展现了AI2在推动人工智能领域开放合作方面的坚定承诺。
Dolma数据集的详细信息和使用指南可在以下网址查看:https://huggingface.co/datasets/allenai/dolma