微新创想(idea2003.com) 7月20日讯 人工智能领域正迎来一场革命性的变革,合成数据正逐渐成为训练人工智能模型的核心要素。Cohere首席执行官Aiden Gomez在最新声明中指出,由于Reddit和Twitter等平台对数据抓取收取高昂费用,微软、OpenAI和Cohere等顶尖AI企业已将目光转向合成数据这一替代方案。
Gomez透露,合成数据的应用已相当广泛,但相关情况并未得到充分公开。他以一个典型案例说明:在训练高级数学模型时,研究人员会让两个AI模型分别扮演教师和学生角色,围绕三角学等主题展开对话,观察者会在必要时进行纠正。这种创新方法不仅有效提升了模型性能,也为人工智能训练开辟了新路径。
尽管合成数据已成为多项研究论文的关注焦点,但当前主流AI模型的训练仍主要依赖从互联网获取的海量数据,包括数字图书、新闻文章、博客、社交媒体内容以及Flickr图片等。通过强化学习反馈(RLHF)技术,人类专家会对这些数据进行筛选和优化,填补信息空白。然而,这种传统方法存在潜在风险,如可能侵犯版权和泄露用户隐私,给企业带来法律纠纷隐患。
值得注意的是,Meta已主动停止披露其训练巨型生成式AI模型Llama 2所使用的数据来源。Financial Times曾报道微软一项突破性研究成果,其论文《教科书就是你所需要的》表明,通过用教科书质量的数据训练编码模型,该模型在编码任务中表现出色。类似方法同样适用于语言模型训练,通过让模型掌握简单词汇和句式,最终能够生成流畅且语法正确的文本内容。
尽管合成数据训练展现出巨大潜力,企业仍需谨慎对待数据质量问题。使用劣质合成数据可能导致模型性能随时间推移而下降。值得期待的是,OpenAI和Anthropic等公司正在研发减少AI幻觉的chain-of-thought技术,这些创新举措有望与合成数据协同作用,共同推动人工智能解决更多现实挑战,为人类社会带来更多福祉。