Meta开源模型Llama2引发争议:开放性与商业风险的博弈
Meta公司近期发布的大型语言模型Llama2在开源领域掀起波澜,其开放程度未达开源倡议标准引发广泛讨论。尽管Llama2以免费使用姿态亮相,但在开源社区中仍面临质疑。该模型采用有限许可协议,虽然为多数人提供免费访问,但未完全符合开源倡议的核心要求。开源倡议强调代码与研究的自由共享,包括无限制的重新分发、源代码访问、修改权限,以及避免与特定产品绑定。然而Meta的许可协议存在诸多限制:对日活用户超7亿的开发者收取许可费,并禁止其他模型基于Llama2进行训练。这些条款导致部分研究人员质疑Meta的”开源”宣称,社交媒体上更是一片质疑之声。
MetaAI研究负责人Joelle Pineau坦言,公司的开放策略存在局限,但这是在信息共享利益与商业成本间的必要平衡。她在The Verge专访中表示:”开放性已从根本上改变我们的研究方法,促使我们拒绝发布任何不安全或不负责任的内容。”这一立场体现了Meta在AI安全领域的审慎态度。
作为业界领先的开放项目,Meta的PyTorch机器学习框架堪称典范。自2016年开源以来,该框架借助社区力量实现跨越式发展,成为生成式AI开发的重要基础设施。Pineau期待Llama2也能激发类似的创新热情,她指出:”开源后的PyTorch已取得显著进步,我们希望Llama2能同样产生深远影响。”
Meta积极投身行业标准制定,深度参与合作伙伴AI和MLCommons等组织,致力于建立基础模型规范与安全部署指南。公司认为,在开源AI安全领域不存在单打独斗的可能,唯有协作才能推动行业健康发展。这种开放策略在大型AI企业中尚属创新实践。
对比来看,OpenAI曾以开放姿态著称,但联合创始人Ilya Sutskever后来反思称,研究分享存在安全隐患。谷歌虽会发布部分论文,但在核心模型开发上仍保持高度保密。当前开源社区中,Hugging Face和GitHub成为LLM模型发布的热点,迪拜科技创新研究院的Falcon模型正与Llama2、GPT-4展开激烈竞争。
值得注意的是,闭源AI企业普遍对模型训练数据细节讳莫如深。Pineau特别指出,现行许可协议未充分考虑海量外部数据接入场景,这与现代生成式AI服务的数据需求存在脱节。尽管开源与专有许可都提供有限责任条款,但面对Llama2等包含海量数据的模型,侵权风险可能显著增加。业内人士正密切关注商业级LLM开源许可的局限性,同时也有观点认为纯粹开源更多是哲学探讨,对开发者实际影响有限。这一争议性话题将持续引发行业深思。