微软人工智能研究团队于6月26日发布了一项重大突破——全新的轻量级代码生成模型phi-1,其性能竟超越了支撑ChatGPT的GPT-3.5大型语言模型。这一创新成果标志着微软在人工智能领域又迈出了坚实一步。phi-1基于Transformer架构,仅包含13亿个参数,而Codex模型的参数量高达120亿,两者形成鲜明对比。
在训练方面,微软团队展现了惊人的效率。他们仅用四天时间,便借助Nvidia的8块A100芯片成功训练出phi-1。该模型的训练数据来源广泛,涵盖了网络中的60亿个token,以及通过GPT-3.5生成的10亿个token,这种多元化的数据策略为模型性能提供了有力支撑。
从性能表现来看,phi-1在HumanEval基准测试中取得了50.6%的pass@1准确率,这一成绩足以令人瞩目。更令人惊叹的是,尽管phi-1的参数量远小于其他竞争模型,它却成功击败了包括Hugging Face的StarCoder(33.6%)、OpenAI的GPT-3.5(47%)以及谷歌的PaLM2-S(37.6%)在内的多个知名模型。在MBPP pass@1测试中,phi-1更是以55.5%的优异成绩遥遥领先。值得注意的是,许多同类模型尚未公布在MBPP基准测试中的表现数据,而此前WizardLM的WizardCoder在同类测试中得分为51.5%,该模型参数量高达150亿。
微软研究人员将phi-1的卓越表现归功于”高质量数据的力量”。他们以”教科书就是你所需要的”为论文命名,生动阐述了这一理念。正如一本精心编写的教科书能够为学生提供系统化的知识体系,高质量数据同样能够帮助语言模型在代码生成任务中达到专业水准。通过构建”教科书质量”的数据集,微软团队成功训练出phi-1这一轻量级却高效的模型,即便在模型大小缩小10倍、数据集规模缩小100倍的情况下,phi-1依然在编码基准测试中超越了绝大多数开源模型。
目前,phi-1专注于Python编码,这一局限性源于其设计初衷。与大型模型相比,phi-1缺乏特定领域的专业知识,例如使用特定API进行编程的能力。为了进一步提升模型性能,微软团队提出了改进方案:建议使用GPT-4替代GPT-3.5生成训练数据,同时致力于提高数据集的多样性和非重复性。尽管面临挑战,研究团队表示将探索在数据生成过程中注入随机性和创造力的方法,同时确保示例的质量和连贯性。这一创新举措有望为人工智能领域带来更多突破。