微软人工智能研究团队于6月26日发布了一项重大突破——全新的轻量级代码生成模型phi-1,其性能竟超越了支撑ChatGPT的GPT-3.5大型语言模型。这一创新成果标志着微软在人工智能领域又迈出了坚实一步。phi-1基于Transformer架构,仅包含13亿个参数,而Codex模型的参数量高达120亿,两者形成鲜明对比。

在训练方面,微软团队展现了惊人的效率。他们仅用四天时间,便借助Nvidia的8块A100芯片成功训练出phi-1。该模型的训练数据来源广泛,涵盖了网络中的60亿个token,以及通过GPT-3.5生成的10亿个token,这种多元化的数据策略为模型性能提供了有力支撑。

从性能表现来看,phi-1在HumanEval基准测试中取得了50.6%的pass@1准确率,这一成绩足以令人瞩目。更令人惊叹的是,尽管phi-1的参数量远小于其他竞争模型,它却成功击败了包括Hugging Face的StarCoder(33.6%)、OpenAI的GPT-3.5(47%)以及谷歌的PaLM2-S(37.6%)在内的多个知名模型。在MBPP pass@1测试中,phi-1更是以55.5%的优异成绩遥遥领先。值得注意的是,许多同类模型尚未公布在MBPP基准测试中的表现数据,而此前WizardLM的WizardCoder在同类测试中得分为51.5%,该模型参数量高达150亿。

微软研究人员将phi-1的卓越表现归功于”高质量数据的力量”。他们以”教科书就是你所需要的”为论文命名,生动阐述了这一理念。正如一本精心编写的教科书能够为学生提供系统化的知识体系,高质量数据同样能够帮助语言模型在代码生成任务中达到专业水准。通过构建”教科书质量”的数据集,微软团队成功训练出phi-1这一轻量级却高效的模型,即便在模型大小缩小10倍、数据集规模缩小100倍的情况下,phi-1依然在编码基准测试中超越了绝大多数开源模型。

目前,phi-1专注于Python编码,这一局限性源于其设计初衷。与大型模型相比,phi-1缺乏特定领域的专业知识,例如使用特定API进行编程的能力。为了进一步提升模型性能,微软团队提出了改进方案:建议使用GPT-4替代GPT-3.5生成训练数据,同时致力于提高数据集的多样性和非重复性。尽管面临挑战,研究团队表示将探索在数据生成过程中注入随机性和创造力的方法,同时确保示例的质量和连贯性。这一创新举措有望为人工智能领域带来更多突破。

最新快讯

2026年02月10日

09:07
微新创想:近日,河南郑州一位网友意外捕捉到一组野生天鹅互动的温馨画面,视频中,两只天鹅抬头、靠近,甚至用脖子摆出“比心”的造型,这一幕被网友戏称为真正的“天鹅舞”,并迅速在网络上引发热议。众多网友纷纷表示,这是他们第一次亲眼见证如此生动有趣的天鹅互动场景。 据目击者描述,当时这两只天鹅在湖面上悠闲游弋,突然间,它们似乎达成了某种默契,同时抬头挺胸,缓缓靠近彼...
09:07
微新创想:近日,一名年仅15岁的男孩凭借惊人力量在网络上迅速走红,被网友们赞誉为“现代版李元霸”。他的力量表现不仅让人感到惊讶,更引发了广泛的关注与讨论。 视频画面中,这名男孩面不改色,轻松将一个苹果横着掰成两半,紧接着又缓缓发力,竟将苹果均匀地掰成了八瓣,整个过程显得游刃有余。这一系列动作看似简单,却展现了他非凡的体能与控制力。 然而,这仅仅是他的“开胃小...
09:06
微新创想:临近春节,机器人租赁市场迎来了一场前所未有的爆发式增长,一机难求竟然成了行业常态。根据最新的行业数据显示,今年春节期间的机器人租赁订单量相比往常猛增了两到三倍。不少租赁平台的订单已经一路排到了2月底,甚至连正月十五之后的档期都被抢订一空。 如今的机器人租赁已不再是单纯的设备出租,而是升级成了全场景的定制化方案。无论是门店开业时的吸粉引流,还是景区展...
09:06
微新创想 近日,西安万象城商场外发生一起令人关注的鸟类撞击玻璃幕墙事件。有市民向媒体反映,多只小鸟在商场外的玻璃幕墙区域不幸死亡。据其提供的照片显示,玻璃幕墙的内侧种植着一些树木,这可能成为鸟类误判环境的诱因。该市民推测,小鸟可能是误以为玻璃幕墙后是自然环境,从而冲向玻璃导致伤亡。 微新创想 针对此事,商场工作人员确认了相关情况,并表示现场已经处理完毕。同时...
08:57
微新创想:在竞争愈发激烈的人工智能领域,OpenAI 首席执行官山姆・奥特曼向员工和投资者传递了一个振奋人心的消息:旗下的 AI 聊天机器人 ChatGPT 月增速已重回 10% 以上。这一数据表明,尽管面临诸多挑战,ChatGPT 依然保持着强劲的增长势头。 随着竞争对手 Anthropic 不断推出新工具,OpenAI 所承受的压力也日益增大。然而,公司...
08:49
微新创想:2026年2月9日,微软面向Windows Insider Beta与Dev频道用户发布KB5077201和KB5077202更新,版本号分别升至Build 26220.7755与Build 26300.7760。此次更新不仅带来了多项功能改进,还为用户提供了更丰富的使用体验。 更新引入了Emoji 16.0标准的7个新表情,包括‘眼袋脸’‘指纹’...
08:49
微新创想:微软近日已通过弹窗通知用户,将于2026年10月13日起停止对Microsoft Publisher的支持。这一决定意味着该工具将从Microsoft 365订阅服务中移除,用户在届时将无法打开或编辑以.pub为扩展名的文件。对于依赖Publisher进行文档排版的用户而言,这一变化将带来显著影响。 微软还指出Office LTSC永久授权版自20...
08:49
微新创想:2026年2月10日,多家上市银行在信贷“开门红”中加大地方重点产业贷款投放力度。这一举措体现了银行在新的一年里对区域经济发展的高度重视与积极响应。 截至2月9日,13家上市银行累计接受了54次机构调研,涉及机构总数达到386家。调研数据显示,银行正逐步调整信贷策略,紧密结合区域发展战略,明确对公信贷的主攻方向。 在具体实施过程中,银行将重点支持沿...
08:49
微新创想:2026年1月中旬至2月10日,148家券商累计调研了超过560家A股上市公司,与去年同期相比增长了约26%。这一数据反映出市场对上市公司基本面的关注度持续上升,尤其是在经济复苏预期和政策支持背景下,投资者对优质企业的挖掘更加积极。 调研重点主要集中在电子、机械设备、医药生物等成长性较强的行业。这些行业不仅具备较高的技术壁垒,还受益于产业升级和消费...
08:36
微新创想:近日 关于是否应对人工智能(AI)使用礼貌性用语 特别是“谢谢”一词 引发了社会各界的广泛讨论 随着AI技术的不断进步 一个看似微小却引人深思的问题浮出水面 对AI说“谢谢” 是否会造成不必要的资源浪费 一段时间以来 网络上流传着一种观点 认为对AI表达感谢会触发其计算模块的额外运算 从而浪费算力与电力 这一说法虽未经严格证实 却引起了公众的广泛关...
08:18
微新创想:2026年2月10日 长安汽车与宁德时代联合发布全球钠电战略 2026年2月10日 长安汽车与宁德时代联合发布全球钠电战略 此次合作标志着双方在新能源汽车领域的深入探索与技术突破。双方共同推出搭载宁德时代“钠新”电池的首款钠电池量产乘用车并在重庆正式亮相 这是钠电池技术首次在乘用车领域实现规模化应用 长安汽车旗下多品牌将陆续搭载该电池 随着钠电池技...
08:18
微新创想:2026年2月10日,国际科研团队成功研发一种细长柔韧、内置微通道的柔性脑植入物。该装置可在活体大脑中精准输送药物至特定脑区,适用于癫痫、记忆与决策机制等研究。其柔性设计降低组织损伤风险,提升长期植入安全性。研究旨在推动神经系统疾病如帕金森病、阿尔茨海默病的靶向治疗。相关成果发表于《先进科学》期刊。