声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:张倩,授权微新创想转载发布。

一眨眼,开源大模型又进步了。谷歌、OpenAI真的没有护城河?

「我就午休了30分,我们的领域又变了?」在看到最新的开源大模型排行榜后,一位 AI 领域的创业者发出了灵魂追问。

排行榜链接:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

上图红框中的「新秀」是来自 Stability AI 和 CarperAI lab 的两个大模型:FreeWilly1和 FreeWilly2。刚刚,它们超越了 Meta 三天前发布的 Llama-2-70b-hf,成功登顶 HuggingFace 的 Open LLM 排行榜榜首。

更引人注目的是,FreeWilly2在很多基准上还击败了 ChatGPT(GPT-3.5),成为首个真正可以和 GPT-3.5相抗衡的开源大模型,这是 Llama2都没有做到的事情。

FreeWilly1基于原始的 LLaMA65B 基础模型构建,并且在标准 Alpaca 格式下,使用新的合成数据集进行了仔细的有监督微调(SFT)。FreeWilly2则基于最新的 LLaMA270B 基础模型构建。

从 Stability AI 发布的博客中,我们可以看到这两个新模型的一些细节:

数据来源

FreeWilly 模型的训练方法直接受到了微软在其论文《Orca: Progressive Learning from Complex Explanation Traces of GPT-4》中首创的方法的启发。虽然 FreeWilly 的数据生成过程与之相似,但二者在数据来源方面存在差异。

FreeWilly 的数据集包含了60万个数据点(大约是原始 Orca 论文使用的数据集大小的10%),它是通过以下由 Enrico Shippole 创建的高质量指令数据集来启发语言模型生成的:

  • COT Submix Original

  • NIV2Submix Original

  • FLAN2021Submix Original

  • T0Submix Original

采用这种方法,研究者使用了一个较简单的 LLM 模型生成了50万个示例,并使用一个更复杂的 LLM 模型生成了额外的10万个示例。为了确保公平比较,他们仔细筛选了这些数据集,并删除了来源于评估基准测试的示例。尽管训练样本数量仅为原始 Orca 论文的1/10(相比原始论文大大降低了训练模型的成本和碳排放),但由此产生的 FreeWilly 模型在各种基准测试中表现出色,验证了他们采用合成数据集的方法的有效性。

性能数据

为了对这些模型进行内部评估,研究者使用了 EleutherAI 的 lm-eval-harness 基准,并加入了 AGIEval。

其中,lm-eval-harness 基准由 EleutherAI 非盈利人工智能研究实验室创建,前面提到的 HuggingFace Open LLM 排行榜背后运行的就是该基准,它会在 Hugging Face 计算集群的空闲周期中运行评估,并将结果存储在数据集中,然后在在线排行榜空间上显示。

AGIEval 则由微软创建,专门用于评估基础模型在「以人为本」(human-centric)的标准化考试中的表现,比如数学竞赛、律师资格考试。

在许多方面,两个 FreeWilly 模型表现都非常出色,包括复杂的推理、理解语言的微妙之处,以及回答涉及专业领域(如法律和数学问题)的复杂问题。

两个模型在 lm-eval-harness 基准上的评估结果如下(这些 FreeWilly 测试结果是由 Stability AI 研究人员来评估的):

二者在 AGIEval 基准上的表现如下(全部是0-shot):

此外,他们还在 GPT4ALL 基准上对两个模型进行了测试(全部是0-shot):

总体来看,这两个模型的性能表现都非常优秀,进一步缩小了与 ChatGPT 等顶级 AI 大模型的差距。想要获取模型的同学可以点击以下链接。

FreeWilly1:https://huggingface.co/stabilityai/FreeWilly1-Delta-SafeTensor

FreeWilly2:https://huggingface.co/stabilityai/FreeWilly2

从各方反应来看,FreeWilly 模型的出现给大家带来了一点小小的震撼,因为它们来得实在是太快了,毕竟 Llama2才刚刚推出3天,排行榜位置都没坐热。有位研究者表示,他最近刚做了眼科手术,一个星期没看新闻,但感觉自己已经昏迷了一年。所以,这是一段「不能眨眼」的时期。

不过,需要注意的是,虽然两个模型都是开放获取的,但和 Llama2不同,它们是以非商业许可的形式发布的,仅可用于研究目的。

然而,这样的做法引起了网友质疑。

对此,Stability AI的研究者回复说,这种情况(仅用于研究目的)只是暂时的,未来,FreeWilly 有望像 Llama2一样允许商用。

此外,也有人对测试采用的基准产生了质疑:

这也是当前一个比较棘手的问题。此前,Falcon 模型在 HuggingFace 排行榜上碾压 Llama 的事件备受争议,后来,该事件彻底反转,事实证明 Llama 并未被 Falcon 碾压,HuggingFace 也为此重写了排行榜代码。在大模型层出不穷的今天,如何有效地评估这些模型依然是一个值得讨论的问题。因此,对于这些登顶排行榜的模型,我们有必要保持更加谨慎的态度,等待更多的评测结果出炉。

参考链接:https://stability.ai/blog/freewilly-large-instruction-fine-tuned-models?utm_source=twitter&utm_medium=website&utm_campaign=announcement

最新快讯

2025年11月21日

21:00
2025年1月1日起,诺和诺德与礼来公司将正式面向企业客户供应备受瞩目的减肥药物Wegovy与Zepbound,这一合作将显著提升肥胖症治疗药物的可及性。通过深度整合企业健康福利计划,两大药企旨在精准对接日益增长的市场需求,为符合条件的肥胖症患者提供更便捷的用药渠道。此次供应合作将全面覆盖美国境内达成合作的企业,具体配送方案将由三方共同商议并高效执行,确保药...
21:00
2025年11月21日,广州国际车展盛大启幕之际,上汽奥迪携AUDI E SUV概念车震撼登场,为全球观众献上一场豪华纯电SUV的视觉盛宴。作为AUDI品牌继E5 Sportback后的又一力作,这款概念车完美诠释了品牌在电动化领域的创新精神与前瞻视野。其设计语言与E5 Sportback一脉相承,前脸部分延续标志性元素,同时融入更多未来感十足的细节。尤为引...
21:00
2025年11月21日,极氪智能科技控股有限公司正式发布重要公告,明确了普通股及美国存托股票(ADS)持有人选择合并对价形式的最终截止时间。公告详细说明了不同类型股东的选择提交期限:普通股持有人的选择材料提交截止日期为美国东部时间2025年12月5日下午5:00,而ADS登记持有人的截止日期则定于美国东部时间2025年12月3日下午5:00。公司特别强调,若...
21:00
2025年11月21日,农业农村部召开一场关乎国计民生的常务会议,重点审议通过了《关于加强产能综合调控促进生猪产业高质量发展的意见》。这一重要决策,标志着我国生猪产业将进入一个更加科学化、系统化的发展新阶段。会议指出,为保障猪肉市场稳定供应,必须强化生猪产能的综合调控机制。未来将根据市场动态,灵活调整全国能繁母猪的正常保有量目标,确保生产与市场需求始终保持在...
21:00
2025年11月21日,中国建材科技集团传来振奋人心的消息,其自主研发的半固态电池隔膜成功完成配方开发与上机验证,正式迈入电池循环测试的关键阶段。作为国内玻璃纤维、风电叶片及锂电池隔膜行业的领军企业,中材科技始终致力于技术创新与降本增效,通过提升生产设备效率、优化能源消耗结构以及大力推进国产化替代进程,已显著降低生产成本,为市场提供了更具性价比的产品。此次半...
21:00
辽宁成大控股旗下新疆宝明矿业有限公司近期陷入长期停产困境,引发市场广泛关注。这家位于新疆地区的企业主要从事页岩油资源开发业务,作为辽宁成大的重要子公司,其运营状况直接关系到集团整体业绩表现。然而,令人意外的是,新疆宝明矿业突然宣布全面停工,目前尚未恢复生产。 尽管公司方面尚未公开披露具体的停产原因,但业内分析认为,这可能与近期新疆地区能源行业政策调整、资源开...
21:00
2025年11月21日,备受市场关注的超卓航科发布重要公告,宣布公司控股股东及实际控制人李羿含、李光平、王春晓正积极筹划一项重大事项。据悉,该事项可能涉及公司控制权的潜在变更,引发资本市场的广泛关注。为严格遵守信息披露的公平原则,切实保障全体投资者的合法权益,公司股票自当日开市起正式实施停牌措施。目前,相关方案的具体细节仍在深入商议与论证阶段,但超卓航科承诺...
21:00
2025年11月21日,中国医药创新领域迎来重要合作里程碑。百诚医药与新兴生物技术公司众神创新正式宣布达成战略合作,就1类创新药BIOS-0629项目在大中华地区(涵盖中国大陆、香港、澳门及台湾地区)获得独家授权。双方同时签署了《技术开发合作协议》及关键补充协议,为该创新药物的研发与商业化奠定坚实基础。 根据协议条款,众神创新将依据明确的研发里程碑节点,分阶...
21:00
SpaceX在德克萨斯州进行的星舰V3版本“Booster 18”首级测试遭遇重大挫折,助推器在发射前发生灾难性事故。11月20日凌晨,当地时间4:04,也就是北京时间18:04,测试现场突然发生剧烈爆炸或结构坍塌,导致助推器下半部分完全损毁。根据现场流传的视频资料,事故核心区域——液氧储罐明显变形塌陷,火光冲天。此次测试原本旨在验证星舰V3版本重新设计的推...
21:00
2025年11月21日,酷比魔方携旗下旗舰二合一平板iWork GT Ultra震撼登陆海外市场,首发价格定为799.99欧元,折合人民币约6565元。这款平板不仅代表了酷比魔方在高端移动设备领域的最新成就,更以其强大的性能配置和丰富的功能特性,为全球用户带来了全新的移动办公与创作体验。 iWork GT Ultra搭载了英特尔酷睿Ultra 5 125H处...
21:00
2025年11月21日,恒瑞医药传来振奋人心的消息,其自主研发的9款创新药喜获国家药品监督管理局(NMPA)正式批准,获得药物临床试验批准通知书。这一重要里程碑标志着这些前沿药物即将正式进入临床试验阶段,为无数患者带来新的治疗希望。此次获批的产品线涵盖了多种类型,包括注射用SHR-9839(sc)、注射用SHR-A2009、注射用SHR-1826、HRS-4...
21:00
安琪酵母正式发布官方公告,宣布其俄罗斯子公司将启动一项重大产能扩张计划,拟投资人民币10.62亿元用于建设一条年产2.2万吨酵母生产线,同时计划同步增加注册资本。这一战略投资举措旨在进一步巩固公司在海外市场的生产布局,有效提升对全球酵母市场需求的响应能力。值得注意的是,该项目尚需经过公司股东会的最终审议以及相关政府部门的审批程序后方可正式实施。 此次投资的核...