声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:张倩,授权微新创想转载发布。

一眨眼,开源大模型又进步了。谷歌、OpenAI真的没有护城河?

「我就午休了30分,我们的领域又变了?」在看到最新的开源大模型排行榜后,一位 AI 领域的创业者发出了灵魂追问。

排行榜链接:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

上图红框中的「新秀」是来自 Stability AI 和 CarperAI lab 的两个大模型:FreeWilly1和 FreeWilly2。刚刚,它们超越了 Meta 三天前发布的 Llama-2-70b-hf,成功登顶 HuggingFace 的 Open LLM 排行榜榜首。

更引人注目的是,FreeWilly2在很多基准上还击败了 ChatGPT(GPT-3.5),成为首个真正可以和 GPT-3.5相抗衡的开源大模型,这是 Llama2都没有做到的事情。

FreeWilly1基于原始的 LLaMA65B 基础模型构建,并且在标准 Alpaca 格式下,使用新的合成数据集进行了仔细的有监督微调(SFT)。FreeWilly2则基于最新的 LLaMA270B 基础模型构建。

从 Stability AI 发布的博客中,我们可以看到这两个新模型的一些细节:

数据来源

FreeWilly 模型的训练方法直接受到了微软在其论文《Orca: Progressive Learning from Complex Explanation Traces of GPT-4》中首创的方法的启发。虽然 FreeWilly 的数据生成过程与之相似,但二者在数据来源方面存在差异。

FreeWilly 的数据集包含了60万个数据点(大约是原始 Orca 论文使用的数据集大小的10%),它是通过以下由 Enrico Shippole 创建的高质量指令数据集来启发语言模型生成的:

  • COT Submix Original

  • NIV2Submix Original

  • FLAN2021Submix Original

  • T0Submix Original

采用这种方法,研究者使用了一个较简单的 LLM 模型生成了50万个示例,并使用一个更复杂的 LLM 模型生成了额外的10万个示例。为了确保公平比较,他们仔细筛选了这些数据集,并删除了来源于评估基准测试的示例。尽管训练样本数量仅为原始 Orca 论文的1/10(相比原始论文大大降低了训练模型的成本和碳排放),但由此产生的 FreeWilly 模型在各种基准测试中表现出色,验证了他们采用合成数据集的方法的有效性。

性能数据

为了对这些模型进行内部评估,研究者使用了 EleutherAI 的 lm-eval-harness 基准,并加入了 AGIEval。

其中,lm-eval-harness 基准由 EleutherAI 非盈利人工智能研究实验室创建,前面提到的 HuggingFace Open LLM 排行榜背后运行的就是该基准,它会在 Hugging Face 计算集群的空闲周期中运行评估,并将结果存储在数据集中,然后在在线排行榜空间上显示。

AGIEval 则由微软创建,专门用于评估基础模型在「以人为本」(human-centric)的标准化考试中的表现,比如数学竞赛、律师资格考试。

在许多方面,两个 FreeWilly 模型表现都非常出色,包括复杂的推理、理解语言的微妙之处,以及回答涉及专业领域(如法律和数学问题)的复杂问题。

两个模型在 lm-eval-harness 基准上的评估结果如下(这些 FreeWilly 测试结果是由 Stability AI 研究人员来评估的):

二者在 AGIEval 基准上的表现如下(全部是0-shot):

此外,他们还在 GPT4ALL 基准上对两个模型进行了测试(全部是0-shot):

总体来看,这两个模型的性能表现都非常优秀,进一步缩小了与 ChatGPT 等顶级 AI 大模型的差距。想要获取模型的同学可以点击以下链接。

FreeWilly1:https://huggingface.co/stabilityai/FreeWilly1-Delta-SafeTensor

FreeWilly2:https://huggingface.co/stabilityai/FreeWilly2

从各方反应来看,FreeWilly 模型的出现给大家带来了一点小小的震撼,因为它们来得实在是太快了,毕竟 Llama2才刚刚推出3天,排行榜位置都没坐热。有位研究者表示,他最近刚做了眼科手术,一个星期没看新闻,但感觉自己已经昏迷了一年。所以,这是一段「不能眨眼」的时期。

不过,需要注意的是,虽然两个模型都是开放获取的,但和 Llama2不同,它们是以非商业许可的形式发布的,仅可用于研究目的。

然而,这样的做法引起了网友质疑。

对此,Stability AI的研究者回复说,这种情况(仅用于研究目的)只是暂时的,未来,FreeWilly 有望像 Llama2一样允许商用。

此外,也有人对测试采用的基准产生了质疑:

这也是当前一个比较棘手的问题。此前,Falcon 模型在 HuggingFace 排行榜上碾压 Llama 的事件备受争议,后来,该事件彻底反转,事实证明 Llama 并未被 Falcon 碾压,HuggingFace 也为此重写了排行榜代码。在大模型层出不穷的今天,如何有效地评估这些模型依然是一个值得讨论的问题。因此,对于这些登顶排行榜的模型,我们有必要保持更加谨慎的态度,等待更多的评测结果出炉。

参考链接:https://stability.ai/blog/freewilly-large-instruction-fine-tuned-models?utm_source=twitter&utm_medium=website&utm_campaign=announcement

最新快讯

2025年08月04日

20:39
微新创想8月4日电 一场突如其来的意外,一次与死神赛跑的救援,近日在川蜀大地上演了感人至深的一幕。据媒体报道,7月29日四川广元,一名9岁男孩在玩耍时不慎被养殖娃娃鱼咬断左手小指,危急时刻,在铁路部门、医疗团队及社会各界的紧急协作下,通过高铁绿色通道,成功实现5小时内断指再植的医学奇迹。 据悉,这起意外发生在四川广元某养殖场。当时男孩正在养殖池边玩耍,突然...
20:39
微新创想8月4日重磅消息,小米正式宣布米家空调Pro系列迎来全链路OTA升级,为用户带来更智能便捷的家居体验。此次升级聚焦于两大核心功能——空气管理和智能气流联动,全面覆盖米家空调Pro系列产品,让家庭空气管理进入全新阶段。 空气管理功能实现跨设备智能联动,用户只需在米家APP一键开启全屋空气管理模式。当室内空气质量监测系统检测到PM2.5、甲醛等指标超标时...
20:39
2025年8月4日,资本市场迎来多家公司的重要公告,引发投资者广泛关注。上纬新材宣布,经过严格的核查工作,公司将于8月5日正式复牌,恢复交易。然而,公司也同时披露了业绩方面的挑战,预计2025年上半年净利润将同比大幅减少32.91%,显示出当前市场环境对公司经营带来的压力。 隆扬电子在公告中透露,其研发的HVLP铜箔相关产品目前仍处于客户验证阶段,尚未实现销...
20:39
2025年8月4日,禾信仪器(股票代码688622)正式发布其2025年半年财务报告,数据显示公司上半年营业收入仅为5281.57万元,与去年同期相比大幅下滑48.88%。更为严峻的是,公司净利润出现亏损,亏损额高达1745.96万元。这一业绩表现明显反映出市场环境的深刻调整以及下游行业投资节奏的明显放缓,多重因素叠加导致公司经营业绩面临严峻挑战。从行业周期...
20:39
8月4日,中国无人驾驶出行企业萝卜快跑正式宣布与美国领先的出行平台Lyft达成深度战略合作,双方将携手在欧洲市场拓展无人驾驶出行服务。根据合作协议,萝卜快跑将借助Lyft成熟的欧洲运营网络,在欧洲多国提供自动驾驶出租车服务,标志着中国智能出行技术首次大规模进入欧美主流市场。 此次合作被视为全球无人驾驶领域的重要里程碑。萝卜快跑CEO张文表示:"与Lyft的合...
20:39
2025年8月4日,中电环保(股票代码300172)正式发布其2025年半年度财务报告。报告数据显示,公司在上半年的营业收入总额为3.15亿元,相较去年同期出现了10.7%的下降。然而,在营收下滑的背景下,归母净利润却实现了5393.68万元的同比增长,增幅达到2.87%。这一看似矛盾的经营结果,背后主要得益于公司有效的成本控制策略和显著提升的运营效率。 ...
20:39
2025年8月4日,全球化工巨头科慕、杜邦和科迪华联合宣布与美国新泽西州达成一项历史性和解协议,正式解决长期存在的PFAS污染指控及其他环境纠纷。根据该协议条款,三家公司将在未来25年内分阶段向新泽西州政府支付总额高达8.75亿美元的赔偿金,其中科慕承担50%的份额即4.375亿美元,杜邦承担35.5%即3.1125亿美元,科迪华则承担14.5%即1.262...
20:39
2024年,ST宁科(股票代码600165.SH)的股价遭遇重挫,全年累计下跌28.11%。然而,令人瞠目结舌的是,公司时任首席财务官董春香的个人薪酬却实现了惊人飞跃,从2023年的12.18万元飙升至45.10万元,涨幅高达270.28%。这一反差巨大的薪酬增长,与公司同期急剧恶化的经营状况形成了鲜明对比,迅速引发了市场的广泛关注和质疑。 在董春香执掌财务...
20:39
2024年,北方导航的财务总监周静薪酬高达172.48万元,同比暴涨117.94%,这一惊人涨幅与公司业绩形成鲜明对比。尽管公司股价全年重挫16.87%,营收和净利润分别大幅下滑22.91%和69.29%,周静的薪酬却逆势飙升。这一现象引发了市场对上市公司高管薪酬与公司业绩关联性的广泛关注。 周静拥有深厚的军工央企管理背景,自2018年起便担任北方导航的CF...
20:05
微新创想8月4日电 经典电影《汉江怪物》为韩国著名汉江增添了神秘传奇色彩,而近日一则关于汉江现“真怪物”的视频再次将这条江推上风口浪尖。一位韩国网友在首尔国会大厦附近一处停车场夜钓时,意外拍下了一段令人震惊的视频,画面中汉江水面漂浮着一个巨大的黑色不明物体。据拍摄者描述,该黑色物体体长估计在6至10米之间,粗壮程度远超人体,且其形态在夜色中显得格外诡异。这...
20:05
2025年8月,金融监管总局正式公布对“明天系”旗下华夏人寿及相关责任人的最终处罚决定,这一举措标志着备受关注的保险机构风险处置工作已全面落锤收官。自2020年华夏人寿被依法接管以来,监管机构对这一风险事件展开了系统性治理,最终形成了一整套完整的处罚方案。 在责任追究方面,监管机构共对华夏人寿、天安人寿、天安财险、易安财险及华夏久盈资管等机构的相关责任人处以...
20:05
2025年8月3日,三一重工正式对外发布重要公告,披露了其近期积极的资本运作策略。根据公告内容,截至7月底,公司已累计投入13.55亿元人民币,成功回购7267.92万股流通股份,占公司总股本的0.86%。此次回购行动的价格区间设定在每股17.39元至19.39元之间,充分体现了公司对自身发展前景的坚定信心。 此次回购计划是基于4月份审议通过的专项议案实施的...