声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:张倩,授权微新创想转载发布。

一眨眼,开源大模型又进步了。谷歌、OpenAI真的没有护城河?

「我就午休了30分,我们的领域又变了?」在看到最新的开源大模型排行榜后,一位 AI 领域的创业者发出了灵魂追问。

排行榜链接:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

上图红框中的「新秀」是来自 Stability AI 和 CarperAI lab 的两个大模型:FreeWilly1和 FreeWilly2。刚刚,它们超越了 Meta 三天前发布的 Llama-2-70b-hf,成功登顶 HuggingFace 的 Open LLM 排行榜榜首。

更引人注目的是,FreeWilly2在很多基准上还击败了 ChatGPT(GPT-3.5),成为首个真正可以和 GPT-3.5相抗衡的开源大模型,这是 Llama2都没有做到的事情。

FreeWilly1基于原始的 LLaMA65B 基础模型构建,并且在标准 Alpaca 格式下,使用新的合成数据集进行了仔细的有监督微调(SFT)。FreeWilly2则基于最新的 LLaMA270B 基础模型构建。

从 Stability AI 发布的博客中,我们可以看到这两个新模型的一些细节:

数据来源

FreeWilly 模型的训练方法直接受到了微软在其论文《Orca: Progressive Learning from Complex Explanation Traces of GPT-4》中首创的方法的启发。虽然 FreeWilly 的数据生成过程与之相似,但二者在数据来源方面存在差异。

FreeWilly 的数据集包含了60万个数据点(大约是原始 Orca 论文使用的数据集大小的10%),它是通过以下由 Enrico Shippole 创建的高质量指令数据集来启发语言模型生成的:

  • COT Submix Original

  • NIV2Submix Original

  • FLAN2021Submix Original

  • T0Submix Original

采用这种方法,研究者使用了一个较简单的 LLM 模型生成了50万个示例,并使用一个更复杂的 LLM 模型生成了额外的10万个示例。为了确保公平比较,他们仔细筛选了这些数据集,并删除了来源于评估基准测试的示例。尽管训练样本数量仅为原始 Orca 论文的1/10(相比原始论文大大降低了训练模型的成本和碳排放),但由此产生的 FreeWilly 模型在各种基准测试中表现出色,验证了他们采用合成数据集的方法的有效性。

性能数据

为了对这些模型进行内部评估,研究者使用了 EleutherAI 的 lm-eval-harness 基准,并加入了 AGIEval。

其中,lm-eval-harness 基准由 EleutherAI 非盈利人工智能研究实验室创建,前面提到的 HuggingFace Open LLM 排行榜背后运行的就是该基准,它会在 Hugging Face 计算集群的空闲周期中运行评估,并将结果存储在数据集中,然后在在线排行榜空间上显示。

AGIEval 则由微软创建,专门用于评估基础模型在「以人为本」(human-centric)的标准化考试中的表现,比如数学竞赛、律师资格考试。

在许多方面,两个 FreeWilly 模型表现都非常出色,包括复杂的推理、理解语言的微妙之处,以及回答涉及专业领域(如法律和数学问题)的复杂问题。

两个模型在 lm-eval-harness 基准上的评估结果如下(这些 FreeWilly 测试结果是由 Stability AI 研究人员来评估的):

二者在 AGIEval 基准上的表现如下(全部是0-shot):

此外,他们还在 GPT4ALL 基准上对两个模型进行了测试(全部是0-shot):

总体来看,这两个模型的性能表现都非常优秀,进一步缩小了与 ChatGPT 等顶级 AI 大模型的差距。想要获取模型的同学可以点击以下链接。

FreeWilly1:https://huggingface.co/stabilityai/FreeWilly1-Delta-SafeTensor

FreeWilly2:https://huggingface.co/stabilityai/FreeWilly2

从各方反应来看,FreeWilly 模型的出现给大家带来了一点小小的震撼,因为它们来得实在是太快了,毕竟 Llama2才刚刚推出3天,排行榜位置都没坐热。有位研究者表示,他最近刚做了眼科手术,一个星期没看新闻,但感觉自己已经昏迷了一年。所以,这是一段「不能眨眼」的时期。

不过,需要注意的是,虽然两个模型都是开放获取的,但和 Llama2不同,它们是以非商业许可的形式发布的,仅可用于研究目的。

然而,这样的做法引起了网友质疑。

对此,Stability AI的研究者回复说,这种情况(仅用于研究目的)只是暂时的,未来,FreeWilly 有望像 Llama2一样允许商用。

此外,也有人对测试采用的基准产生了质疑:

这也是当前一个比较棘手的问题。此前,Falcon 模型在 HuggingFace 排行榜上碾压 Llama 的事件备受争议,后来,该事件彻底反转,事实证明 Llama 并未被 Falcon 碾压,HuggingFace 也为此重写了排行榜代码。在大模型层出不穷的今天,如何有效地评估这些模型依然是一个值得讨论的问题。因此,对于这些登顶排行榜的模型,我们有必要保持更加谨慎的态度,等待更多的评测结果出炉。

参考链接:https://stability.ai/blog/freewilly-large-instruction-fine-tuned-models?utm_source=twitter&utm_medium=website&utm_campaign=announcement

最新快讯

2026年02月11日

05:34
微新创想:2026年2月11日,黑石集团宣布投资2亿美元参与人工智能公司Anthropic新一轮融资。据知情人士透露,按3500亿美元估值计算,黑石对Anthropic的持股总规模升至约10亿美元。这表明黑石集团对Anthropic的技术实力和未来发展前景充满信心。 Anthropic总部位于美国旧金山,专注于开发Claude系列大语言模型。公司自成立以来,...
05:34
微新创想:2月11日凌晨4时44分,斐济群岛地区发生了一次6.2级左右的地震。根据中国地震台网的自动测定,此次地震的震中位于南纬20.99度,西经178.42度。地震的震源深度属于深源,这意味着地震能量释放的位置较深,通常对地表的影响相对较小。 此次地震发生后,相关部门迅速进行了监测和评估。目前尚未发布海啸预警,表明地震可能不会引发大规模的海啸灾害。同时,地...
04:29
微新创想:2026年2月11日,阿布扎比投资机构MGX据称正接近参与人工智能公司Anthropic的新一轮融资。该交易涉及阿联酋阿布扎比与美国加州(Anthropic总部所在地)之间的资本合作。MGX与Anthropic的合作将有助于推动中东地区在全球人工智能领域中的影响力。 此次投资被认为是对Anthropic现有业务模式的重要补充。Anthropic作为...
02:56
微新创想:2026年2月11日 美国科技巨头Alphabet在欧洲市场完成债券发售 累计募资110亿美元 此举使其2026年以来全球债券发行总额达300.1亿美元 发债地点为欧洲主要金融中心 发行主体为Alphabet Inc. 资金将用于一般公司用途 包括回购股票 偿还到期债务及营运资本补充 此次发债反映其在低利率环境下优化资本结构的战略意图 亦显示国际投...
01:51
微新创想:2026年2月11日 特斯拉宣布任命现任欧洲、中东和非洲区副总裁乔·沃德接任全球销售业务负责人 此次调整自即日起生效 公司表示此举旨在整合区域销售资源 强化全球市场协同与交付效率 乔·沃德自2019年起在特斯拉任职 历任英国 德国等多国销售高管 具备丰富的国际市场管理经验 公司强调此次任命不涉及组织架构大规模变动 原有区域销售团队保持稳定运行 以确...
00:13
微新创想:2026年2月10日,吉利银河全新插混SUV M7在意大利米兰正式亮相。该车为银河L7中期改款车型,车身加长60mm,风阻系数优化至0.27cd。采用“飞檐虎视”前脸、“旭日东升”尾灯等东方美学设计,彰显出中国智造的独特魅力。 搭载EM-i插混系统,该车型提供两种电池版本,纯电续航最高可达225km。满油满电综合续航达到1730km,大幅提升了用户...
00:13
微新创想:2026年2月,奥迪在中国市场启动入华以来规模最大的产品攻势,全年将推出8款全新及改款车型。此次布局覆盖燃油、插混、纯电三大动力形式,涵盖Q5L、A6L、A6L e-tron及纯电车型E7X等重点车型。 微新创想:行动旨在应对豪华车市场电动化转型趋势,延续油电并进策略,依托PPC燃油平台与PPE纯电平台,强化本土化智能座舱与驾驶辅助系统适配。 微新...
00:13
微新创想:据Insider Gaming编辑Tom Henderson在2月7日的播客中透露,R星可能在2026年8月初以“无预告突袭”的方式发布《GTA6》第三支预告片。这一举动不仅是为了吸引玩家关注,更旨在配合Take-Two当季的财报电话会议,通过预告片强化投资者对游戏未来的期待。 R星一直以来都以高调且富有创意的营销策略著称。此次选择在财报会议上发布...
00:13
微新创想:2026年2月10日 卡普空《生化危机5》Xbox Series版现身ESRB官网 标注含“内购”内容 暗示为完整重制版 2026年2月10日 卡普空宣布《生化危机5》Xbox Series版已出现在ESRB官网 并标注了“内购”内容 这一举动引发了玩家对游戏版本的猜测 认为可能是完整重制版 虽未列PS5版 但索尼定于2月13日举行State of...

2026年02月10日

23:12
微新创想:2026年2月10日,深圳第零智能科技股份有限公司正式向香港交易所递交上市申请。公司注册地及运营主体位于广东深圳,拟通过首次公开发行股票募集发展资金。本次IPO由民银资本独家保荐。 递表标志着该公司迈出港股上市关键一步,旨在拓展资本市场融资渠道,支持其在智能硬件与AI终端领域的研发及商业化进程。作为一家专注于智能硬件与AI终端技术的企业,第零智能近...
23:12
微新创想:2026年2月10日,摩根大通策略师Dubravko Lakos-Bujas团队指出,市场对AI短期颠覆软件行业的担忧不切实际,软件股正迎来反弹契机 该行认为,近期无差别抛售已导致板块估值处于历史低位,叠加持仓出清、悲观情绪过度及基本面稳健,风险平衡转向上行 建议投资者增配高质量、抗AI颠覆能力强的软件股 此次调整源于市场担忧AI工具冲击传统Saa...
23:12
微新创想:2026年2月10日,谷歌在美国正式推出升级版隐私搜索结果管理功能。这一更新旨在进一步增强用户对个人隐私的控制能力,让用户能够更方便地管理网络上的个人信息。 用户可以通过“关于你的搜索结果”页面,提交驾照、护照号、社安号(SSN)等敏感信息。系统会自动扫描互联网,查找包含这些信息的网页链接,并通知用户。用户可以申请移除对应的搜索结果,从而减少个人信...