声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:张倩,授权微新创想转载发布。

一眨眼,开源大模型又进步了。谷歌、OpenAI真的没有护城河?

「我就午休了30分,我们的领域又变了?」在看到最新的开源大模型排行榜后,一位 AI 领域的创业者发出了灵魂追问。

排行榜链接:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

上图红框中的「新秀」是来自 Stability AI 和 CarperAI lab 的两个大模型:FreeWilly1和 FreeWilly2。刚刚,它们超越了 Meta 三天前发布的 Llama-2-70b-hf,成功登顶 HuggingFace 的 Open LLM 排行榜榜首。

更引人注目的是,FreeWilly2在很多基准上还击败了 ChatGPT(GPT-3.5),成为首个真正可以和 GPT-3.5相抗衡的开源大模型,这是 Llama2都没有做到的事情。

FreeWilly1基于原始的 LLaMA65B 基础模型构建,并且在标准 Alpaca 格式下,使用新的合成数据集进行了仔细的有监督微调(SFT)。FreeWilly2则基于最新的 LLaMA270B 基础模型构建。

从 Stability AI 发布的博客中,我们可以看到这两个新模型的一些细节:

数据来源

FreeWilly 模型的训练方法直接受到了微软在其论文《Orca: Progressive Learning from Complex Explanation Traces of GPT-4》中首创的方法的启发。虽然 FreeWilly 的数据生成过程与之相似,但二者在数据来源方面存在差异。

FreeWilly 的数据集包含了60万个数据点(大约是原始 Orca 论文使用的数据集大小的10%),它是通过以下由 Enrico Shippole 创建的高质量指令数据集来启发语言模型生成的:

  • COT Submix Original

  • NIV2Submix Original

  • FLAN2021Submix Original

  • T0Submix Original

采用这种方法,研究者使用了一个较简单的 LLM 模型生成了50万个示例,并使用一个更复杂的 LLM 模型生成了额外的10万个示例。为了确保公平比较,他们仔细筛选了这些数据集,并删除了来源于评估基准测试的示例。尽管训练样本数量仅为原始 Orca 论文的1/10(相比原始论文大大降低了训练模型的成本和碳排放),但由此产生的 FreeWilly 模型在各种基准测试中表现出色,验证了他们采用合成数据集的方法的有效性。

性能数据

为了对这些模型进行内部评估,研究者使用了 EleutherAI 的 lm-eval-harness 基准,并加入了 AGIEval。

其中,lm-eval-harness 基准由 EleutherAI 非盈利人工智能研究实验室创建,前面提到的 HuggingFace Open LLM 排行榜背后运行的就是该基准,它会在 Hugging Face 计算集群的空闲周期中运行评估,并将结果存储在数据集中,然后在在线排行榜空间上显示。

AGIEval 则由微软创建,专门用于评估基础模型在「以人为本」(human-centric)的标准化考试中的表现,比如数学竞赛、律师资格考试。

在许多方面,两个 FreeWilly 模型表现都非常出色,包括复杂的推理、理解语言的微妙之处,以及回答涉及专业领域(如法律和数学问题)的复杂问题。

两个模型在 lm-eval-harness 基准上的评估结果如下(这些 FreeWilly 测试结果是由 Stability AI 研究人员来评估的):

二者在 AGIEval 基准上的表现如下(全部是0-shot):

此外,他们还在 GPT4ALL 基准上对两个模型进行了测试(全部是0-shot):

总体来看,这两个模型的性能表现都非常优秀,进一步缩小了与 ChatGPT 等顶级 AI 大模型的差距。想要获取模型的同学可以点击以下链接。

FreeWilly1:https://huggingface.co/stabilityai/FreeWilly1-Delta-SafeTensor

FreeWilly2:https://huggingface.co/stabilityai/FreeWilly2

从各方反应来看,FreeWilly 模型的出现给大家带来了一点小小的震撼,因为它们来得实在是太快了,毕竟 Llama2才刚刚推出3天,排行榜位置都没坐热。有位研究者表示,他最近刚做了眼科手术,一个星期没看新闻,但感觉自己已经昏迷了一年。所以,这是一段「不能眨眼」的时期。

不过,需要注意的是,虽然两个模型都是开放获取的,但和 Llama2不同,它们是以非商业许可的形式发布的,仅可用于研究目的。

然而,这样的做法引起了网友质疑。

对此,Stability AI的研究者回复说,这种情况(仅用于研究目的)只是暂时的,未来,FreeWilly 有望像 Llama2一样允许商用。

此外,也有人对测试采用的基准产生了质疑:

这也是当前一个比较棘手的问题。此前,Falcon 模型在 HuggingFace 排行榜上碾压 Llama 的事件备受争议,后来,该事件彻底反转,事实证明 Llama 并未被 Falcon 碾压,HuggingFace 也为此重写了排行榜代码。在大模型层出不穷的今天,如何有效地评估这些模型依然是一个值得讨论的问题。因此,对于这些登顶排行榜的模型,我们有必要保持更加谨慎的态度,等待更多的评测结果出炉。

参考链接:https://stability.ai/blog/freewilly-large-instruction-fine-tuned-models?utm_source=twitter&utm_medium=website&utm_campaign=announcement

最新快讯

2025年10月03日

01:37
2025年10月3日,科技巨头Meta正式宣布在其热门社交应用Threads中推出备受期待的社群功能测试版。这一重要更新将率先面向篮球迷关注的NBA/WNBA、备受青睐的电视节目以及风靡全球的韩流(KPOP)等核心兴趣领域开放。用户将有机会加入这些特定主题的社群,与志同道合的伙伴展开深度讨论,并分享彼此感兴趣的内容。Meta此举的核心目标在于通过社群功能显著...
00:03
摩根士丹利最新发布的权威报告揭示了一个令人振奋的市场信号:苹果iPhone 17及Pro系列的需求表现远超预期,供应链数据也呈现出强劲的出货态势。分析师Erik Woodring基于详实的Apple Store发货周期追踪和供应链反馈指出,iPhone 17、17 Pro和17 Pro Max在初期市场反响热烈,其强劲的需求势头已促使苹果公司调整生产计划,预...

2025年10月02日

23:30
据游戏媒体Insider Gaming独家披露的内部文件显示,索尼互娱正酝酿一项重大战略调整,计划逐步缩减PS4游戏机的部分在线服务功能。文件内容揭示,自2026年春季起,所有新提交的PS4游戏将不再支持包括活动流Web API、用户存储、共享媒体在内的六项旧版PSN功能。这一决策的核心目标是为不同世代的主机用户构建更为统一的服务平台,从而优化整体用户体验。...
23:00
2025年10月2日,全球外卖市场迎来重磅消息美国科技巨头DoorDash正式宣布完成对英国头部外卖平台Deliveroo的收购这一交易在伦敦证券交易所完成,总金额高达数十亿美元,堪称行业并购史上的里程碑事件。作为全球最大的外卖服务平台,DoorDash通过此次战略性收购,不仅将业务版图拓展至欧洲核心市场,更在关键区域实现了市场份额的显著提升。值得注意的是,...
23:00
截至2025年10月2日,国庆档期累计票房(含预售)已强势突破7亿元大关,这一亮眼成绩不仅彰显了观众的观影热情,更凸显了电影市场的蓬勃活力。今年国庆档期从10月1日持续至10月8日,期间多部备受期待的新片集中上映,引发了观影热潮,各大影院场场爆满,座无虚席。这一票房佳绩充分反映了观众对优质内容的强烈渴求,也标志着电影市场迈入了一个重要增长节点,预示着未来电影...
23:00
10月2日,正值国庆假期第二天,全国道路交通流量虽较首日有所回落,但整体仍处于高位运行状态。特别是长三角、珠三角等经济发达区域,路网压力持续增大,部分城市出城通道、城郊路段以及热门旅游景区周边道路出现明显拥堵排队现象,严重影响出行效率。针对当前交通态势,公安部交通管理局已紧急部署专项疏导方案,通过增派警力、优化信号灯配时、实时发布路况信息等措施,全力保障群众...
23:00
10月2日,广东省迎来旅游小高峰,全省4A级及以上景区共接待游客461.5万人次,展现出强劲的旅游市场活力。当日,广州长隆、深圳欢乐谷、清远英西峰林等热门景区客流集中,各地文旅部门提前部署,通过增派安保力量、优化交通疏导、增设应急服务点等措施,全力保障游客游览体验与安全。这一数据不仅印证了民众出行需求的持续释放,更凸显了文旅市场强劲复苏的积极态势,为全年旅游...
23:00
苹果iPad用户们,一个令人振奋的消息即将改变您的创作体验——Affinity 2系列图像编辑工具今日正式开启限时免费活动!这款备受业界赞誉的专业级应用套件,包含三款核心工具,现可通过内购方式永久免费获取授权,让您彻底摆脱订阅束缚,畅享无限创作可能。 Affinity Photo 2堪称移动端Photoshop的完美替代品,它不仅继承了桌面级照片编辑的强大功...
23:00
最新消息显示,三星即将推出的Galaxy S26 Ultra将搭载一项突破性的隐私保护功能,该功能能够在用户进入电梯、公交车、地铁等公共场合时自动激活,有效防止屏幕内容被窥视,为用户隐私提供全方位守护。这一创新功能的核心亮点在于其智能检测机制,用户可以根据实际需求调整检测强度,同时支持自定义排除项,例如锁屏验证方式、特定图片、通知内容或画中画窗口,确保在保护...
23:00
宾利正式官宣旗下顶级双门跑车欧陆GT Supersport将强势回归,为所有极致性能追求者献上旗舰级驾驶盛宴。这一标志性车型曾因品牌战略转向插电混动技术而暂时搁置,但面对全球车迷对纯粹机械性能的执着热爱,宾利最终决定重启这一传奇项目。新车由宾利摩斯港(Motorsport)部门倾力打造,通过全面优化底盘结构、悬挂系统与制动性能,更配备主动式扰流板与精密进气设...
23:00
2025年10月2日,迪士尼集团正式宣布一项具有里程碑意义的战略决策——Hulu将全面接替Star,成为Disney+平台的全球综合娱乐品牌。这一重大调整不仅标志着迪士尼在全球流媒体市场版图的一次深刻变革,更体现了其统一内容品牌标识、优化用户体验的长期愿景。据悉,此前作为迪士尼国际内容品牌的主力军Star,主要聚焦于面向成年观众的高质量影视作品。然而随着Hu...
21:58
微新创想10月2日讯 特斯拉近日发布了2025年第三季度的交付报告,最终交付量高达497,099辆,这一数字远超市场此前预测的439,612辆,展现出强劲的市场表现。从车型分布来看,Model 3和Model Y作为特斯拉的核心产品,继续引领交付量,第三季度累计交付481,166辆,占总交付量的96.8%。其中Model 3/Y的产量达到435,826辆,显...