AI自动生成Metal内核 PyTorch推理速度提升87%创纪录

在苹果设备上,AI 技术正掀起一场性能革命。根据 Gimlet Labs 最新发布的研究报告,AI 能够自动生成优化的 Metal 内核,将 PyTorch 推理速度提升至惊人的87%。这一突破性成果不仅大幅改善了性能表现,更在测试的215个 PyTorch 模块上实现了平均1.87倍的加速倍率,部分工作负载的速度甚至提升了数百倍。

研究人员精心挑选了来自Anthropic、DeepSeek和OpenAI等顶尖机构的八种AI模型,利用这些模型为苹果设备量身定制优化的GPU内核。这一创新过程无需修改用户代码或引入新框架,即可直接在苹果硬件上显著提升模型性能。实验中,研究团队采用搭载Apple M4Max芯片的Mac Studio作为测试平台,基准设置为PyTorch的eager模式。测试数据来自KernelBench数据集,涵盖215个PyTorch模块,内容从基础的矩阵乘法到复杂的完整模型架构,全面评估AI生成内核的性能。测试流程包括接收输入和PyTorch代码,自动生成Metal内核,并严格评估其正确性。数据显示,随着尝试次数的增加,AI生成内核的正确率逐步提升,第五次尝试时正确实现比例已达到94%。

令人惊喜的是,这些AI模型在生成内核时展现出跨层级的能力。尽管非推理模型有时也能生成有效内核,但实验结果表明,GPT-5模型在某些任务上实现了4.65倍的速度提升,而o3模型在某些情况下甚至将延迟降低了9000倍。研究还发现,单一模型并非万能,多个模型的组合能够生成更优的内核。为了进一步突破性能极限,研究者尝试引入额外上下文信息,如CUDA实现和gputrace的性能分析数据,结果显示这种方法在性能加速方面达到了平均1.87倍,比普通智能体的1.31倍提升了三倍。

AI自动生成Metal内核 PyTorch推理速度提升87%创纪录插图1

值得注意的是,研究人员强调,这项研究并非旨在追求最终的性能极限,而是验证AI在内核生成中的可行性,希望通过自动化流程减轻开发人员的负担。这一成果标志着AI技术在硬件优化领域迈出了重要一步,为未来更高效的计算性能打开了新的大门。

github:https://github.com/ScalingIntelligence/KernelBench/

划重点:
🌟 AI自动生成Metal内核,提升PyTorch推理速度87%。
⚡️在215个PyTorch模块上实现平均1.87倍的加速,部分工作负载速度提升数百倍。
🔍研究旨在验证AI在内核生成的可行性,助力硬件优化。

最新快讯

2026年01月14日

13:53
2026年1月14日,北京时间,全球知名科技巨头戴尔正式宣布了一项具有里程碑意义的战略决策——将于今年5月3日全面上线全新的统一企业级平台,开启公司发展史上规模空前的转型之旅。这一重大举措标志着戴尔在数字化浪潮中再次引领变革,为未来AI时代的业务发展奠定坚实基础。 首席运营官杰夫·克拉克在内部备忘录中详细阐述了此次转型的核心目标。他强调,名为"One Del...
13:53
据报道,阿里巴巴旗下AI应用千问上线仅两个月,月活跃用户数(MAU)已突破1亿大关,在学生和白领群体中呈现强劲增长势头。不过,截至发稿时阿里方面尚未对这一数据作出官方回应。千问App于2025年11月启动公测,这标志着阿里巴巴从B端企业服务向C端用户市场的战略转型进入实质阶段。作为阿里全力进军AI to C市场的核心产品,千问被寄予打造"AI时代未...
12:50
2025年12月,中国科学院紫金山天文台发布首个高精度数值月球时间历表产品LTE440,相关成果发表于《天文学和天体物理学》。该产品解决了月球与地球时间转换中长期存在的“精度低、计算繁、使用难”问题,实现月球时间可回溯。研究团队利用高精度天体轨道数据,使转换累积误差在千年尺度内不超过1/20000000秒,并开发了便于使用的软件包。目前,LTE440已在线...
12:50
2026年1月,英特尔新一代旗舰工作站处理器至强698X现身Geekbench数据库。该处理器拥有86核心172线程,配备336MB L3缓存,主频达4.6GHz,单核性能较前代显著提升。多核测试因核心数过高参考性有限未作对比。据悉,该系列代号为“Granite Rapids WS”的至强600系列预计于2026年第一季度发布,可能与酷睿Ultra 200...
12:50
2026年1月,在美国CES展会上,技嘉科技以“The World as Prompt”为主题,推出由AI驱动的沉浸式互动体验。参观者可生成专属AI数字分身作为“数字护照”,贯穿整个体验流程。该体验依托技嘉RTX 50系列笔记本电脑及智能AI助手GiMATE,展示人智交互的前沿应用,并凸显硬件设计对下一代AI性能的支持。活动高潮为AORUS MASTER ...
12:50
2026年1月14日,视觉中国与PureblueAI清蓝正式宣布达成战略合作,开启数字营销领域的新篇章。双方将聚焦于“数据供给+GEO营销的全链路服务”这一核心领域,通过深度协同,整合视觉内容资源与AI技术能力,共同打造面向AI时代的智能营销解决方案。这一合作不仅将显著提升品牌客户在数字营销中的效率与精准度,还将推动营销服务模式的创新与升级。 此次合作的具体...
12:50
2026年1月13日,第六批国家组织高值医用耗材集中带量采购在天津开标,涉及药物涂层球囊和泌尿介入类共12种耗材。联采办1月14日公示中选结果,202家企业440个产品入选,投标产品覆盖临床主流需求。此次集采共有227家企业参与,提交496个产品,中选率达88.7%。药物涂层球囊类32家企业全部中选,泌尿介入类195家企业投标,170家入选。具备特殊功能的...
12:50
2026年1月14日,娄底摩骑科技有限公司正式宣告成立,标志着美团在本地生活服务领域的又一重要布局。该公司法定代表人为孙可青,注册资本高达200万美元,彰显了其雄厚的资金实力和发展潜力。从经营范围来看,公司业务涵盖软件开发、网络与信息安全、信息技术咨询、互联网数据服务、企业管理及供应链管理服务等多个领域,展现了其在科技服务与本地生活服务领域的综合实力。 根据...
12:50
1月14日,淘宝网启动年终采购节,活动将持续至2月11日。此次采购节覆盖企业福利、生产加工、办公设备升级及个性定制等多类采购需求。年货礼盒低至8折,天猫超市企业购频道同步上线,部分商品采买低至5折。活动旨在为企业提供一站式年货采购解决方案,助力降本增效,满足春节前集中采购需求。
12:50
2026年1月14日,有色金属新材料生产商炯诚新材宣布完成A轮融资,投资方为湘投高创投。炯诚新材集碱式碳酸镍、氧化镍、氧化钴、碳酸钴、碳酸锂等产品的生产与销售于一体,致力于新能源材料领域发展。本轮融资将用于产能扩张、技术研发及市场拓展。此次融资有助于提升企业核心竞争力,加快在新材料领域的布局。
12:50
2026年1月上旬,随着海南自贸港全岛封关正式生效,离岛免税购物热潮蓬勃兴起。数据显示,当月离岛免税购物人数高达58.5万人次,消费总额达38.9亿元,同比分别激增32.4%和49.6%。这一数据充分印证了封关政策释放的巨大市场潜力,日均购物人数与金额均显著超越封关前水平,展现出海南自贸港强大的消费吸引力。 得益于持续优化的政策环境,海南免税商品品类已实现跨...
12:50
2026年1月14日,国内AI新药研发领域的领军企业Converge成功斩获2500万美元A轮融资,投资方阵容强大,包括知名风险投资机构BVP、TLV Partners,以及多位资深个人投资者。作为一家专注于人工智能赋能药物研发的创新型科技公司,Converge凭借其自主研发的尖端AI平台,正引领着全球药物研发领域的深刻变革。特别是在抗体药物研发领域,该公司...