AI自动生成Metal内核 PyTorch推理速度提升87%创纪录

2025-09-05 09:28:12 AI动态 35 次阅读

在苹果设备上，AI 技术正掀起一场性能革命。根据 Gimlet Labs 最新发布的研究报告，AI 能够自动生成优化的 Metal 内核，将 PyTorch 推理速度提升至惊人的87%。这一突破性成果不仅大幅改善了性能表现，更在测试的215个 PyTorch 模块上实现了平均1.87倍的加速倍率，部分工作负载的速度甚至提升了数百倍。

研究人员精心挑选了来自Anthropic、DeepSeek和OpenAI等顶尖机构的八种AI模型，利用这些模型为苹果设备量身定制优化的GPU内核。这一创新过程无需修改用户代码或引入新框架，即可直接在苹果硬件上显著提升模型性能。实验中，研究团队采用搭载Apple M4Max芯片的Mac Studio作为测试平台，基准设置为PyTorch的eager模式。测试数据来自KernelBench数据集，涵盖215个PyTorch模块，内容从基础的矩阵乘法到复杂的完整模型架构，全面评估AI生成内核的性能。测试流程包括接收输入和PyTorch代码，自动生成Metal内核，并严格评估其正确性。数据显示，随着尝试次数的增加，AI生成内核的正确率逐步提升，第五次尝试时正确实现比例已达到94%。

令人惊喜的是，这些AI模型在生成内核时展现出跨层级的能力。尽管非推理模型有时也能生成有效内核，但实验结果表明，GPT-5模型在某些任务上实现了4.65倍的速度提升，而o3模型在某些情况下甚至将延迟降低了9000倍。研究还发现，单一模型并非万能，多个模型的组合能够生成更优的内核。为了进一步突破性能极限，研究者尝试引入额外上下文信息，如CUDA实现和gputrace的性能分析数据，结果显示这种方法在性能加速方面达到了平均1.87倍，比普通智能体的1.31倍提升了三倍。

值得注意的是，研究人员强调，这项研究并非旨在追求最终的性能极限，而是验证AI在内核生成中的可行性，希望通过自动化流程减轻开发人员的负担。这一成果标志着AI技术在硬件优化领域迈出了重要一步，为未来更高效的计算性能打开了新的大门。

github:https://github.com/ScalingIntelligence/KernelBench/

划重点:
🌟 AI自动生成Metal内核，提升PyTorch推理速度87%。
⚡️在215个PyTorch模块上实现平均1.87倍的加速，部分工作负载速度提升数百倍。
🔍研究旨在验证AI在内核生成的可行性，助力硬件优化。

2026年03月05日

19:04

AI自动生成Metal内核 PyTorch推理速度提升87%创纪录

最新快讯

2026年03月05日

《Weyrdlets》将于3月17日转为付费游戏

广汽丰田加速新能源车型本土化，铂智7将搭载鸿蒙座舱

中国AI模型周调用量超美国，Token成电力新指标

*ST松发下属公司签4艘VLCC建造合同

《杀戮尖塔2》3月6日凌晨2点Steam抢先体验开启

广和通MWC2026首发PC1级双平台模组支持3Tx8RxL4S技术提升性能与覆盖

B站2025年实现全年盈利日活达1.13亿创里程碑

江苏永联村实现全国首个5G-A全域覆盖助力乡村数智化转型

养和医疗联合中国人寿海外推出高端健康管理服务

TÜV莱茵完成对北美咨询机构QSG整合深化本地化服务战略

爱立信ARRP技术斩获GTI年度创新突破奖提升5G网络效率与服务响应能力

阿里巴巴全资收购瓴通智能杭州成立新公司布局智能科技领域