英特尔于12月8日发布重大技术突破,宣布将革命性AutoRound算法成功集成至LLM Compressor平台,旨在全面提升大语言模型在低比特量化场景下的性能表现。这一创新技术通过引入可训练参数与符号梯度下降法双重优化机制,实现了在维持模型精度的同时大幅提升推理效率,并全面支持W4A16、FP8等前沿数据格式。
AutoRound算法展现出卓越的跨平台兼容性,能够无缝适配英特尔Xeon处理器、Gaudi加速器、数据中心GPU以及CUDA生态GPU等多样化硬件环境。值得注意的是,英特尔未来推出的”Crescent Island”系列GPU将原生支持相关量化格式,进一步巩固其在AI计算领域的领先地位。目前该方案已成功适配Llama、Qwen等主流大语言模型,用户仅需通过百步调优即可轻松部署于vLLM框架,且无任何额外推理开销。
英特尔表示,该技术将逐步扩展至MoE(Mixture of Experts)模型与混合比特搜索领域,致力于构建更加完善的多策略压缩体系。通过这一系列创新举措,英特尔正推动大语言模型在资源受限场景下的应用边界,为AI技术的普惠化发展注入强劲动力。
