蚂蚁集团近日宣布正式开源业内首个高性能扩散语言模型推理框架——dInfer,这一创新成果不仅标志着扩散语言模型在推理速度上实现重大突破,更象征着这一前沿技术向实际应用领域迈出了关键性步伐。在最新发布的基准测试中,dInfer的推理性能表现惊人,其速度比英伟达Fast-dLLM框架提升了高达10.7倍,这一数据充分彰显了该框架的卓越性能。
在备受关注的代码生成任务HumanEval中,dInfer单次推理速度达到了每秒1011个Tokens,这一成就开创性地实现了扩散语言模型在开源社区中首次超越传统自回归模型的推理速度记录。这一突破性进展极大地提振了业界对扩散语言模型的信心,使其被视为通往通用人工智能(AGI)的重要技术路径之一。
扩散语言模型的独特优势在于其将文本生成过程创新性地定义为”从随机噪声中逐步恢复完整序列”的去噪过程,这种建模方式赋予了模型高度并行处理能力、全局视野把握以及结构灵活性的显著特点。尽管理论上具备强大潜力,但传统扩散语言模型(dLLM)在实际推理过程中长期受限于三大核心挑战:高昂的计算成本、KV缓存失效问题以及并行解码的技术瓶颈。这些技术难题严重制约了扩散语言模型推理速度的充分发挥,亟待革命性突破。
针对上述挑战,蚂蚁集团研发团队专门设计了dInfer框架,该框架包含四大核心模块:模型接入模块、KV缓存管理器、扩散迭代管理器和解码策略模块。这种模块化设计理念类似于乐高积木的灵活组合方式,既允许开发者根据实际需求自由组合优化各模块,又能在统一平台上实现标准化性能评测。这种创新设计极大地提升了框架的实用性和可扩展性。
在性能测试环节,配备8块NVIDIA H800 GPU的强大计算节点上,dInfer展现出令人震撼的表现。对比测试显示,在保持与Fast-dLLM相当的效果水平下,dInfer的平均推理速度达到了681个Tokens/秒,而Fast-dLLM的速度仅为63.6个Tokens/秒,性能差距高达10.7倍。更值得关注的是,与业界顶尖的推理服务框架vLLM上运行的自回归模型Qwen2.5-3B相比,dInfer的速度优势更为显著,达到了后者的2.5倍。
蚂蚁集团表示,dInfer框架的开放是连接前沿研究与企业应用的重要桥梁,期待全球开发者与研究者能够共同探索扩散语言模型的无限潜能,携手构建更加高效开放的AI生态系统。这一开源举措不仅将推动扩散语言模型技术加速落地,更将为人工智能领域的发展注入新的活力,加速通用人工智能时代的到来。