
微软近日震撼宣布,其Azure ND GB300v6虚拟机在Meta的Llama270B模型上实现了每秒110万token的行业新纪录,这一突破性成就标志着人工智能推理性能的全新里程碑。微软首席执行官萨提亚·纳德拉在社交媒体上盛赞这一成就,表示这是微软与英伟达长期深度合作以及在生产规模运行人工智能方面专业知识的完美结晶。
Azure ND GB300虚拟机采用英伟达的Blackwell Ultra GPU,具体为NVIDIA GB300NVL72系统,配置了72个NVIDIA Blackwell Ultra GPU和36个NVIDIA Grace CPU,采用单机架构设计。这款虚拟机专为推理工作负载优化,具有50%的GPU内存提升和16%的热设计功率(TDP)提高,为人工智能推理提供了前所未有的性能支持。
为了验证性能提升,微软在一个NVIDIA GB300NVL72域下的18台ND GB300v6虚拟机上运行了Llama270B(FP4精度)模型,使用NVIDIA TensorRT-LLM作为推理引擎。微软自豪地表示,一个NVL72机架的Azure ND GB300v6实现了总计110万个token每秒的推理速度,这一新记录超越了微软之前在NVIDIA GB200NVL72机架上实现的865,000token每秒的成绩。
根据系统配置,每个GPU的性能大约为15,200token每秒,这一性能表现令人瞩目。微软还提供了详细的模拟过程和所有日志文件及结果,确保了数据的透明度和可信度。该性能记录经过了独立的性能验证和基准测试公司Signal65的严格验证。

Signal65的实验室副总裁拉斯·费洛斯在博客中指出,这一里程碑不仅突破了每秒百万token的障碍,还在一个能够满足现代企业动态使用和数据治理需求的平台上实现。他补充道,Azure ND GB300相较于上一代NVIDIA GB200在推理性能上提升了27%,而仅增加了17%的功率规格,这一性能提升与功率效率的平衡堪称业界典范。
与NVIDIA H100代相比,GB300在推理性能上几乎提升了10倍,同时在机架级别的功率效率上提高了近2.5倍,这一性能飞跃为人工智能行业树立了新的标杆。微软Azure ND GB300v6虚拟机的这一突破性成就,不仅展现了微软在人工智能领域的领先地位,也为全球企业提供了更高效、更强大的AI推理解决方案。
🚀 微软Azure ND GB300v6虚拟机实现每秒推理110万token,创造行业新纪录。
💻 该虚拟机配置72个NVIDIA Blackwell Ultra GPU和36个NVIDIA Grace CPU,专为推理优化。
📈 相比上一代,Azure ND GB300在推理性能上提升27%,功率效率提升近2.5倍。
