
国产AI芯片与大模型协同优化迎来历史性突破。近日,摩尔线程与硅基流动联合宣布,基于国产GPU MTT S5000,成功完成对千亿参数大模型DeepSeek V3 671B“满血版”的深度适配与性能验证。这一成果不仅彰显了国产AI技术的快速进步,更标志着国产算力生态正迈向高效运行的新阶段。
通过创新应用FP8(8位浮点)低精度推理技术,实测性能表现令人瞩目:单卡Prefill(预填充)吞吐量突破4000 tokens/秒,Decode(解码)吞吐量超过1000 tokens/秒,整体推理速度已接近国际主流高端AI加速卡水平。这一突破意义重大。DeepSeek V3 671B作为国内领先的开源大模型,参数规模庞大、推理负载极高,此前多依赖英伟达A100/H100等高端GPU部署。此次在完全国产化硬件平台上实现高效运行,不仅验证了摩尔线程MTT S5000在大模型推理场景下的真实能力,更打破了国外技术的垄断。
关键技术突破在于FP8低精度推理的深度优化。FP8技术在保持模型精度损失极小的前提下,可显著提升计算吞吐、降低显存占用与功耗。摩尔线程与硅基流动联合完成了从底层驱动、算子库到推理引擎的全栈调优,使MTT S5000充分发挥FP8硬件加速潜力,有效支撑了大模型高并发、低延迟的推理需求。
对于行业而言,这意味着国产替代路径进一步清晰:高性能大模型不再必须绑定海外高端芯片。在当前全球算力供应链不确定性的背景下,MTT S5000 + DeepSeek V3的组合为金融、政务、能源等关键领域提供了高性价比、高安全性的本土化AI部署选项。
尽管在绝对峰值性能或软件生态成熟度上,国产GPU与国际顶尖产品仍有差距,但此次实测数据表明,在特定高价值场景下,国产方案已具备实用化竞争力。随着软硬件协同优化持续深入,中国AI基础设施的自主可控能力正加速成型——从“可用”到“好用”,只差一次又一次这样的实测突破。
