国产算力新里程碑摩尔线程MTT S5000高效推理DeepSeek V3 671B大模型性能逼近国际顶尖

2026-01-22 10:24:39 AI动态 2 次阅读

国产AI芯片与大模型协同优化迎来历史性突破。近日，摩尔线程与硅基流动联合宣布，基于国产GPU MTT S5000，成功完成对千亿参数大模型DeepSeek V3 671B“满血版”的深度适配与性能验证。这一成果不仅彰显了国产AI技术的快速进步，更标志着国产算力生态正迈向高效运行的新阶段。

通过创新应用FP8（8位浮点）低精度推理技术，实测性能表现令人瞩目：单卡Prefill（预填充）吞吐量突破4000 tokens/秒，Decode（解码）吞吐量超过1000 tokens/秒，整体推理速度已接近国际主流高端AI加速卡水平。这一突破意义重大。DeepSeek V3 671B作为国内领先的开源大模型，参数规模庞大、推理负载极高，此前多依赖英伟达A100/H100等高端GPU部署。此次在完全国产化硬件平台上实现高效运行，不仅验证了摩尔线程MTT S5000在大模型推理场景下的真实能力，更打破了国外技术的垄断。

关键技术突破在于FP8低精度推理的深度优化。FP8技术在保持模型精度损失极小的前提下，可显著提升计算吞吐、降低显存占用与功耗。摩尔线程与硅基流动联合完成了从底层驱动、算子库到推理引擎的全栈调优，使MTT S5000充分发挥FP8硬件加速潜力，有效支撑了大模型高并发、低延迟的推理需求。

对于行业而言，这意味着国产替代路径进一步清晰：高性能大模型不再必须绑定海外高端芯片。在当前全球算力供应链不确定性的背景下，MTT S5000 + DeepSeek V3的组合为金融、政务、能源等关键领域提供了高性价比、高安全性的本土化AI部署选项。

尽管在绝对峰值性能或软件生态成熟度上，国产GPU与国际顶尖产品仍有差距，但此次实测数据表明，在特定高价值场景下，国产方案已具备实用化竞争力。随着软硬件协同优化持续深入，中国AI基础设施的自主可控能力正加速成型——从“可用”到“好用”，只差一次又一次这样的实测突破。