快科技6月28日重磅消息,随着人工智能技术的迅猛发展,NVIDIA显卡已成为市场炙手可热的抢手货,尤其是旗舰级H100加速卡,即便售价高达25万元人民币也依然供不应求。这款显卡的性能表现更是令人惊叹,在最新的AI测试中创造了多项纪录,基于GPT-3的大语言模型训练任务时间已刷新至惊人的11分钟。
机器学习及人工智能领域开放产业联盟MLCommons近日发布了最新MLPerf基准评测报告,该报告涵盖了8项关键负载测试,其中特别包括了基于GPT-3开源模型的大语言模型测试,这对平台的AI性能提出了极高要求。参与此次测试的NVIDIA平台由896个Intel至强8462Y处理器和3584个H100加速卡组成,在所有参赛平台中是唯一完成全部测试并刷新纪录的。
在核心测试项目——基于GPT-3的大语言模型训练任务中,H100平台仅用时10.94分钟便轻松完成,这一成绩与Intel平台形成鲜明对比。Intel平台由96个至强8380处理器和96个Habana Gaudi2AI芯片构建,完成相同测试需要长达311.94分钟。从数据对比来看,H100平台的性能几乎是Intel平台的30倍,尽管两套平台的规模存在较大差异,但即便仅使用768个H100加速卡,训练时间也只需45.6分钟,依然远超Intel平台的AI芯片表现。
H100加速卡基于先进的GH100 GPU核心设计,采用定制版台积电4nm工艺制造,拥有800晶体管,集成了18432个CUDA核心、576个张量核心以及60MB二级缓存,并支持6144-bit HBM高带宽内存和PCIe5.0接口。这款计算卡提供SXM和PCIe5.0两种接口样式,其中SXM版本配备15872个CUDA核心和528个Tensor核心,PCIe5.0版本则拥有14952个CUDA核心和456个Tensor核心,最高功耗可达700W。
在性能指标方面,H100的表现堪称卓越:FP64性能达到260TFlops(每秒60万亿次),FP32性能高达2000TFlops(每秒2000万亿次),TF32性能达到1000TFlops(每秒1000万亿次),这三项指标均实现了对A100的三倍提升;而FP8性能则达到4000TFlops(每秒4000万亿次),更是A100的六倍。这些惊人的性能参数,使得NVIDIA H100加速卡成为人工智能领域当之无愧的顶级配置选择。