2019年3月14日,美国西部时间,在美国圣何塞举办的OCP全球峰会上,百度正式宣布与Facebook、微软达成战略合作,三方将联合制定OAM(OCP Accelerator Module)标准。这一全新标准旨在为AI硬件加速模块和系统的设计提供全面指导,推动AI硬件生态的快速发展。
与传统的CPU服务器不同,AI硬件系统具有高度定制化的特点。为了实现高效的纵向扩展,需要通过AI硬件加速模块之间的高速互联通信;而要实现横向扩展,则依赖于多节点之间的高速互联通信。此外,AI硬件加速模块和系统设计还面临着高速信号传输、稳定供电和高效散热等硬件挑战。OAM标准正是针对这些问题而设计的一套综合性指导规范,它涵盖了AI硬件加速模块本身、主板、互联拓扑、机箱、供电、散热以及系统管理等各个环节的设计规范,主要目标是通过模块化和标准化,提升不同AI硬件加速模块和系统之间的互操作性,加速新AI硬件加速模块的落地和应用。此次发布的标准主要聚焦于AI硬件加速模块本身、主板、互联拓扑等基础规范。
随着AI技术的迅猛发展,AI芯片公司如雨后春笋般涌现,AI芯片产业的格局也呈现出多元化的发展趋势。然而,AI硬件系统设计的技术难度和复杂性极高,研发周期通常长达一年,且需要投入大量的研发资源,这严重阻碍了新AI加速芯片的落地和应用。OAM标准的推出,有望统一AI硬件加速模块和系统,有效兼容多元化的AI加速芯片,促进AI芯片多元化生态格局的健康持续发展。
当前公布的OAM标准,由百度、Facebook、微软三家国际AI领先企业联合定义,已经得到了包括Google、阿里、腾讯等互联网企业,英伟达、英特尔、AMD、高通、赛灵思等AI芯片企业,Graphcore、Habana Labs等AI芯片及处理器初创企业,以及IBM、联想、浪潮等ODM/OEM系统厂商的广泛参与和支持。对此,百度副总裁侯震宇表示:“百度非常高兴能够与Facebook和微软围绕OAM标准的制定展开合作,该标准将极大提高不同AI硬件加速模块的互操作性,加速新AI硬件加速模块的大规模落地应用。我们相信,全球AI硬件生态系统都会从此中受益。”
OCP开放计算项目,是由Facebook携手英特尔、Rackspace等公司于2011年成立的一个非营利组织,也是全球云计算基础硬件技术领域覆盖面最广、最有影响力的开源组织。在人工智能行业蓬勃发展、全球AI科技巨头对于AI技术的探索日趋多元的背景下,百度加入OCP项目,并携手Facebook和微软制定OAM标准,将能够发挥自身在AI技术领域的优势,与全球AI领袖一起,推动构建开放的AI硬件生态系统。
对于迅猛发展中的百度AI而言,作为世界上最大的超大规模数据中心运营商之一,百度拥有先进的数据中心、网络和服务器技术,并通过百度智能云持续地将自身领先的AI技术能力提供给客户。作为百度AI基础架构的底层支撑,百度超级AI计算平台X-MAN在统一的基础架构之上,融合了硬件解耦、资源池化、液冷散热、模块标准化及灵活的互联拓扑等前沿设计理念,OAM标准是助力这一理念落地的关键一环。自2016年诞生以来,X-MAN历经三代发展、三次架构升级,创造了六项业界第一,同时期关键技术和性能保持领先,引领行业发展趋势,并已在百度大规模应用,助力百度AI战略快速落地。
此外,这不是百度第一次参与国际AI领域技术标准的制定。2018年5月,在纽约人工智能大会上,百度、谷歌、斯坦福大学、哈佛大学等多家企业和高校联合发布了一套用于测量和提高机器学习软硬件性能的国际基准MLPerf,旨在推动机器学习硬件+软件相关技术创新。而此次百度加入OCP并参与制定OAM标准,不仅将又一次推动AI新硬件技术全球范围内的创新与进步,还会进一步将自己在AI领域的最佳实践、专业能力和创新能力,贡献给国际AI社区,促进世界AI水平的进步。