ChatGPT的横空出世,犹如一场科技界的狂欢盛宴,迅速席卷了各行各业。无论是深耕AI领域的专业人士,还是对科技趋势保持敏锐的普通大众,都感受到了这股势不可挡的热浪。一时间,”AIGC”成为街头巷尾热议的话题,成为人们交流的必备词汇。ChatGPT的诞生不仅标志着AI发展的”iPhone时刻”到来,更在低迷的全球半导体市场掀起了一股强劲的上升浪潮。据毕马威权威报告显示,ChatGPT等人工智能平台的涌现,将催生全新的应用场景和商业模式,预计在未来几年内创造数千亿美元的产业价值。
然而,这个被誉为”超费电”、”超费钱”又”超聪明”的AI巨头,也引发了社会各界的诸多思考与焦虑。前微软全球副总裁、百度COO、奇迹创坛创始人陆奇曾公开表示:”从现在开始,无论从事工作还是创业,都必须与AI产生关联。”他强调”AIGC并非短暂的投机风口,而是对世界发展具有深远影响的变革力量”,”时代正在发生深刻变革,我们每个人都应该积极适应新的发展格局”。
AI 2.0时代的号角已经吹响,各大”108模型”纷纷崭露头角,谁能成为MaaS领域的”四小龙”,或许几年后回望,2023年将成为人工智能发展史上浓墨重彩的一笔。正如《2001太空漫游》中那块神秘的黑色石板,第一次出现时,猿猴们好奇地围绕它打转,最终在它的启发下学会了使用工具,完成了从猿到人的进化;而当我们再次见证它的出现时,它又引领人类向着更高维度迈进,穿越浩瀚星海,直至成为宇宙的探索者。
2012年,AlexNet以惊人的表现摘得ImageNet图像识别桂冠,将识别准确率提升至85%。以CNN为核心的人工智能技术开始超越人类,在计算机视觉等领域取得突破,标志着AI 1.0时代的开启。十年后的2022年底,ChatGPT横空出世,凭借海量数据训练的强大能力,打破了传统NLP人机交互中”人工智障”的刻板印象,推动各行各业的AI应用迈入2.0时代。我们何其幸运,能在短短十年间见证人工智能跨越两个时代的重大突破。
自今年3月起,AIGC与大模型产品如雨后春笋般涌现,呈现出百花齐放的繁荣景象。AI领域的模型迭代已进入每周更新的节奏。就在不久前,Meta宣布将其LLama2模型开放商用。模型规模不断扩大,应用场景日益丰富。目前国产大模型数量已达108个,正如水浒传中的108位好汉,人工智能领域的自媒体甚至以”谁是36天罡?谁是72地煞?”为题,评选出百模争霸推荐榜。在刚刚闭幕的2023年世界半导体大会上,AI大算力芯片公司亿铸科技副总裁李明发表了题为《以存算一体架构创新,迎AI 2.0时代》的演讲,预测最早明年,国内将初步形成MaaS(模型即服务)四小龙的竞争格局。这与2014-2017年间,基于CNN AI网络形成的CV(机器视觉)应用四小龙格局如出一辙,并引领了AI视觉领域数年的蓬勃发展。
算力与能源的双重挑战,成为制约AI发展的关键瓶颈。生成式AI的惊艳表现背后,离不开超大算力的强大支撑。最近,IDC、浪潮信息和清华大学全球产业研究院联合发布的《2022-2023全球计算力指数评估报告》指出:”计算力与经济增长密切相关,计算力指数每提高1个点,数字经济和GDP将分别增长3.3‰和1.8‰”,首次揭示了”算力即生产力”的真理。Transformer的划时代革新,不仅将推动AI向通用人工智能AGI领域发展,更将引发第二次AI应用场景的爆发。而这一进程将产生上千亿美元的算力需求。据中国信通院等机构调研数据显示,ChatGPT单日运营算力消耗占整个2021年中国智能算力总规模的3%。这还只是OpenAI的一个模型,若中国百大模型持续发展,对国内智能算力的需求将达到惊人的天文数字。
假设ChatGPT3平均每张H100每秒可生成6个tokens(FP16,参数350GB),不考虑级联或模型稀疏化,假设每人每天提5个问题,每个问题与GPT交互5次,每次消耗30个token,那么每人每天会消耗750个token。若每天有1亿人在线使用,就需要约15万颗H100芯片,仅H100卡的硬件成本就超过50亿美元。若计算整个计算系统成本,100亿美元也难以覆盖。李明补充道。
算力需求不断提升带来的挑战不仅在于昂贵,更在于耗电。在今年国际集成电路设计领域最高档会议ISSCC上,AMD全球CEO LisaSu表示,目前实现Exascale(百亿亿次计算)的顶尖计算机功耗已达2100万瓦。而根据Green500的预测,到2035年,实现Zettascale(十万亿亿次计算)的顶尖计算机功率将达500MW,相当于半个核电站的发电功率。而2035年并不遥远。回到ChatGPT3的场景假设,亿铸科技认为,未来随着大模型普及,若有1亿人同时在线,在线提问率提升至30%,每个prompt占30个token,就需要约1700万颗H100芯片提供推理算力,每颗H100功耗约750W。假设模型每天运行10小时,这些H100芯片所在数据中心一年的耗电量将超过三峡大坝一年的发电量。
从技术环境来看,未来数据量将持续增长,模型算法日益复杂,算力需求不断提升,而支撑底层算力的摩尔定律已接近极限。巨大的发展剪刀差落在AI大算力芯片企业产业链的肩上,带来了前所未有的压力:如有效算力增长率、软件编译效率、数据带宽、存储成本、能效比、生产工艺等。以AI云端推理卡为例,近年来由于工艺制程”卷不动”等原因,成本、功耗、算力难以兼顾。目前国内主流AI芯片厂商和初创企业纷纷寻求计算架构创新,试图在性能、规模和能源利用率之间找到平衡点,突破算力天花板。清华大学集成电路学院副院长尹首一教授认为,在当前国际产业环境下,需要重新审视芯片算力公式,在可获取的低世代成熟工艺中寻找持续提升算力的新途径,包括探索芯片面积上的先进集成技术和先进封装技术,以及在算力方面更加聚焦新型计算架构。
存算一体化概念的提出最早可追溯至上世纪七十年代,斯坦福研究所的Kautz教授团队于1969年提出了这一理念,旨在通过直接利用内存进行简单计算,减少数据在处理器与存储器之间的传输。2016年,ISCA上开始出现存算一体相关论文。到了Micro 2017,英伟达、英特尔、微软、三星、加州大学圣塔芭芭拉分校等纷纷推出存算一体系统原型。世界上首颗存算一体芯片于ISSCC 2018年首次亮相,今年已是存算一体芯片工程落地走过的第七个年头。近年来,关于存算一体的报道和研究源源不断涌现。学界,ISSCC上存算/近存相关文章数量迅速增加:从20年的6篇上涨到23年的19篇;其中数字存内计算,从21年首次提出后,22年迅速增加到4篇。产界,巨头纷纷布局存算一体,国内也陆续有近十几家初创公司押注该架构,这”扶摇直上”的架势,不仅因为存算一体是天生为AI大模型计算而生的架构,乘了大模型的”东风”,更因为该架构解决了长久以来制约算力发展的根本问题——”存储墙”。
存算一体架构是相对于传统冯·诺伊曼架构下的存算分离而言的。从技术理论角度来看,需要从阿姆达尔定律讲起。阿姆达尔定律是硬件加速设计的基本定律,包括两个因子:一个是加速器规模α,可以通过先进工艺或优化设计提升工作频率,叠加后就形成”裸算力”;另一个因子F则是在计算周期里数据访存所占的百分比。IBM科学家研究发现,在存算分离的冯·诺依曼架构下,F值高达90%以上,意味着每次计算,数据搬运访存的时间超过90%,功耗也超过90%。这意味着即使现在使用5nm工艺,将来做到0.5nm;现在花费1亿美元做一颗芯片,将来花费10亿美元,性能提升空间也只有10%。那么,如何减小F值呢?近存储计算是一种途径。例如,特斯拉的Dojo D1采用近存储技术,如果能将F值降到0.2-0.3,即使工艺仍是7nm,性能也会提升3-4倍。存内计算则是更进一步——亿铸科技希望通过存算一体(CIM)将F值降低到0.1以下,如此一来,未来芯片的性能提升将主要取决于工艺的提升和设计的优化。
存算一体超异构开启AI算力芯片换道发展之路。据李明透露,亿铸科技早已根据ReRAM(RRAM)特性,使用先进异构封装方式实现系统级芯片优化方案;今年3月,亿铸科技正式公布了存算一体超异构芯片这一创新理念。它将以存算一体(CIM)AI加速计算单元为核心,同时将不同计算单元进行异构集成,实现更大的AI算力以及更高的能效比,同时提供更为通用的软件生态,使CIM AI大算力芯片真正满足AI算力增长第二曲线的需求,开启一条AI大算力芯片换道发展之路。这颗存算一体芯片可实现基于75W功耗达到单芯片1P算力,相比传统冯·诺依曼架构的AI推理芯片提升10倍左右的能效比,同时还能兼顾软件通用性。李明表示,通过亿铸”四新一强”的整体优势——存算一体架构创新、ReRAM新型忆阻器应用创新、全数字化技术路径应用创新、存算一体超异构系统级创新以及极强的专业团队阵容,一定能够成为AI2.0时代破局的一道光。