AI大模型无疑是2023年的科技焦点,成为各大厂商竞相争夺的制高点。然而,这些象征着未来的AI技术却异常昂贵,连微软这样的科技巨头也开始寻求”Plan B”。近日有内部消息透露,在Peter Lee领导的1500人研究团队中,部分成员正转向研发全新的小型AI模型,其体积显著缩小,运营成本大幅降低。
关于微软的小尺寸AI模型,其实早在3个月前就已初露锋芒。今年6月,微软发布了一篇题为《Textbooks Are All You Need》的论文,通过仅70亿token的”教科书级别”数据训练出13亿参数的phi-1模型,证明高质量的小规模数据同样能打造高性能AI。基于phi-1,微软研究院还推出了phi-1.5预训练语言模型,适用于QA问答、聊天和代码等场景。微软表示,phi-1.5在常识、语言理解和逻辑推理等基准测试中表现优异,甚至超越了包括Meta llama-2在内的许多大模型,在GPT4AL跑分套件中可与70亿参数的开源大模型媲美,AGIEval得分更胜一筹。
微软开发小尺寸AI模型背后有多重考量。首先,与OpenAI的复杂关系可能是主要动因。作为OpenAI的重要资助方,微软虽拥有旗下产品使用OpenAI知识产权的独家权利,但无法完全掌控OpenAI的发展方向。因此,开发自主可控的高质量LLM成为微软保障战略安全的必然选择。其次,AI大模型的超高能耗也成为关键因素。AMD首席技术官Mark Papermaster曾展示数据显示,机器学习系统能耗已占全球电力消耗的1.5%-2%,相当于整个英国的用电量,预计2030年将升至4%。Digital Information World的报告显示,AI数据中心功耗到2028年将接近4250兆瓦,是2023年的212倍。OpenAI训练GPT-3的耗电量达1.287吉瓦时,相当于120个美国家庭一年的用电量,而训练过程仅占模型实际运行能耗的40%。
更令人担忧的是AI大模型的惊人水耗。谷歌2023年环境报告显示,其2022年消耗了56亿加仑水,其中52亿加仑用于数据中心,比2021年增加20%。ARM高级技术总监Ian Bratt指出:”AI计算需求无法满足,网络规模越大、电力消耗也越大。”AI从业者透露,疫情前训练Transformer模型能耗为27千瓦时,而现在参数从5000万增至2亿,能耗飙升至50万千瓦时,耗电量增加超过18000倍。AI创新功能背后,是惊人的能源和水资源消耗。微软甚至被曝计划使用小型核反应堆为数据中心供电。
从成本角度考量,小尺寸模型同样具有重大价值。英伟达凭借CUDA生态占据了AI芯片市场70%的份额,H100、A100等计算卡一卡难求,算力采购已成为AI厂商的主要成本支出。小尺寸模型对算力需求更低,能显著降低运营成本。虽然大模型功能强大,但商业化仍处于初级阶段,英伟达作为”卖铲人”独享红利。微软此举正是希望改变这一现状,通过技术创新实现更高效的AI应用。
