在2023世界人工智能大会(WAIC)启明创投论坛上,启明创投与未尽研究联合发布了重磅报告《生成式AI》| State of Generative AI 2023。2022年被视为生成式人工智能的元年,扩散模型应用取得重大突破,ChatGPT横空出世,一系列开创性研究论文相继发表。进入2023年,大模型技术迎来爆发式增长,以GPT-4发布为标志,生成式人工智能朝着通用人工智能的方向迈出关键一步,进入创新应用的新阶段。这一阶段最显著的特征是应用、研究、监管三者的协同发力,共同开辟生成式人工智能的创新发展之路。
01 创新应用
生成式人工智能正在重塑商业生态,催生出全新的技术架构和应用场景。从计算、模型到应用,从文本、图像到视频、代码,再到3D结构,多模态生成能力不断拓展。数据层面,公开数据、垂直数据、合成数据、向量数据等多元数据类型为各类模型提供丰富素材。在中国,生成式人工智能受到政策大力支持,政府积极推动通用人工智能发展,大型企业纷纷布局,众多知识型中小企业也积极尝试应用。这一革命性技术已将所有企业卷入时代浪潮,不同企业根据自身情况选择不同节奏和介入深度,成为技术浪潮中的守成者、创新者或采纳者,其商业模式和利润结构正在被永久改变。
算力成为最稀缺的资源,也是利润最丰厚的领域。作为大模型成本结构中的最大支出项,GPU性能直接决定着整个行业的创新步伐。随着算力与模型的协同发展,更多初创企业抓住时间红利涌入市场,但同时也面临激烈竞争和巨头碾压的风险。可以说,这既是初创企业的蓝海市场,也暗藏诸多挑战。竞争的激烈程度促进了技术创新。与2022年涌现的以生产力工具为主的应用型创业公司不同,2023年更多新公司聚焦底层技术创新。通用大模型创业方兴未艾之际,面向医疗、电商、科研、工业、自动驾驶和机器人等细分领域的垂直大模型公司也迅速崛起。
02 前沿研究
2022年和2023年是生成式人工智能技术取得重大突破的两年。通过梳理相关论文,我们发现这一领域最突出的特征是研究与创新的紧密结合,许多创新成果在企业内部完成并迅速转化为用例和产品。这种研究与实践一体化的模式中,初创企业和风险资本发挥了关键作用,而美国科技巨头和主要人工智能企业的研究投入与人才储备,包括底层技术攻关,近年来已超越传统大学等研究机构。人工智能前沿研究正以前所未有的速度向未来推进。
尽管GPT-4技术报告和微软相关研究论文都显示其在文字处理、数学推理和专业领域知识方面接近人类水平,甚至被评价为”人工通用智能(AGI)系统的早期版本”,但在通往通用人工智能的道路上,仍需解决诸多技术难题。包括信心校准、长期记忆、持续学习、个性化、概念跨越、透明度、认知谬误和非理性等。过去半年最重要的研究方向是破解和理解大模型令人着迷的智能”涌现”现象。大模型不仅需要超越简单的词预测能力,更需要发展出更复杂的”慢思考”机制来监督”快思考”的预测过程。
那些最前沿的研究都聚焦于解决技术规模应用中的实际问题。如何减少模型幻觉,提高输出内容的准确性;如何更高效地训练模型,降低应用门槛;如何实现与真实物理世界的交互;如何成为人类复杂工作的智能助手;如何影响就业并制定相应政策;如何确保人工智能的安全与可信。这些问题已成为全球研究机构和企业共同关注的焦点。
03 监管 | 安全 | 政策 | 人才
各国政府对生成式人工智能的监管反应迅速且各具特色。中国在快速推出生成式人工智能监管办法的同时,积极鼓励通用人工智能发展。北京、上海、深圳等城市已提出雄心勃勃的人工智能科研创新与产业目标。欧盟继续在监管立法方面保持领先,其GDPR框架仍引领全球趋势。美国则更注重保持人工智能技术的领先地位,正在构建以风险管理为核心原则的监管体系。
长期来看,人才对人工智能未来的影响将超过算力。中国研究人员发表的论文数量已超越美国,但在金字塔顶端,无论是研究还是创业领域,美国仍保持明显优势。全球人工智能研究创新重心正从高校向企业转移。美国拥有顶尖学者最多的前三大机构分别是谷歌、微软与Meta,合计吸纳了美国顶级学者的30%。中国仍以高校为主力,阿里巴巴等企业跻身全球前十。
中国科技部已提出人工智能企业应接受科技伦理审查,并建议设立专门的科技伦理审查委员会。美国人工智能企业则较早开始设立负责任与可信人工智能部门,并持续调整相关机制,反映出在生成式人工智能变革时期,企业正积极探索更安全、更负责任的技术部署方案。
04 十大前瞻大语言模型
1. 2024年中国将出现比肩GPT-4的多语言通用大模型;
2. 超长上下文(Long Context)技术将引领下一代LLM突破;
3. 在出现更具前景的大语言模型前,垂直领域应用将依赖以下三种方式:
i)利用通用数据进行预训练,不特别引入行业数据;
ii)对通用大模型进行行业数据微调;
iii)使用更高比例行业数据的垂直模型预训练。
多模态模型
4. 当前CLIP + Diffusion的文生图模型仍处于过渡阶段,未来两年将出现一体化模型结构;
5. 下一代Text-to-Image模型将具备更强可控性,通过结合底层模型能力与前端控制方式实现;
6. 2025年前,视频和3D等模态将迎来里程碑式模型,显著提升生成效果;
7. 以PALM-E为代表的具身智能展现出巨大潜力,但当前训练和可靠性仍面临挑战;
8. Transformer正成为多模态主流网络结构,但数字世界的通用压缩方法尚未出现,Transformer并非人工智能终点。
商业机会
9. 未来3年,颠覆性AI应用的核心驱动力来自底层模型创新,两者不可分割,模型价值将超越产品设计;
10. 当前生成式AI市场仍处于技术主导的早期阶段,存在千亿美元市值的平台型企业机会。