5月底的中关村论坛上,一位专家透露了一组令人瞩目的数据:截至目前,中国已发布了79个10亿级参数规模以上大模型。这一数字尚未涵盖近期世界人工智能大会上的重磅发布,标志着中国大模型领域的竞争已进入白热化阶段。随着上海世界人工智能大会的召开,一场规模空前的”百模大战”正式拉开帷幕。
7月6日至7日,上海世界人工智能大会期间,记者统计发现超过10款大模型新品问世或即将发布。这些产品来自多元化的企业阵营,包括互联网巨头、创新创业公司和通信运营商。产品类型丰富多样,既有通用大模型,也有针对特定行业的专业模型。目前已正式亮相的包括:阿里巴巴的绘画大模型”通义万相”、中国电信的ChatGPT类产品”TeleChat大模型”、商汤科技联合港中文与清华等机构推出的”书生通用大模型体系”,以及第四范式专注企业软件的”式说”大模型。
7月7日下午,华为重磅发布盘古大模型3.0版本。华为常务董事、华为云CEO张平安在演示文稿中醒目地标注了”不作诗只做事”的理念。他强调该模型将聚焦价值场景,深耕政务、金融、制造、能源、交通、医药、气象等关键行业。以气象领域为例,盘古气象大模型在保持极高精准度的同时,运算速度比欧洲气象中心operational IFS系统快10000倍以上。
即将发布的大模型产品同样令人期待。京东计划7月13日推出千亿级”言犀大模型”,中国移动将推出”九天”1+N大模型体系,医渡科技正研发医疗大模型并计划近期开展小范围测试,奇安信董事长齐向东透露正在开发安全行业大模型,而科大讯飞则宣布将在10月24日发布对标ChatGPT的通用大模型。
这场大模型竞赛的激烈程度可见一斑。自ChatGPT在国内爆火以来,大模型热度持续升温。中金公司一位高管表示,过去三个月参加的会议中超过一半与人工智能相关,”似乎不谈ChatGPT就无法参与讨论”。这种热潮解释了为何众多企业仍在积极发布大模型产品。
然而随着认知深化,大模型面临的挑战也日益凸显。图灵奖得主、清华大学交叉信息研究院院长姚期智指出,大模型最直接的应用领域是文书工作,作为生产力工具,许多文书任务可由大模型完成。金山办公发布了基于大模型的AI办公产品”WPS AI”,可自动润色文章、制作表格和PPT,用户只需提供提纲即可生成不同风格的演示文稿。该产品基于MiniMax、百度文心、智谱AI等大模型构建。金山办公CEO章庆元表示,WPS AI将锚定AIGC(内容创作)、Copilot(智慧助手)、Insight(知识洞察)三大战略方向。
语言智能企业蜜度发布了专注校对领域的垂直大模型”蜜度文修”。蜜度首席技术官刘益东表示,公司深耕语言智能领域十余年,拥有海量专业数据。ChatGPT兴起后,他们开发的校对领域大模型效果惊人,在垂直领域表现远超通用模型。该模型仅用百余张GPU卡训百余天,效果已达到发布标准,且成本远低于通用大模型。
商汤科技在7月7日发布了通用大模型”日日新”2.0版本。集团联合创始人、董事长兼CEO徐立现场展示了令人惊叹的AI绘画能力。他使用自己的照片作为输入,生成了”戴眼镜的弹吉他男子”图片,这一从未存在过的场景竟让亲友深信不疑。AI生成的图片细节达到照片级,还能根据用户提示词”中国龙,蓝色摆件,珠宝风格”自动补充为”3D渲染的中国龙,具有精细珠宝图案,立于蓝色玛瑙海上…”,艺术表现力显著提升。徐立透露,商汤每周都在迭代大模型,并针对行业需求开发了小模型。
百度在大会上展示了”文心一言”最新进展。首席技术官王海峰表示,文心大模型3.5在效果、功能、性能上全面升级,模型效果提升50%,训练速度加快2倍,推理速度提升30倍。百度正积极推动大模型生态建设,与华为、阿里巴巴等企业共同被工信部中国电子技术标准化研究院授予”国家人工智能标准化总体组大模型专题组”组长单位,致力于制定大模型国家标准。
算力问题成为大模型发展的关键瓶颈。华为轮值董事长胡厚崑指出,算力是人工智能创新的基础,大模型训练效率直接取决于算力规模。华为宣布昇腾AI集群规模扩大至16000卡,成为业界首个万卡AI集群。腾讯云也发布了新一代高性能计算集群,算力性能提升3倍。但一位大模型创业公司人士坦言,研发成本高昂,仅算力领域就需要数千卡并行处理能力。清华大学电子工程系主任汪玉举了一个例子:若同时处理14亿人推理请求,需要10*24 FLOPs算力,这个数字超过中国数据中心总算力的3个数量级。
数据问题同样严峻。一位智能汽车创始人表示,仅1万辆汽车产生的数据量已让他感到压力巨大,更不敢想象百万级规模。而医药研发人士则反映,专业数据匮乏严重制约了研发进程。腾讯高级执行副总裁汤道生指出,通用大模型基于公开信息训练,在专业领域存在局限,如同”把大海煮沸”,虽能解决80%问题但难以满足企业特定需求。
大模型的局限性也不容忽视。清华大学智能产业研究院院长张亚勤指出,ChatGPT存在时效性问题,无法回答自身发布时间等动态信息。此外,大模型还存在效率低、可能侵犯隐私和知识产权等问题。张亚勤认为,大模型效率至少需提升10倍才能实现大规模商用。