AI百模大战爆发：2天10余款新品发布，大模型内卷进入白热化阶段

2023-07-09 08:02:52 互联网 37 次阅读

5月底的中关村论坛上，一位专家透露了一组令人瞩目的数据：截至目前，中国已发布了79个10亿级参数规模以上大模型。这一数字尚未涵盖近期世界人工智能大会上的重磅发布，标志着中国大模型领域的竞争已进入白热化阶段。随着上海世界人工智能大会的召开，一场规模空前的”百模大战”正式拉开帷幕。

7月6日至7日，上海世界人工智能大会期间，记者统计发现超过10款大模型新品问世或即将发布。这些产品来自多元化的企业阵营，包括互联网巨头、创新创业公司和通信运营商。产品类型丰富多样，既有通用大模型，也有针对特定行业的专业模型。目前已正式亮相的包括：阿里巴巴的绘画大模型”通义万相”、中国电信的ChatGPT类产品”TeleChat大模型”、商汤科技联合港中文与清华等机构推出的”书生通用大模型体系”，以及第四范式专注企业软件的”式说”大模型。

7月7日下午，华为重磅发布盘古大模型3.0版本。华为常务董事、华为云CEO张平安在演示文稿中醒目地标注了”不作诗只做事”的理念。他强调该模型将聚焦价值场景，深耕政务、金融、制造、能源、交通、医药、气象等关键行业。以气象领域为例，盘古气象大模型在保持极高精准度的同时，运算速度比欧洲气象中心operational IFS系统快10000倍以上。

即将发布的大模型产品同样令人期待。京东计划7月13日推出千亿级”言犀大模型”，中国移动将推出”九天”1+N大模型体系，医渡科技正研发医疗大模型并计划近期开展小范围测试，奇安信董事长齐向东透露正在开发安全行业大模型，而科大讯飞则宣布将在10月24日发布对标ChatGPT的通用大模型。

这场大模型竞赛的激烈程度可见一斑。自ChatGPT在国内爆火以来，大模型热度持续升温。中金公司一位高管表示，过去三个月参加的会议中超过一半与人工智能相关，”似乎不谈ChatGPT就无法参与讨论”。这种热潮解释了为何众多企业仍在积极发布大模型产品。

然而随着认知深化，大模型面临的挑战也日益凸显。图灵奖得主、清华大学交叉信息研究院院长姚期智指出，大模型最直接的应用领域是文书工作，作为生产力工具，许多文书任务可由大模型完成。金山办公发布了基于大模型的AI办公产品”WPS AI”，可自动润色文章、制作表格和PPT，用户只需提供提纲即可生成不同风格的演示文稿。该产品基于MiniMax、百度文心、智谱AI等大模型构建。金山办公CEO章庆元表示，WPS AI将锚定AIGC（内容创作）、Copilot（智慧助手）、Insight（知识洞察）三大战略方向。

语言智能企业蜜度发布了专注校对领域的垂直大模型”蜜度文修”。蜜度首席技术官刘益东表示，公司深耕语言智能领域十余年，拥有海量专业数据。ChatGPT兴起后，他们开发的校对领域大模型效果惊人，在垂直领域表现远超通用模型。该模型仅用百余张GPU卡训百余天，效果已达到发布标准，且成本远低于通用大模型。

商汤科技在7月7日发布了通用大模型”日日新”2.0版本。集团联合创始人、董事长兼CEO徐立现场展示了令人惊叹的AI绘画能力。他使用自己的照片作为输入，生成了”戴眼镜的弹吉他男子”图片，这一从未存在过的场景竟让亲友深信不疑。AI生成的图片细节达到照片级，还能根据用户提示词”中国龙，蓝色摆件，珠宝风格”自动补充为”3D渲染的中国龙，具有精细珠宝图案，立于蓝色玛瑙海上…”，艺术表现力显著提升。徐立透露，商汤每周都在迭代大模型，并针对行业需求开发了小模型。

百度在大会上展示了”文心一言”最新进展。首席技术官王海峰表示，文心大模型3.5在效果、功能、性能上全面升级，模型效果提升50%，训练速度加快2倍，推理速度提升30倍。百度正积极推动大模型生态建设，与华为、阿里巴巴等企业共同被工信部中国电子技术标准化研究院授予”国家人工智能标准化总体组大模型专题组”组长单位，致力于制定大模型国家标准。

算力问题成为大模型发展的关键瓶颈。华为轮值董事长胡厚崑指出，算力是人工智能创新的基础，大模型训练效率直接取决于算力规模。华为宣布昇腾AI集群规模扩大至16000卡，成为业界首个万卡AI集群。腾讯云也发布了新一代高性能计算集群，算力性能提升3倍。但一位大模型创业公司人士坦言，研发成本高昂，仅算力领域就需要数千卡并行处理能力。清华大学电子工程系主任汪玉举了一个例子：若同时处理14亿人推理请求，需要10*24 FLOPs算力，这个数字超过中国数据中心总算力的3个数量级。

数据问题同样严峻。一位智能汽车创始人表示，仅1万辆汽车产生的数据量已让他感到压力巨大，更不敢想象百万级规模。而医药研发人士则反映，专业数据匮乏严重制约了研发进程。腾讯高级执行副总裁汤道生指出，通用大模型基于公开信息训练，在专业领域存在局限，如同”把大海煮沸”，虽能解决80%问题但难以满足企业特定需求。

大模型的局限性也不容忽视。清华大学智能产业研究院院长张亚勤指出，ChatGPT存在时效性问题，无法回答自身发布时间等动态信息。此外，大模型还存在效率低、可能侵犯隐私和知识产权等问题。张亚勤认为，大模型效率至少需提升10倍才能实现大规模商用。