8月30日,由微新创想倾力主办的2023AIGC技术应用大会在深圳盛大召开。本届大会以”元载万物·智启新界”为核心主题,旨在深度聚焦AIGC技术的创新应用,为行业同仁搭建一个探索AIGC产业落地实践的交流平台。会上,加拿大工程院外籍院士、HiDream.ai创始人兼CEO梅涛先生发表了题为《AIGC掀起未来创意无限可能》的主题演讲,其精彩观点如下:

1. 我们运用AI辅助动漫创作,并非意图取代传统电影工业,而是希望通过AI技术激发创作者的潜能与想象力,显著提升生产力,同时有效降低创作成本。

2. 预计在2025年至2026年间,AI辅助创作的图片和视频数量将超越人类自主创作的总量,这意味着整个数字创意领域将迎来AIGC的全面赋能。

3. 类似于自动驾驶技术分级,我们将AIGC的视觉创作能力划分为五个层级:纯人工编辑→创意创作工具→部分生产力创作工具→完全生产力创作工具→设计大师。目前行业仍处于从L2迈向L3的关键发展阶段,未来发展潜力巨大。

4. 在AIGC蓬勃发展的时代,我们期待与勇于创新的创业者携手,共同构建健康良性的产业生态,推动行业持续进步。

以下为演讲内容整理,由微新创想团队精心汇编:

非常荣幸参加微新创想精心组织的这场盛会,今天我将与各位探讨生成式人工智能在数字创意领域的无限可能及技术发展趋势。首先,我为大家呈现一部短片,这部作品是我们与北京电影学院教师团队联合创作,其中所有视频画面、运镜设计均由HiDream.ai的Pixeling创作工具独立完成,未使用任何第三方软件。通过人工智能生成一部完整影片的流程大致分为五个步骤:脚本创作→分镜设计→关键帧生成→镜头渲染→视频合成。相较于传统人工制作,借助AI工具完成影片创作的优势十分显著:一个人仅需一到两周即可完成;而若依靠人工团队完成同等作品,从选角、场景搭建到导演统筹等环节,至少需要一个月时间。

AIGC重塑创意世界

我们运用AI辅助动漫创作,并非意图取代电影工业,而是希望通过技术手段提升创作效率、降低制作成本、优化创作体验。今天我们重点探讨视觉AIGC话题,首先分享两个典型案例。第一个案例是去年登上美国著名时尚杂志封面的AIGC生成图片。在这张照片中,”在浩瀚宇宙中,一位女性宇航员在火星上,昂首阔步地走向广角镜头”这一完整场景被完美呈现,而人类艺术家绘制这样一幅作品,至少需要一两周时间。第二个案例是人工智能工具创作的油画作品,曾荣获柯罗拉多州州立美术大奖,尽管引发了不少争议。这两个案例都在传递一个明确信号:AI赋能艺术创作是大势所趋。

数据显示,文艺复兴时期人类创作了数十万幅绘画作品,但留存至今的不足十万幅。而如今,人类每天在社交平台上传的图片和视频数量已超过十亿。预计在2025年至2026年间,AI辅助创作的图片和视频数量将超越人类自主创作的总量,这意味着整个数字创意领域将迎来AIGC的全面赋能。以世界名画《戴珍珠耳环的少女》为例,17世纪荷兰画家约翰内斯·维米尔花费数月时间才完成这幅杰作。但在今天,AI可以将这位少女置身于厨房、咖啡店、沙滩等不同场景,极大丰富原作之外的画面想象力。

生成式人工智能艺术创作的发展现状及未来

类似于自动驾驶技术分级,我们将AIGC视觉创作能力分为五个层级:纯人工编辑→创意创作工具→部分生产力创作工具→完全生产力创作工具→设计大师。目前行业仍处于从L2迈向L3的关键发展阶段,未来发展潜力巨大。事实上,从创意素材产生到融入完整工作流,还有很长的探索之路要走。视觉生成领域要创造出令人惊艳的作品,仍面临诸多挑战。首先,在细节处理上,我们常遇到”恐怖谷效应”,特别是手指等部位的控制精度仍需提升。其次,如何设计有效的prompt以充分发挥大模型威力,是一个重要课题。第三,可控性问题包括IP保护、人物特征保持和SKU精准控制等。此外,视频制作中不同镜头间的连续性问题也是一大挑战。

那么,视觉AIGC未来的想象空间究竟有多大?有预测称,GPT-4的参数量已达1.2万亿个,而GPT-5可能更大。如果机器学习技术能在未来几年有效吸收和理解人类产生的高质量语言数据,这种增长可能将迎来新的发展天花板。目前视觉AIGC能力表现,无论是Imagen还是Stable Diffusion,模型参数基本在几十亿级别,仍处于GPT-2时代。我们致力于突破这一瓶颈,探索基于视觉的多模态底层大模型,让视觉AIGC从GPT-2时代跃迁至GPT-3时代。目前我们自研的基础模型数据量级已达60亿,相信很快将突破百亿模型目标。

Pixeling:掀起未来创意无限可能

HiDream的产品Pixeling工具基于自研的生成式视觉多模态基础模型开发,支持多种模态间的无缝转换,不仅支持文生图、文生视频、视频编辑,还将支持图片编辑、图生视频、图生3D等功能。以图片素材生产为例,涵盖品牌调性、版权图片、材质特写、模特换装、商品摄影等多种类型,目前提供16种不同图片风格选择。Pixeling还支持文本生成视频以及图片生成视频,包括影片中展示的宇航员在月球上行走的全景画面,还能实现转弯动作,这一技术难度较高。除了背景运动外,我们还实现了前景运动、人物运动和运镜功能。此外,我们的产品最近在学习镜头语言,包括镜头构图、运镜和剪辑技巧,旨在为从业者提供更高效、更节省时间的创作工具。

在电商领域,Pixeling能够根据用户提供的SKU图片,结合给定prompt和背景图生成与背景无缝衔接的商品图片;若用户未提供背景图,我们也可根据SKU图片结合多种prompt生成对应商品图,整个过程仅需几秒钟。产品问世不久,我们已参加香港中文大学发布的HPS v2文生图模型客观评测。该评测将包含绘画风格、概念艺术、动漫风格以及真实图片在内的3200个prompt分别放入不同文生图模型进行验证。Pixeling1.0版本的模型上线和训练仅用了约三个月时间,经过测试,目前在该数据集的文生图模型中排名第二。当然,Pixeling1.0版本的表现与顶尖竞品仍有差距,但它毕竟是个”三个月大的孩子”,我们有信心它未来会成长得更加完善。

我们十分认同其他嘉宾提出的AIGC”落地为王”观点,这也是我们今后持续努力的方向。在AIGC蓬勃发展的时代,我们期待与勇于创新的创业者携手,共同构建健康良性的产业生态,推动行业持续进步。再次感谢大家的聆听!

最新快讯

2025年12月16日

10:17
声明:本文来自于微信公众号 电商在线,作者:唐果,授权站长之家转载发布。团播赛道,迎来了一位曾经的“一姐”。盘点古早网红,冯提莫绝对榜上有名。自2014年在斗鱼开播以来,她仅用两年时间就跃升为平台“一姐”,后续又以5000万元天价签约B站,发行单曲、参加综艺。曾经半只脚踏进娱乐圈的冯提莫几乎到达了个人主播所能抵达的巅峰。12月1...
10:17
小红书本地生活服务新动向:小红卡暂停运营背后的发展策略 小红书本地生活服务再迎重要变化。本周,小红书正式宣布小红卡将于2026年1月1日起暂停试运营。打开小红书APP进入「我的」页面,小红卡专区已显示下线公告。作为小红书探索本地生活交易的重要尝试,小红卡兼具会员卡属性与精选逻辑,自今年9月第三届马路生活节期间推出以来,凭借168元售价和近千家精选商家的9折优...
10:15
Resemble AI,一家总部位于多伦多和旧金山的创新型企业,近日宣布成功完成新一轮1300万美元的融资,其投资者阵容星光熠熠,包括谷歌的AI未来基金、Okta Ventures、台湾资本、Gentree Fund、IAG资本伙伴、伯克利前沿基金以及KDDI等业界翘楚。此次融资不仅为Resemble AI注入强劲动力,更使其累计融资总额攀升至令人瞩目的25...
10:15
国内领先的数字化供应链管理系统服务商菜鸟网络,近日正式宣布与近年来高速崛起的茶饮连锁巨头蜜雪冰城达成深度战略合作。此次合作聚焦于人工智能(AI)技术与现代物流供应链科技的深度融合应用,标志着两大行业领军企业将在创新领域展开全面合作。 蜜雪冰城集团近年来展现出惊人的业务扩张速度。根据其2025年中期财务报告披露的数据,该集团在短短一年时间内新增门店数量突破近万...
10:15
英伟达正以雄心勃勃的"硬核开源"战略,全力构筑AI领域的生态护城河。本周一,这家GPU巨头同步推出两项重磅举措:一方面收购全球主流高性能计算作业调度系统Slurm的核心开发商SchedMD,另一方面发布全新开源大模型家族Nemotron 3,展现出对AI智能体与物理智能下一波浪潮的坚定押注。这一系列动作标志着英伟达在AI基础设施软件栈中的控制力得到进一步巩固...
10:15
微软正加速推进其 Copilot 人工智能助手在更多科技产品中的布局,目前已将其整合范围扩展至特制笔记本电脑之外。近日,部分 LG 智能电视用户发现 Copilot 应用已强制出现在他们的设备上,且无法正常卸载。据 Engadget 深度报道,过去数日 Reddit 平台上涌现大量用户投诉,反映自家 LG 智能电视突然出现 Copilot 应用。Engadg...
10:15
亚马逊在今年9月的硬件发布会上首次亮相的“问问这本书”(Ask this Book)人工智能功能,现已正式在美国Kindle iOS应用上线。这一创新功能旨在帮助用户在不放下电子阅读器的情况下,轻松回忆起书中的关键细节,让阅读体验更加流畅深入。亚马逊特别强调,该功能目前已应用于数千本英文畅销Kindle电子书,并承诺“只会显示您当前阅读位置之前的信息”,彻底...
10:15
硅谷顶尖风险投资机构 Lightspeed Venture Partners 近期宣布完成了一项创纪录的90亿美元融资,这一数字不仅刷新了公司自身的历史最高纪录,更彰显了其在全球投资领域的强大实力。这笔巨额资金将重点投向资本需求旺盛的人工智能(AI)初创企业,助力这些创新企业在技术浪潮中加速成长。 在2021年风险投资市场经历了一波繁荣期后,许多投资机构...
10:15
在现代医疗体系中,电子病历(EHR)作为核心数据形式,承载着从诊断到治疗的全流程关键信息,是医疗决策的重要支撑,同时也是推动医疗人工智能发展的关键驱动力。近期,南洋理工大学的研究团队重磅推出首个全面评测大型语言模型(LLM)处理电子病历能力的基准——EHRStruct,这一突破性成果标志着医疗AI研究领域迈出了重要一步。 EHRStruct基准涵盖了11项核...
10:15
在最近备受瞩目的人工智能开源大模型评比中,中国开源AI技术再次以强劲实力惊艳全球,DeepSeek、Qwen和Kimi三款模型凭借卓越表现并列摘得影响力桂冠,这一成就迅速点燃了整个科技界的热情。这份由资深AI研究员Nathan Lambert与Florian Brand联合发布的权威榜单,共纳入35家顶尖机构参与角逐,其中中国团队占比超过半数,这一数据直观展...
09:47
12月15日,TCL科技(000100.SZ)正式发布重要公告,宣布其控股子公司TCL华星光电技术有限公司(简称"TCL华星")将以现金方式收购深圳市重大产业发展一期基金有限公司持有的深圳市华星光电半导体显示技术有限公司(简称"深圳华星半导体")10.7656%的股权,交易金额高达60.45亿元。此次交易完成后,TCL科技对深圳华星半导体的控股比例将显著提升...
09:47
近日,一则令人惊喜的消息在社交媒体上迅速传播开来美国洛杉矶的知名饮品品牌蜜雪冰城,疑似已悄然登陆当地的外卖平台,这一举动不仅让众多粉丝感到兴奋,也引发了广泛关注。一家名为"MIXUE(Hollywood)"的商家已正式上架两款预售套餐,其店铺位于洛杉矶市中心,取餐时间设定在12月19日至12月21日,为消费者提供了便捷的购买选择。 这两款预售套餐的定价均为3...