8月30日,由微新创想主办的2023AIGC技术应用大会在深圳盛大举行。本届大会以”元载万物·智启新界”为主题,旨在深入探讨AIGC技术的创新应用,搭建一个推动AIGC产业落地的交流平台。会上,兔展智能创始人、董事长兼CEO董少灵在《基于兔灵大模型的AIGC内容引擎,让人类叙事更生动高效》的演讲中,分享了诸多精彩观点。

首先,董少灵指出,生图和语言表达只是人类叙事的一部分。他将人类叙事拆分为三个关键环节:交互体验、感官视觉和知识理解。这一创新性观点为AIGC技术的应用提供了全新的视角。

其次,董少灵强调,图形交互和语言交互的结合才是创造内容时更高效的方式。这一观点得到了现场众多业内人士的共鸣,也为AIGC技术的未来发展指明了方向。

最后,董少灵表示,做大模型的同时,他们会重点推出落地的应用。因为没有应用就没有最终的社会价值。这一理念得到了与会者的强烈认同,也为AIGC技术的商业化落地提供了有力支撑。

以下是董少灵演讲的主要内容,由微新创想整理:

今天,我们首次系统性地向外界展示了兔展以视觉为核心的多模态大模型的全貌,同时也分享了我们在探索道路上的一些思考。十年前,我还在北大读书时,移动互联网的浪潮席卷而来。当时,移动端吸引了大部分人的注意力,却没有相应的表达工具。无论是WPS还是Adobe,都是PC端产品。因此,十年前,我们就开始致力于让人类叙事更加高效、生动,研发了移动互联网时代的富媒体表达工具。

过了十年,从去年11月到今年,这是一段令人振奋的时期。美国人终于走通了我们梦想多年的自动生产内容的道路,实现了更加智能体的可能性。那么,这一波底层颗粒度更细的原理是什么?为什么会发生?我和许多该领域的科学家和从业者交流过,虽然大家并没有一个对原理层完整、准确的解释,但两位哲学家从哲学方向上给了我们一些启示。

现今人类知识的教授以康德的纯粹批判理性为基础,认为人类的知识可以横平竖直地被分成许多学科,每个学科有其最底层的公理、定理,在此基础上可以推演出更多细分应用型的知识。而维特根斯坦很早就提出,他不认为人类的知识可以被有效划分,许多重要知识和发现都出现在混沌和交叉之处。他是最早提出语言是通向智慧核心道路的哲学家。因此,我认为从哲学角度看,在传统一代哲学家中,维特根斯坦取得了胜利。而在当代,对生成式人工智能突破贡献较大的重要哲学家是数学家沃尔弗拉姆。OpenAI DP插件中就有一个名为沃尔弗拉姆的插件。沃尔弗拉姆是一位数学家,Mathematica就是他公司的作品。这两位智者为我们提供了哲学上的引导和方向性指引,也是我们前行中重要的心理基石。

关于人类的叙事表达,比尔盖茨和图灵都有自己的论述。他们都认为人工智能和新技术是人类更好地表达自己、传递信息、接收信息的前提。那么,人类的表达到底有哪些环节?现在,无论是西方还是中国,Midjourney、Stable Diffusion、ChatGPT都是非常火的应用或底层模型。但实际上,生图和语言表达只是人类叙事的一部分。我们可以将人类叙事整个拆分成三个关键环节:交互体验、感官视觉、知识理解。

例如,前些日子由于要加速我们股东的工商变更,我直接去到深圳的公务办事大厅。当时,我所在的17号窗口,两边各有一位女士,对面是一位工作人员。左边女士和工作人员仔细论证一个艺人有限公司能否变成另一个艺人有限公司的股东。工作人员也无法解释”公司法”第58条的内核,这位女士也不懂。在旁观的过程中,听着他俩聊了10分钟。实际上,双方既见面了,也发生动作了,但互相理解不了说话的内容,这就是一个知识理解的问题。在生成式人工智能到来之前,很多复杂的知识是无法传递的。这样的情况还会发生在金融、法律、医药等服务领域,这些需要重度学习才能掌握的复杂知识领域,都存在着这样的困境。

我再讲一个例子,这与理解和交互都有关。例如你在银行APP里查询”如何在附近的支行网点取到泰铢”,会得到怎样的体验?原来的GUI交互设计并没有用,去邻近的网点询问也没有用(若是该网点没有就是没有),那么你打电话问客服有用吗?可能有用。客服会告诉你一个肯定正确的答案,也就是会让你去深圳分行营业部兑换,但是什么时候能去、要不要排队、能拿多少一概不知。这就是整个人类叙事和交互过程中的典型问题,而这些问题在生成式人工智能时代是可以得以解决的,但它绝不是单独生成一张图、单独对话一次那么简单。

由此,我们在这个问题上也在纠结。我认为生成式人工智能比较核心的两大模态分别是自然式语言和自然式视觉,这两者又不完全是一个领域。相信很多从业者也会有这样的问题:若是做语言模型从何做起?做语言应用从何做起?若是做图像、做CV从哪做起?我们自己的起步其实是离CV更近的。但在这一波生成性人工智能浪潮中,语言模态的突破又是核心,它是让上述核心问题得以发生根本性变化的一个非常核心的、牵引性的环节。所以在这一波浪潮到来之前,我们核心解决的是这三大问题中的交互体验与部分的视觉感官问题。这也是9年获得9轮融资、拥有29个外部股东、在头部行业覆盖率超过70%的兔展所在做的事情:从一个简单的H5工具进化成一个让所有交互控制的前端代码都能自动生产的第四代前端三剑客工具,并且能够对图像、视频进行基本的处理,但高端的坦率来讲还是要基于Adobe。我们也把这其中一部分成果发表了论文,一部分技术环节也进行了开源。我们也和北大联合开发ChatLaw大模型,是目前为止在垂直领域跑分第一的大模型。这也是出于我们在语言模态为了让法律知识变得更触手可得、更简单而研发的。针对前面我遇到的真实场景,我最终的解决方案就是打开了ChatLaw,让他俩都在里面聊了一下,然后我就迅速排上了队,得以解决了自己的问题。

另外,前段时间一些媒体报道称DragonDiffusion、Language User Interface是这一次浪潮中特别重要的人机交互手段,但实际上它并不是唯一。你若是和AI试图表达说,“我要把这个凳子往那边移15度、5米”,你不如用手把它拖过去。所以,图形交互和语言交互的结合使用,才会是真正创造内容时更高效的一种手段。DragonDiffusion是我们和北大原创的一个大模型,能够实现图形和语义双模态交互下的内容生产,目前已经发布并且有了早期的开源版。我们9月将发布DragonDiffusion的一个分支,这是国内第一款能直接用模型生成各种各样中文字体的大模型。到目前为止,没有一款能够直接生产一套完整中文字体的公开的工具。如果你可以生产出类似于英文和韩文之间的一种字符,那么这必然是用stable diffusion套壳的。Dragon CN Encoder则是解决CV领域的幻觉问题的一个重要的科研工具。前期,我们团队和腾讯发布了AI绘图工具T2I-adapter,比ControlNet晚一周,但实际上在部分领域,T2I-adapter的性能比ControlNet还要好。开发了Stable diffusion的Stability AI公司最近推出的Stable Doodle其实就是基于T2I-adapter做的。我们在9月也会推出DragonAdapter,会在T2I-adapter的基础之上再做升级。

在兔展AIGC内容云的整体框架中,上层会产生一些应用,包括:1、在交互领域,对我们耕耘9年的领域进一步升级,Dragon Code(智码)产品可以自动生产代码,尤其是在前端代码上,可以减少95%以上的人力;2、在理解领域已经发布的ChatLaw;3、我们最近会发布ChatDocument(暂定名),大家每天在微信里会收到大量信息,你可以通过这个工具自动帮你摘要完,并且你可以多轮问询获得更进一步的信息抽取,包括图表的交叉分析;4、我们未来也会发布ChatFinance(暂定名),辅助用户进行股票研究,提升金融数据分析效率;5、最后是我们的老本行,也就是图形和语义双料交互的中国版的、超越Stable Diffusion的工具——Chat&Drag-Image(智图)。讲回模型领域,我们公司本身不做客服,也不做NLP,北大传统的优势项目其实也是CV,所以我们没有在语言模态上纠结太多的底层科研问题,我们就只重点攻关了一件事——防幻觉。在这一波浪潮里的一个基础机理,就是对下一个词的预测以及概率可行。这其实与我们在视觉模态里核心纠结精准控制生产其实最终是一脉相承的。ChatGPT在具体的垂直领域应用中,会把这个世界上本来不存在的法律和案例进行胡编乱造,这也是很多专业人士最核心的苦恼。我们预计在9月28日会发表一篇题为《在生成式人工智能时代,如何解决精准与防幻觉的问题?》的论文。我们首个法律大模型产品ChatLaw在垂直领域的跑分至今未被超越,这也是我们很遗憾的一件事情。

以下是我们重点打造的场景:1、多场景复用:普惠法律服务实际上,在很多复杂的知识领域,中国有十几亿人没有任何的法律手段,没有任何对金融知识理解的办法,没有任何有效健康管理的方法,这是我们重要的使命之一。所以,ChatLaw虽然获得了1万多家大型企业、律师事务所和政府相关部门的询问,但我们现在第一批落地的全部是在公共法律服务领域。我们的初心就是让更多人有机会理解复杂事物,避免耽误自己人生里最重大的事情,希望在这个领域能做出一点贡献。我们的思路就是如何让多模态化为可行。比如,以前我们拨打法律援助电话12348,并不支持上传录像、录音和做法律意见总结。所以,我们认为在让十几亿人有法律帮助这件事情上,必须要把它做成多模态,实际我们也是这么做的。2、微信文件摘要场景应用:ChatDocument(暂定名)我们近期会推出微信文件摘要场景应用ChatDocument,目前已经基本研发完毕,正在走各种备案和审核流程。其实,Chatknowledge就是我们防幻觉语言模型里的一个通用性的应用。例如,每天有很多人发各种各样的材料问你,这家AI公司靠不靠谱?那家AI底层是不是吹牛?这家公司到底是不是套壳Stable diffusion?未来,我会先用这款工具简单分析下这些人的问题和发来的材料,然后在此基础上我再进行回答。3、金融研究应用场景:ChatFinance(暂定名)金融其实是我们过去9年最核心的付费领域。我们想借助语言模态让金融知识更加的普惠。4、AI图像引擎:DragonDiffusion我们前段时间发布了DragonDiffusion的公开版,用户只需要进行框选和拖拽,就可以轻松实现AI图像编辑和再生成,而这是Stable diffusion所无法做到的。5、AI图像引擎:DragonAdapterDragonAdapter是用于文本到图像扩散模型的控制器,是在T2I-Adapter模型的基础上升级迭代而来。让我们也很高兴的一点是,开发了Stable diffusion的Stability AI公司近日发布的最新涂鸦生图工具Stable Doodle其工具底层也是用了T2I-Adapter作为核心控制技术,这可能是国内唯一一个有效的控制模型了。6、AIGC内容云应用:智图我们已经有一部分头部客户在使用。目前,智图这款产品在底层、上层应用体验还有待完善,会稍后时间发布,但目前我们已经有一些头部客户在每天的工作流里真实在使用。最后,我们之所以做大模型的底层逻辑就是会重点推出一些应用,因为没有应用就没有最终的社会价值,但是我们也非常重视一定要有底层突破,把真正的要素控得更牢一点。我们拥有900+TB的全网营销存量数据的积累,又有1500万政企的存量用户以及在金融、医药、政务服务等场景里有我们一定的理解。基于此,我们进一步把另外的要素进行加强。我们长期要做的一件事就是帮助人类叙事更加科学、更加高效。在科学策略里,我们也有一些独到的产品,包括视频号里最有效的数据工具——视频号精灵、全网广告的洞察投放ROI工具——EDX,以及我们在垂直领域与产业做重度结合的一方数据的策略产生——金融医药营销云。以上是我们过去9年所做的努力,希望能够在今天这个节点带给大家一些思考。

最新快讯

2025年11月21日

15:06
2025年11月21日,亚马逊正式公布一项雄心勃勃的投资计划,宣布将在美国密西西比州沃伦县打造一个全新的数据中心园区,专注于支持人工智能和云计算业务的发展。据悉,亚马逊将至少投入30亿美元巨资用于该项目的建设,这一投资不仅将显著提升亚马逊云服务(AWS)的基础设施能力,还将有效满足全球范围内日益激增的AI计算需求。 该项目预计将直接创造至少200个高技术就业...
15:06
2025年11月21日,捷尼赛思在法国隆重举行了一场别开生面的品牌发布会,正式揭开了其首款纯粹跑车的神秘面纱——Magma GT概念车。这款意义非凡的车型,不仅是为了庆祝捷尼赛思成立十周年而精心打造,更被视为品牌进军高性能跑车领域的宣言,预示着未来量产车型的无限可能。 Magma GT概念车采用了极具辨识度的中置后驱布局,这一经典设计理念赋予了车辆卓越的操控...
15:06
美国东部时间11月19日,全球领先的数字媒体和营销解决方案提供商Adobe正式宣布达成一项重大战略收购,拟以约19亿美元现金收购知名营销软件企业Semrush,双方已达成初步协议,预计该笔交易将于2026年上半年正式完成。此次收购不仅标志着Adobe在营销技术领域的重大布局,更将成为其历史上规模第三大的并购交易,同时也是继Figma收购计划受挫后,Adobe...
15:06
2025年11月21日,备受瞩目的微软Xbox全球发布会如期举行,其中一款国产动作游戏《动物朋克》震撼亮相,正式公布了令人期待的最新实机演示视频。这款游戏由曾打造《暗影火炬城》的知名团队钛核工作室倾力打造,不仅完美延续前作的世界观设定,更在技术层面实现了突破,采用引擎内实录技术呈现画面,将实机演示与精心制作的过场动画融为一体,为玩家带来前所未有的沉浸式体验。...
15:06
2025年11月20日,黑芝麻智能在一场备受瞩目的产品发布会上正式宣布与华中电力科技达成战略合作协议。这一重要合作将聚焦于具身智能机器人、智能布控球以及无人机识别三大核心技术领域,通过双方的深度协同,共同探索电力行业智能化转型的创新路径。此次合作不仅标志着黑芝麻智能在电力行业解决方案上的重要突破,更将显著提升电力运维的效率与安全水平,为行业带来革命性的变革。...
15:06
2025年11月21日,领先的在线金融服务商产连通正式宣布成功完成A+轮融资,投资方为中科浙数。作为国内数字化金融领域的创新企业,产连通长期致力于为制造业、农牧业、跨境电商及仓储物流等关键行业提供全方位的数字化金融解决方案,通过科技赋能助力核心企业及其上下游产业链实现高效协同与价值增长。此次融资不仅为产连通注入了强劲的发展动力,更彰显了资本市场对其创新模式与...
15:06
2025年11月20日,美国蓝色起源公司正式公布了一项令人瞩目的航天工程计划——将打造新型超重型运载火箭“新格伦9x4”。这款火箭被视为公司未来深空探索战略的关键支柱,其设计理念是在现有“新格伦7x2”火箭的基础上实现跨越式升级。根据官方公布的技术参数,新火箭将采用更为强大的动力系统,其第一级将搭载9台高性能发动机,而第二级则配备4台专用助推器,这种独特的9...
15:06
2025年11月21日,中国消费者协会正式发布权威消费警示,揭露部分盗版剧APP背后隐藏的严重安全威胁。经调查发现,这些非法应用不仅通过窃取用户隐私数据、植入恶意程序等手段侵害消费者权益,更以免费观影为诱饵,诱导用户下载使用。中消协专家指出,此类APP在非法盗用影视剧资源的同时,还可能利用用户信息进行精准诈骗,导致财产损失等严重后果。针对当前盗版剧APP泛滥...
15:06
2025年11月22日,中国结算将因技术系统维护,全面暂停统一账户平台及身份信息核查系统的对外服务。此次停服范围覆盖全国,将直接影响相关业务的正常办理。根据官方公告,此次维护工作旨在通过升级系统架构,进一步提升平台的运行稳定性与数据安全性。为确保业务连续性,各金融机构及相关用户需提前做好充分准备,合理安排业务流程,避免因系统暂停造成的不便。建议相关单位密切关...
15:06
2025年11月21日,国新控股(上海)有限公司迎来重大工商变更,标志着这家企业迈入新的发展阶段。根据最新披露的信息,田晖正式接任公司法定代表人一职,全面负责企业的战略运营与日常管理。与此同时,公司注册资本实现跨越式增长,从原有的5亿元大幅增至20亿元,增幅高达300%,这一举措不仅显著增强了企业的资本实力,也为未来的业务拓展注入强劲动力。 此次工商变更被视...
15:06
11月20日,黑芝麻智能在上海隆重举行2025年机器人平台产品发布会,正式向业界展示其前沿的机器人技术布局。发布会上,黑芝麻智能与均胜电子签署战略合作协议,双方将聚焦机器人控制器、智能计算平台及行业应用三大领域,实现深度技术协同与资源共享。此次合作标志着黑芝麻智能在机器人产业生态建设上迈出重要一步,为推动行业智能化发展注入强劲动力。 黑芝麻智能在发布会上正式...
14:49
11月21日,在广州车展发布会上,小米正式发布了辅助驾驶系统Xiaomi HAD增强版。该系统通过强化学习与世界模型的融合,实现了更流畅的纵向加减速控制,更果断的横向变道操作,以及更精准的路口选择能力。据悉,该系统将陆续开始向用户推送更新。值得注意的是,多张官方PPT上用醒目的大字标注"辅助驾驶不是自动驾驶,驾驶仍需时刻保持专注",这一明确提醒旨在强调辅助驾...