8月30日,由微新创想主办的2023AIGC技术应用大会在深圳盛大举行。本届大会以”元载万物·智启新界”为主题,旨在深入探讨AIGC技术的创新应用,搭建一个推动AIGC产业落地的交流平台。会上,兔展智能创始人、董事长兼CEO董少灵在《基于兔灵大模型的AIGC内容引擎,让人类叙事更生动高效》的演讲中,分享了诸多精彩观点。
首先,董少灵指出,生图和语言表达只是人类叙事的一部分。他将人类叙事拆分为三个关键环节:交互体验、感官视觉和知识理解。这一创新性观点为AIGC技术的应用提供了全新的视角。
其次,董少灵强调,图形交互和语言交互的结合才是创造内容时更高效的方式。这一观点得到了现场众多业内人士的共鸣,也为AIGC技术的未来发展指明了方向。
最后,董少灵表示,做大模型的同时,他们会重点推出落地的应用。因为没有应用就没有最终的社会价值。这一理念得到了与会者的强烈认同,也为AIGC技术的商业化落地提供了有力支撑。
以下是董少灵演讲的主要内容,由微新创想整理:
今天,我们首次系统性地向外界展示了兔展以视觉为核心的多模态大模型的全貌,同时也分享了我们在探索道路上的一些思考。十年前,我还在北大读书时,移动互联网的浪潮席卷而来。当时,移动端吸引了大部分人的注意力,却没有相应的表达工具。无论是WPS还是Adobe,都是PC端产品。因此,十年前,我们就开始致力于让人类叙事更加高效、生动,研发了移动互联网时代的富媒体表达工具。
过了十年,从去年11月到今年,这是一段令人振奋的时期。美国人终于走通了我们梦想多年的自动生产内容的道路,实现了更加智能体的可能性。那么,这一波底层颗粒度更细的原理是什么?为什么会发生?我和许多该领域的科学家和从业者交流过,虽然大家并没有一个对原理层完整、准确的解释,但两位哲学家从哲学方向上给了我们一些启示。
现今人类知识的教授以康德的纯粹批判理性为基础,认为人类的知识可以横平竖直地被分成许多学科,每个学科有其最底层的公理、定理,在此基础上可以推演出更多细分应用型的知识。而维特根斯坦很早就提出,他不认为人类的知识可以被有效划分,许多重要知识和发现都出现在混沌和交叉之处。他是最早提出语言是通向智慧核心道路的哲学家。因此,我认为从哲学角度看,在传统一代哲学家中,维特根斯坦取得了胜利。而在当代,对生成式人工智能突破贡献较大的重要哲学家是数学家沃尔弗拉姆。OpenAI DP插件中就有一个名为沃尔弗拉姆的插件。沃尔弗拉姆是一位数学家,Mathematica就是他公司的作品。这两位智者为我们提供了哲学上的引导和方向性指引,也是我们前行中重要的心理基石。
关于人类的叙事表达,比尔盖茨和图灵都有自己的论述。他们都认为人工智能和新技术是人类更好地表达自己、传递信息、接收信息的前提。那么,人类的表达到底有哪些环节?现在,无论是西方还是中国,Midjourney、Stable Diffusion、ChatGPT都是非常火的应用或底层模型。但实际上,生图和语言表达只是人类叙事的一部分。我们可以将人类叙事整个拆分成三个关键环节:交互体验、感官视觉、知识理解。
例如,前些日子由于要加速我们股东的工商变更,我直接去到深圳的公务办事大厅。当时,我所在的17号窗口,两边各有一位女士,对面是一位工作人员。左边女士和工作人员仔细论证一个艺人有限公司能否变成另一个艺人有限公司的股东。工作人员也无法解释”公司法”第58条的内核,这位女士也不懂。在旁观的过程中,听着他俩聊了10分钟。实际上,双方既见面了,也发生动作了,但互相理解不了说话的内容,这就是一个知识理解的问题。在生成式人工智能到来之前,很多复杂的知识是无法传递的。这样的情况还会发生在金融、法律、医药等服务领域,这些需要重度学习才能掌握的复杂知识领域,都存在着这样的困境。
我再讲一个例子,这与理解和交互都有关。例如你在银行APP里查询”如何在附近的支行网点取到泰铢”,会得到怎样的体验?原来的GUI交互设计并没有用,去邻近的网点询问也没有用(若是该网点没有就是没有),那么你打电话问客服有用吗?可能有用。客服会告诉你一个肯定正确的答案,也就是会让你去深圳分行营业部兑换,但是什么时候能去、要不要排队、能拿多少一概不知。这就是整个人类叙事和交互过程中的典型问题,而这些问题在生成式人工智能时代是可以得以解决的,但它绝不是单独生成一张图、单独对话一次那么简单。
由此,我们在这个问题上也在纠结。我认为生成式人工智能比较核心的两大模态分别是自然式语言和自然式视觉,这两者又不完全是一个领域。相信很多从业者也会有这样的问题:若是做语言模型从何做起?做语言应用从何做起?若是做图像、做CV从哪做起?我们自己的起步其实是离CV更近的。但在这一波生成性人工智能浪潮中,语言模态的突破又是核心,它是让上述核心问题得以发生根本性变化的一个非常核心的、牵引性的环节。所以在这一波浪潮到来之前,我们核心解决的是这三大问题中的交互体验与部分的视觉感官问题。这也是9年获得9轮融资、拥有29个外部股东、在头部行业覆盖率超过70%的兔展所在做的事情:从一个简单的H5工具进化成一个让所有交互控制的前端代码都能自动生产的第四代前端三剑客工具,并且能够对图像、视频进行基本的处理,但高端的坦率来讲还是要基于Adobe。我们也把这其中一部分成果发表了论文,一部分技术环节也进行了开源。我们也和北大联合开发ChatLaw大模型,是目前为止在垂直领域跑分第一的大模型。这也是出于我们在语言模态为了让法律知识变得更触手可得、更简单而研发的。针对前面我遇到的真实场景,我最终的解决方案就是打开了ChatLaw,让他俩都在里面聊了一下,然后我就迅速排上了队,得以解决了自己的问题。
另外,前段时间一些媒体报道称DragonDiffusion、Language User Interface是这一次浪潮中特别重要的人机交互手段,但实际上它并不是唯一。你若是和AI试图表达说,“我要把这个凳子往那边移15度、5米”,你不如用手把它拖过去。所以,图形交互和语言交互的结合使用,才会是真正创造内容时更高效的一种手段。DragonDiffusion是我们和北大原创的一个大模型,能够实现图形和语义双模态交互下的内容生产,目前已经发布并且有了早期的开源版。我们9月将发布DragonDiffusion的一个分支,这是国内第一款能直接用模型生成各种各样中文字体的大模型。到目前为止,没有一款能够直接生产一套完整中文字体的公开的工具。如果你可以生产出类似于英文和韩文之间的一种字符,那么这必然是用stable diffusion套壳的。Dragon CN Encoder则是解决CV领域的幻觉问题的一个重要的科研工具。前期,我们团队和腾讯发布了AI绘图工具T2I-adapter,比ControlNet晚一周,但实际上在部分领域,T2I-adapter的性能比ControlNet还要好。开发了Stable diffusion的Stability AI公司最近推出的Stable Doodle其实就是基于T2I-adapter做的。我们在9月也会推出DragonAdapter,会在T2I-adapter的基础之上再做升级。
在兔展AIGC内容云的整体框架中,上层会产生一些应用,包括:1、在交互领域,对我们耕耘9年的领域进一步升级,Dragon Code(智码)产品可以自动生产代码,尤其是在前端代码上,可以减少95%以上的人力;2、在理解领域已经发布的ChatLaw;3、我们最近会发布ChatDocument(暂定名),大家每天在微信里会收到大量信息,你可以通过这个工具自动帮你摘要完,并且你可以多轮问询获得更进一步的信息抽取,包括图表的交叉分析;4、我们未来也会发布ChatFinance(暂定名),辅助用户进行股票研究,提升金融数据分析效率;5、最后是我们的老本行,也就是图形和语义双料交互的中国版的、超越Stable Diffusion的工具——Chat&Drag-Image(智图)。讲回模型领域,我们公司本身不做客服,也不做NLP,北大传统的优势项目其实也是CV,所以我们没有在语言模态上纠结太多的底层科研问题,我们就只重点攻关了一件事——防幻觉。在这一波浪潮里的一个基础机理,就是对下一个词的预测以及概率可行。这其实与我们在视觉模态里核心纠结精准控制生产其实最终是一脉相承的。ChatGPT在具体的垂直领域应用中,会把这个世界上本来不存在的法律和案例进行胡编乱造,这也是很多专业人士最核心的苦恼。我们预计在9月28日会发表一篇题为《在生成式人工智能时代,如何解决精准与防幻觉的问题?》的论文。我们首个法律大模型产品ChatLaw在垂直领域的跑分至今未被超越,这也是我们很遗憾的一件事情。
以下是我们重点打造的场景:1、多场景复用:普惠法律服务实际上,在很多复杂的知识领域,中国有十几亿人没有任何的法律手段,没有任何对金融知识理解的办法,没有任何有效健康管理的方法,这是我们重要的使命之一。所以,ChatLaw虽然获得了1万多家大型企业、律师事务所和政府相关部门的询问,但我们现在第一批落地的全部是在公共法律服务领域。我们的初心就是让更多人有机会理解复杂事物,避免耽误自己人生里最重大的事情,希望在这个领域能做出一点贡献。我们的思路就是如何让多模态化为可行。比如,以前我们拨打法律援助电话12348,并不支持上传录像、录音和做法律意见总结。所以,我们认为在让十几亿人有法律帮助这件事情上,必须要把它做成多模态,实际我们也是这么做的。2、微信文件摘要场景应用:ChatDocument(暂定名)我们近期会推出微信文件摘要场景应用ChatDocument,目前已经基本研发完毕,正在走各种备案和审核流程。其实,Chatknowledge就是我们防幻觉语言模型里的一个通用性的应用。例如,每天有很多人发各种各样的材料问你,这家AI公司靠不靠谱?那家AI底层是不是吹牛?这家公司到底是不是套壳Stable diffusion?未来,我会先用这款工具简单分析下这些人的问题和发来的材料,然后在此基础上我再进行回答。3、金融研究应用场景:ChatFinance(暂定名)金融其实是我们过去9年最核心的付费领域。我们想借助语言模态让金融知识更加的普惠。4、AI图像引擎:DragonDiffusion我们前段时间发布了DragonDiffusion的公开版,用户只需要进行框选和拖拽,就可以轻松实现AI图像编辑和再生成,而这是Stable diffusion所无法做到的。5、AI图像引擎:DragonAdapterDragonAdapter是用于文本到图像扩散模型的控制器,是在T2I-Adapter模型的基础上升级迭代而来。让我们也很高兴的一点是,开发了Stable diffusion的Stability AI公司近日发布的最新涂鸦生图工具Stable Doodle其工具底层也是用了T2I-Adapter作为核心控制技术,这可能是国内唯一一个有效的控制模型了。6、AIGC内容云应用:智图我们已经有一部分头部客户在使用。目前,智图这款产品在底层、上层应用体验还有待完善,会稍后时间发布,但目前我们已经有一些头部客户在每天的工作流里真实在使用。最后,我们之所以做大模型的底层逻辑就是会重点推出一些应用,因为没有应用就没有最终的社会价值,但是我们也非常重视一定要有底层突破,把真正的要素控得更牢一点。我们拥有900+TB的全网营销存量数据的积累,又有1500万政企的存量用户以及在金融、医药、政务服务等场景里有我们一定的理解。基于此,我们进一步把另外的要素进行加强。我们长期要做的一件事就是帮助人类叙事更加科学、更加高效。在科学策略里,我们也有一些独到的产品,包括视频号里最有效的数据工具——视频号精灵、全网广告的洞察投放ROI工具——EDX,以及我们在垂直领域与产业做重度结合的一方数据的策略产生——金融医药营销云。以上是我们过去9年所做的努力,希望能够在今天这个节点带给大家一些思考。
