2023年8月19日至20日,由中国人工智能学会主办、中国人工智能学会会士之家(杭州站)承办、浙江杭州未来科技城管委会协办的第三期人工智能创新技术讲习班——”多模态大模型技术前沿与应用”成功举行,活动采用线上线下相结合的形式,线上累计观看人次突破16万。本次讲习班聚焦人工智能领域热点话题”多模态大模型”,旨在深化学术交流、加速技术创新进程。复旦大学邱锡鹏教授与清华大学徐枫副教授共同担任本期讲习班学术主任,宋睿华副教授、代季峰副教授、孙天祥博士、王炳宁先生、赵俊博研究员、严明先生等6位在多模态大模型及相关领域具有深厚学术影响力的专家学者组成讲师团,为听众奉献了一场内容丰富的学术盛宴。

讲习班期间,听众反响热烈,互动频繁。浓厚的学术氛围不仅贯穿整个授课过程,更延续至课后,各位讲师耐心解答线上线下观众提问,现场交流气氛十分活跃。徐枫副教授在8月19日至20日的两天时间里,带领各位讲师以严谨缜密的学术态度和妙趣横生的授课风格,为线上线下学员和观众呈现了6场知识盛宴,内容涵盖理论研究到落地应用等多个维度。

第一堂课《多模态理解与人工智能创作》由宋睿华副教授主讲。授课伊始,宋睿华副教授深入浅出地阐释了”多模态”概念及其与多媒体的区别,并分析了该技术突然火爆的原因。随后,他详细介绍了文澜模型1.0至3.0的发展历程,分享了”多模态与文本预训练模型的文本嵌入差异研究”的完整研究过程及成果。授课最后,宋睿华副教授对多模态理解与创作的未来趋势进行了总结,鼓励听众勇于挑战学术难题。

第二堂课《视觉基础大模型》由代季峰副教授主讲。他指出通用大模型正在引领人工智能发展浪潮,围绕”超大规模视觉模型”及相关技术路线展开精彩讲解。代季峰副教授不仅描述了LLM(大规模语言模型)的强大功能,更称赞其为通用人工智能发展道路上的重要里程碑。

第三堂课《对话式大型语言模型》由孙天祥博士主讲。授课内容分为四个部分:预训练数据、自然语言基座模型、对话语言模型和OpenLMLab,系统性地介绍了对话式大型语言模型的构建方法。

第四堂课《大语言模型的训练和优化方法》由王炳宁老师主讲。他首先系统梳理了语言模型的发展历程,指出近年来语言模型发展呈现超线性增长趋势,发布频率不断加快。随后,他对大语言模型的基础框架及优化方法进行了详细阐述,并表达了对大语言模型的美好憧憬,以及为中文互联网大语言模型发展贡献力量的决心。

第五堂课《TableGPT——大模型的漫长落地之路初探》由赵俊博研究员主讲。授课前,他以风趣的方式解释了为何为课题名称加上”渡劫”二字,坦言研究过程充满挑战与挫折,希望激励处于研究瓶颈期的同行们。赵俊博研究员介绍了团队研究背景,阐述了从刚性LLM到选择”TableGPT”的决策过程。随后,他详细介绍了”TableGPT”的功能、落地过程及方案,并以幽默的比喻总结道:从通用LLM到领域LLM的转变堪比”文科生到理科生”的蜕变。

第六堂课《达摩院通义mPLUG多模态大模型技术与应用》由严明老师主讲。他首先回顾了多模态大模型技术发展历程,重点介绍了团队研究的两条路径:mPLUG模块化多模态预训练大模型技术系列,以及大小模型协同的Agent系统。最后,严明老师对”ModelScope”实战应用进行了详细讲解。

至此,第三期人工智能创新技术讲习班”多模态大模型技术前沿与应用”的6节课程全部结束。邱锡鹏教授在线上做结业总结,回顾了6位专家学者的精彩授课内容,指出这些前沿研究成果让听众耳目一新。他还表示,多模态大模型发展尚处起步阶段,未来机遇与挑战并存,本次讲习班为研究者们搭建了宝贵的交流平台,有助于各方在学术研究及落地应用层面共同探索、学习进步。

最新快讯

2026年04月14日

02:30
微新创想:2026年4月14日,苹果向注册开发者推送了iOS/iPadOS 26.5开发者预览版Beta 2,版本号为23F5054d。此次更新距离Beta 1的发布仅相隔10天,属于常规的版本迭代。该版本主要面向iPhone和iPad设备,开发者需要加入苹果开发者计划,并通过设备上的【设置>通用>软件更新】进行安装。 此次Beta 2的发布标志着苹果在正式...
02:30
微新创想:2026年4月14日,苹果公司面向注册开发者推送了macOS 26.5开发者预览版Beta 2(版本号25F5053d)。此次更新距离上一版Beta或RC版本的发布已间隔14天,属于常规的版本迭代。该版本仅限已加入苹果开发者计划的用户通过系统设置中的通用选项获取。 本次更新的具体改进内容尚未对外公开,苹果通常会在正式版本发布前保持一定的信息保密。I...
02:30
微新创想:苹果于2026年4月14日向Vision Pro用户推送了visionOS 26.5开发者预览版Beta 2(版本号23O5453d) 此次更新距离上一版Beta或RC版本发布仅间隔14天 由于区域服务器缓存差异部分用户可能会延迟大约半小时收到升级提示 该版本主要面向已注册的开发者群体 目前尚未公布具体的功能改进内容 IT之家将会持续关注并为用户提...
02:30
微新创想:2026年4月14日,苹果公司面向注册开发者推送了watchOS 26.5开发者预览版Beta 2(版本号23T5553d)。此次更新距离上一版Beta/RC发布已间隔14天,属于常规的版本迭代。苹果通常会在这一阶段对系统进行稳定性优化和功能调整,以确保最终版本的成熟度。 升级操作需要开发者登录苹果开发者账号,并通过Apple Watch的“设置→...

2026年04月13日

23:53
微新创想:2026年4月13日,消息人士Igor Bogdanov在X平台发布大疆Osmo Pocket 4 Pro手持云台相机谍照。该机采用双摄像头设计,云台模组体积明显增大,疑似重点提升光学变焦能力;底部屏幕延续现款Pocket系列布局。目前官方尚未公布具体配置与上市时间。 微新创想:值得注意的是,大疆Osmo Pocket 4系列将于4月16日20:0...
23:22
微新创想:2026年4月13日,宁德时代与上汽通用五菱在福建宁德正式签署战略合作协议。此次合作标志着双方在新能源汽车领域迈出了重要一步,未来将围绕产业规模化、乘商兼容换电、联合出海与生态协同四大方向展开深度合作。 宁德时代将作为五菱全谱系新能源车型的核心动力电池供应商,覆盖超过15款不同类型的车型。这一合作不仅提升了五菱新能源产品的竞争力,也为消费者提供了更...
23:22
微新创想:4月12日 爆料人@SadlyItsBradley在X平台透露Valve公司上周于美国收到了首批标为“无线PC控制器”的货物。这一消息引发了业界广泛关注,因为该控制器的设计与功能被认为与即将于2025年11月发布的Steam Controller手柄高度相似。 目前尚无法确认这批货物是否为Steam Controller的正式版本。不过从其命名和设...
23:22
微新创想:青藏铁路自2006年7月1日全线开通以来,已经安全稳定运行了整整20年。这条铁路的建成不仅标志着西藏结束了没有铁路的历史,也极大地促进了西藏与内地的经济联系和文化交流。截至2026年4月13日,青藏铁路累计运输进出藏货物总量已超过1亿吨,成为连接西藏与全国的重要物流通道。 在过去的二十年里,青藏铁路的货运能力实现了显著提升。2006年通车初期,全年...
22:51
微新创想:2026年4月12日,小岛秀夫工作室宣布谍战题材新作《Physint》(代号“Shimmer”)进入演员遴选阶段。这一消息引发了广泛关注,标志着小岛秀夫在影视领域的新尝试。 该剧由小岛秀夫亲自执导,已确定马东锡、查莉·弗雷泽、浜辺美波参演。这三位演员的加入为项目增添了丰富的角色层次和国际影响力。 剧组正在积极寻找一名兼具麦斯·米科尔森式外形与精神错...
22:51
微新创想:2026年4月13日,安全公司Noma披露Grafana AI助手存在‘GrafanaGhost’漏洞,攻击者可通过外部网页嵌入恶意指令,利用间接提示注入诱导AI泄露敏感数据至外部服务器。 该漏洞需要攻击者已经获得用户端权限,并且通过多次交互才能触发,因此不属于零点击类型。这意味着攻击者必须在用户不知情的情况下,逐步引导用户执行某些操作,才能实现数...
22:51
微新创想:2026年4月10日,两名前Epic员工向彭博社透露,Epic游戏商店虽然通过免费游戏活动在短期内提升了用户数量,但大多数玩家在活动结束后又回到了Steam平台。这反映出Epic在用户留存方面仍存在明显短板。 跨平台切换的不便成为玩家流失的重要原因之一。许多用户在使用Epic游戏商店时发现,游戏的跨平台体验并不如预期般顺畅,尤其是在不同设备之间同步...
22:51
微新创想 4月13日,华为终端正式发布鸿蒙智行首款MPV智界V9的智能交互式侧门光毯视频,并宣布刘亦菲成为鸿蒙智行智界品牌代言人。此次发布不仅展示了智界V9在智能交互方面的创新设计,也标志着刘亦菲与鸿蒙智行品牌合作迈入新阶段。 视频中,刘亦菲身着鎏金深V礼裙优雅登场,展现出独特的气质与魅力。当她靠近智界V9时,车辆通过毫米波雷达主动感知,侧滑门随即自动开启,...