作为本届亚运会的重要办赛理念之一,”智能”贯穿于杭州亚运会的每一个细节之中。为助力正在举办的第19届亚运会,在北京大学黄铁军教授及仉尚航研究员的悉心指导下,北京大学庄棨宁学生团队依托多模态大模型的前沿研究,创新性地融合视觉、语言、语音等多种模态输入,成功研发出高速运动AI多语种解说系统,为全球观众带来前所未有的观赛新体验。这一突破性应用标志着多模态大模型技术首次在国际大型综合性体育赛事中实现落地,开创了智能科技服务体育赛事的新纪元。
与此同时,团队将目光投向具身智能研究领域,精心打造了基于多模态大模型的人工智能助理系统。该系统能够提供专业的导览引领、场景解说以及物品抓取等多元化服务,为残障人士和需要帮助的群体创造更加人性化的互动方式,营造友好的赛事环境。这一创新举措不仅彰显了科技的人文关怀,更体现了人工智能在提升社会服务方面的巨大潜力。
AI解说员:让体育赛事更生动
“除却君身三重雪,天下谁人配白衣。”东京奥运会上,当中国运动员杨倩身着白色领奖服夺得首金时,赛事解说员引用这句诗意的解说词深深触动了无数观众的心灵。事实上,一场精彩的体育赛事不仅取决于运动员之间的激烈角逐,解说员在其中的作用同样不可忽视。优秀的解说员不仅能够提供关于球队、运动员和比赛背景的专业信息,帮助观众深入理解比赛的重要性和背后的故事,还能通过精准的分析揭示比赛中的策略和技巧,让每一个比赛环节都充满观赏性。当比赛出现精彩瞬间,经验丰富的解说员更能够通过充满激情的解说传递情感,有效带动观众情绪,为赛事增添无限魅力,甚至成为被传颂的经典时刻。
然而,受限于人力成本和资源分配,并非每场体育赛事都能配备专业解说员。特别是在亚运会这类国际大型综合性赛事中,同一时间进行着众多比赛,且并非所有解说员都精通所有体育项目。许多相对小众的赛事往往缺乏专业解说,更难以想象一位解说员能够使用多种语言,面向不同语言的观众进行解说。针对这一痛点,北大庄棨宁学生团队专门针对乒乓球、跆拳道、跳水、体操等热门赛事,研发了高速运动AI解说系统。该系统可以辅助录播频道调用多模态大模型能力,精准理解视频内容,并实时生成中文、英语、藏语、阿拉伯语等多种语言的解说,让体育赛事的信息传递更加广泛和高效。
AI智能解说:技术赋能体育传播
庄棨宁介绍说,这一技术通过高速摄像机的脉冲信号检测场景中的物体和运动员,能够精准捕捉体育比赛中的关键时刻,并生成高质量的集锦和相关数据。基于多模态大模型算法和深度学习模型对这些运动数据进行分析,系统再根据分析结果生成个性化的实时解说服务,从而为不同语种的观众提供定制化的观赛体验。这种技术创新不仅提升了体育赛事的传播效果,也让更多人能够享受到精彩纷呈的体育盛宴。
智能爱心辅助:让科技更有温度
大型赛事活动通常会为东道主城市带来显著的经济、环境等影响,但由于人流量激增,城市公共区域会面临巨大压力。据预测,亚运会期间杭州将迎来近年来最密集的游客潮,外地游客量将超过2000万人次,加上来自亚洲45个国家和地区的12527名运动员,亚运期间杭州的人流量将大幅增加。为应对这一挑战,庄棨宁学生团队在杭州市公共区域打造了具身智能机器人软件服务系统,用于亚运会期间的导航指引与帮助服务。这套系统可以为观众提供专业的导览服务,协助视障人士进行引领和导航,解析视障人士的需求并完成相应任务,如帮助捡拾掉落的物品等。目前,在杭州市的一些亚运会志愿者服务点,已经有市民看到机器人外观的智能体在为视力障碍人士提供贴心服务。
图:杭州市民在体验庄棨宁学生团队的具身智能机器人软件服务系统
“很荣幸能够将我们的所学、所研转化为可以服务每个人的应用,让AI服务人们的普通生活。”庄棨宁表示,为本次亚运会打造的具身智能机器人软件服务系统,是基于团队自研的感知生成一体化多模态大模型,能够精准感知与理解场馆内外的视觉场景,生成准确、丰富的语言描述,并控制机器人执行智能志愿者服务任务。同时,团队将多模态大模型与具身智能相结合,使得人工智能能够更好地感知和理解物理世界,再做出更智能的决策,最终实现人工智能与物理世界的无缝交互。这一创新应用不仅提升了大型赛事的服务水平,也为人工智能技术的发展开辟了新的方向。
