多媒体内容描述生成技术

2019.07.10

投稿:杨秀丽部门:通信与信息工程学院浏览次数:

活动信息

时间: 2019年07月11日 09:30

地点: 校本部东区12号楼B525会议室

行健讲坛学术讲座

第403期

时间:     2019年7月11日(周四)上午9:30               

地点:     校本部东区12号楼B525会议室

讲座:   多媒体内容描述生成技术(Learning to Caption Multimedia)

演讲者: 姚霆

演讲者简介:姚霆,博士,京东AI研究院算法科学家,负责领导视觉与多媒体实验室的视觉内容分析团队,聚焦该领域的基础研究和技术创新。加入京东之前,姚霆博士任职微软亚洲研究院研究员,主要研究领域为大规模多媒体分析与检索和计算机视觉,在包括如下的这些CVPR/ICCV/SIGIR/ACM MM/TIP/TMM等顶级会议/期刊上已发表论文60余篇。因在大规模多媒体分析、搜索和理解领域的突出贡献,姚博士在2015年被授予SIGMM杰出博士论文奖(SIGMM OUTSTANDING PH.D. THESIS AWARD)。他是P3D RESNET,LSTM-E,LSTM-A的作者和MSR-VTT数据集的创始人,曾带领团队获得ACTIVITYNET大规模视频内容理解竞赛视频动作识别任务冠军(2019)和视频事件描述任务冠军(2017),VISDA视觉领域自适应竞赛跨域图像识别任务冠军(2018),跨域图像检测任务冠军(2018)和跨域图像语义分割任务冠军(2017),COCO图像描述自动生成竞赛冠军(2017)。

讲座摘要:自动生成多媒体内容(图像和视频)的自然语言描述是计算机视觉领域中一项非常基本的任务。然而,鉴于真实场景下图像和视频的复杂性,该任务具有很强的挑战性。目前一个比较通用的研究思路是探寻如何利用卷积神经网络(CNN)的编码器来对多媒体内容进行深层次理解,再基于递归神经网络(RNN)的解码器生成相对应的自然语言描述。本次分享则主要介绍这一技术路线的最新进展和对应的机遇和挑战,并简介其中较为创新的方法。此外,我们还将讨论多媒体内容描述领域的发展方向以及在未来可能带来重大进展的突破点。

邀请者:上海大学通信与信息工程学院 曾丹教授!

欢迎广大教师和学生参加!