基于图神经网络的视频问答技术研究
计算机学院(国家示范性软件学院)
Video QA based on graph neural network
在如今这个信息互通互联的互联网时代,网络上的数据每日都在以指数级增长。尤其随着短视频社交潮流的到来,每天都有数以亿计的短视频APP用户观看、分享和传播大量的短视频数据。在此以外,传统视频点播网站依然保持着大量的活跃用户。面对如此包罗万象且数量庞大的视频数据,无论是对于想要从中寻找到有用信息的人,还是从事相关工作的人来说,如果使用人工的方式来搜索视频中的信息,无疑将消耗人们大量的时间与精力,并且搜索的准确性也无法得到保证。此外,如何精准地推送给用户其最感兴趣的视频也是当下函需解决的任务。因此,研究如何使计算机能够理解视频数据具有重要的现实意义。
为了评估计算机是否理解了视频内容,视频问答( Video Question Answering, VideoQA)任务被相应地提出并得到了学术界与工业界的广泛关注。由于在视频数据中包含了图像、音频和文本等多种模态的信息,相较于同为问答任务的视觉问答(Visual Question Answering, VisualQA)与文本问答(Textual Question Answering),视频问答对其算法具有更高的要求。需要算法能够有效地融合多种模态之间的信息来获得问题的答案。此外,在视频中也包含了额外的时间属性,需要模型能够建模其中的时序关系。
目前的视频问答模型解决了不同模态语义信息间的交互问题,但仍存在以下不足:
(1)使用卷积神经网络和循环神经网络对视频中的时空信息建模时,得到的时序特征不能表示不同视频帧之间的关联;
(2)当视频中包含多个运动的物体时,目前方法无法有针对性的提取每个物体的动态信息,并且易受到视频中粗粒度信息的干扰;
由于图神经网络具有强大的关系推理能力,本项目希望探寻将其应用于视觉问答模型的方案,以解决以上这些问题和不足。