2022年度  第12期


标题:基于门控多头注意力机制的视频摘要
作者:王坤阳1;高伟2;滕国伟1
作者单位:1 上海大学通信与信息工程学院,上海 200444;2 上海文广科技(集团)有限公司,上海 200233
关键字:视频摘要;并行化;注意力机制;相对位置编码
摘要:视频摘要技术能降低原始视频冗余程度,减小视频存储空间和浏览时间。现有的视频摘要方法大多采用递归结构,不仅计算复杂而且模型很难并行化运行。为了解决这个问题,提出了一种基于门控多头注意力机制的视频摘要网络模型(GMPAVS),该模型包含两种多头自注意模块,能同时捕获时间帧之间的全局和局部依赖关系,同时引入了相对位置编码和绝对位置编码,用于捕获视频的时间相关性。在两个基准数据集SumMe和TVSum上的实验结果证明了该方法的有效性。