2021年度  第7期


标题:基于动态视觉注意的多语言视频描述算法
作者:曹磊 万旺根
作者单位:上海大学通信与信息工程学院 上海大学智慧城市研究院,上海 200444
关键字:视频描述;语义属性;长短期记忆网络;动态注意力;多语言
摘要:针对视频描述任务,提出一种基于动态视觉注意的多语言视频描述算法。基于基础编解码结构,提取视频片段的时空特征信息和语义属性信息,用以视频表达。在解码阶段,两层长短期记忆网络构成的解码框架分别处理时空和语义信息,并通过嵌入注意力模块和动态选择模块,使得整个模型在有能力关注最重要信息出现时刻的同时,还能动态选择当前时刻最佳信息用以生成描述词。基于整个网络实现,通过共享编解码器的方式,在公开大型视频描述数据集VATEX上实现多语言描述生成方法,并测试提出方法生成描述语句的准确度,与基准方法相比,取得较好效果。