标题:基于多尺度大核注意力机制的视频字幕去除算法 作者:王超1,2 蔡非凡1,2 李宇航1,2 周琴1,2 丁友东1,2 作者单位:1 上海大学上海电影学院,上海 200072;2 上海电影特效工程技术研究中心,上海 200072 关键字:视频字幕去除;深度学习;多尺度;大核注意力机制 摘要:视频字幕去除是视频修复的子领域,旨在通过深度学习模型自动去除视频中的字幕,提高视频的重复利用率。近年来,许多视频修复方法采用光流和Transformer等技术来增强模型性能,然而这些方法通常伴随着庞大的模型参数、高昂的训练成本和冗长的推理时间。为了克服上述缺陷,提出了一种轻量的基于多尺度大核注意力机制的视频字幕去除算法。该算法框架包括两个主要部分:字幕掩码抽取模块和多尺度大核注意力机制字幕去除模块。得益于新颖的网络模型设计,相较于先前的视频字幕去除方法,该方法不仅具有更小的模型参数和更快的推理速度,而且在定性和定量比较中均表现优异,实现了更出色的字幕去除效果。实验结果证明了该方法的有效性。 |