标题：基于多尺度大核注意力机制的视频字幕去除算法
作者：王超1，2 蔡非凡1，2 李宇航1，2 周琴1，2 丁友东1，2
作者单位：1 上海大学上海电影学院，上海 200072；2 上海电影特效工程技术研究中心，上海 200072
关键字：视频字幕去除；深度学习；多尺度；大核注意力机制
摘要：视频字幕去除是视频修复的子领域，旨在通过深度学习模型自动去除视频中的字幕，提高视频的重复利用率。近年来，许多视频修复方法采用光流和Transformer等技术来增强模型性能，然而这些方法通常伴随着庞大的模型参数、高昂的训练成本和冗长的推理时间。为了克服上述缺陷，提出了一种轻量的基于多尺度大核注意力机制的视频字幕去除算法。该算法框架包括两个主要部分：字幕掩码抽取模块和多尺度大核注意力机制字幕去除模块。得益于新颖的网络模型设计，相较于先前的视频字幕去除方法，该方法不仅具有更小的模型参数和更快的推理速度，而且在定性和定量比较中均表现优异，实现了更出色的字幕去除效果。实验结果证明了该方法的有效性。