2024年度  第1期


标题:基于时空解耦Transformer的视频字幕去除算法
作者:涂奕飞1,2 蔡非凡1,2 王超1,2 丁友东1,2
作者单位:1 上海大学上海电影学院,上海 200072;2 上海电影特效工程技术研究中心,上海 200072
关键字:视频去字幕;深度学习;Transformer;注意力机制
摘要:视频字幕在传递信息的同时,固化在视频中的字幕也阻碍了视频的重复利用。提出一种基于时空解耦Transformer的视频字幕去除算法,能够从带有字幕文本的视频序列中去除字幕文本,并重建出被字幕区域遮挡的背景图像。整体框架分为两个部分,字幕掩膜提取模块和字幕去除模块,前者快速精准地获得输入视频序列的二值字幕掩膜,将得到的二值字幕掩膜作为辅助信息,输入到基于时空解耦Transformer的字幕去除模块,进行字幕文本的去除和背景纹理的恢复,实现对整体视频字幕的去除。与现有的经典视频字幕去除方法相比,在峰值信噪比和结构相异性等图像质量指标以及视觉效果上,该方法均取得了更好的性能,实验结果验证了该方法在视频字幕去除领域的有效性。