标题：基于语义掩膜引导的端到端视频抠图模型实现
作者：薛晨晖徐树公
作者单位：上海大学通信与信息工程学院，上海 200444
关键字：视频抠图；语义掩膜；三元图生成；alpha图生成；知识蒸馏
摘要：基于深度学习的视频抠图模型旨在为输入视频序列预测alpha图序列，进而实现视频前景和背景的分离。现有的视频抠图模型基本都需要用户为视频的每一帧图片提供对应的三元图，而三元图的绘制需要消耗不小的人力成本。为了减少视频抠图模型的使用成本，提出了一种语义掩膜引导的端到端视频抠图模型。首先设计了一个可以根据语义掩膜序列自动生成三元图序列的三元图生成模块，以及一个可以根据三元图序列生成alpha图序列的alpha图生成模块，并利用知识蒸馏的方法将这两个模块蒸馏到一个端到端的学生模型中，得到语义掩膜引导的端到端视频抠图模型。