标题：基于Transformer的动态双重处理动作识别框架
作者：谢慧志裴涛
作者单位：上海大学通信与信息工程学院，上海 200444
关键字：视频自监督学习；掩码视频建模；Transformer；动作识别
摘要：该框架采用双重处理策略：图像处理采用掩码图像建模，视频处理采用掩码视频建模。提出了一种新的自适应变压器，该变压器包含一种新的掩码方案，通过旋转掩码算法获得每帧的掩码，在掩码过程中保证一定的时空相关性，增强了模型的上下文感知能力。在主干中提出残差自适应块，有效地利用模型提取的特征信息进行动作分类。引入三维局部特征学习，提高特征表达能力，便于场景理解。在SSV2和Kinetics-400上进行了实验，结果证明了该模型的有效性。准确率分别为71.3%和81.4%。