2025年度  第1期


标题:基于Transformer的动态双重处理动作识别框架
作者:谢慧志 裴涛
作者单位:上海大学通信与信息工程学院,上海 200444
关键字:视频自监督学习;掩码视频建模;Transformer;动作识别
摘要:该框架采用双重处理策略:图像处理采用掩码图像建模,视频处理采用掩码视频建模。提出了一种新的自适应变压器,该变压器包含一种新的掩码方案,通过旋转掩码算法获得每帧的掩码,在掩码过程中保证一定的时空相关性,增强了模型的上下文感知能力。在主干中提出残差自适应块,有效地利用模型提取的特征信息进行动作分类。引入三维局部特征学习,提高特征表达能力,便于场景理解。在SSV2和Kinetics-400上进行了实验,结果证明了该模型的有效性。准确率分别为71.3%和81.4%。