标题：基于多通道时空融合网络的人体动作识别
作者：高璇1，2
作者单位：1 上海大学通信与信息工程学院，上海 200444； 2 中国科学院上海技术物理研究所中国科学院智能红外感知重点实验室，上海 200083
关键字：动作识别；3D卷积；通道注意力机制；多尺度特征融合；多通道时空融合
摘要：针对传统视频人体动作识别算法无法充分利用视频的时间空间信息、占用过多的计算资源、识别准确率不高等问题，提出了一种基于通道注意力及多尺度特征融合的多通道时空融合网络模型，将添加通道注意力和多尺度融合的空间网络和包含光流信息的时间网络相结合，实现了对视频段多尺度融合特征的处理和复杂动作时空特征的充分提取。该模型使用视频帧序列和连续光流图片作为网络输入，空间网络对视频帧序列分别进行3D卷积特征提取以及多特征融合的帧集合特征提取；时间网络对连续光流图片进行3D卷积特征提取，最后进行三种特征的融合后得到最终的人体动作识别结果。在动作视频数据集UCF101和HMDB51上进行实验，该模型在Kinetics预训练模型下分别取得了94.1%和71.8%的识别准确率。实验结果表明，该方法能够充分融合空间和时间维度信息，在基于视频的人体动作识别问题上具有较高的识别准确率。