标题:SEDTReg:一种基于区域优先的自监督声音事件检测方法 作者:胡瑶瑶 黄青华 作者单位:上海大学通信与信息工程学院,上海 200444 关键字:声音事件检测;自监督学习;转换器;伪标签 摘要:近期,在声音事件检测(Sound Event Detection, SED)研究中,一种采用端到端的检测转换器(Detection Transformer,DETR)被提出,它直接输出事件级预测结果。与基于帧的模型相比,该模型的训练需要更多记录时间起始的强标注数据。提出了一种新颖的SED自监督方法,它通过区域优先算法生成伪标签,即SEDTReg。该方法提供了一种解决强标注数据不足问题的替代方式。考虑到传统Transformer模型注意力模块的收敛速度较慢,提出的方法采用了多尺度可变形注意力机制。在DCASE 2022 Task4数据集上进行训练之后,所提出的方法在基于事件的F1分数上,比有竞争力的基线提高了2.2%,并节省了大量训练时间。 |