标题：基于Vmamba和余弦相似度的RGB-X语义分割网络
作者：赖俊源肖徽样
作者单位：广东工业大学自动化学院，广东广州 510006
关键字：多模态；语义分割；特征融合；场景理解
摘要：语义分割是计算机视觉的关键任务之一，不同传感器提供的多模态信息能显著提高语义分割模型对场景的感知和理解。提出一种基于多模态特征融合的图像语义分割模型，对RGB-X（RGB-D或RGB-T）图像进行道路场景的语义分割。模型采用Vmamba作为主干网络，将RGB模态和辅助模态分别独立提取特征。在此基础上加入了多模态特征融合模块，对提取到的不同分辨率的特征通过余弦相似度计算各自权重，按照权重进行融合。此外，利用一种多尺度特征增强模块，帮助模型更好地利用不同尺度感受野的信息。最后，在Cityscpaes数据集和MFNet数据集上对进行实验，实验结果表明，所提出的方法能以较低的计算复杂度实现较好的语义分割效果。