2026年度  第2期


标题:YOLOv10-MTP:基于YOLOv10的自动驾驶多任务感知系统
作者:金彦亮 孙龙武
作者单位:上海大学通信与信息工程学院,上海 200444
关键字:自动驾驶;多任务感知;目标检测;实例分割;图像字幕
摘要:自动驾驶系统的核心在于高效、准确地感知环境。现有的多任务感知框架在目标检测、车道线检测和可行驶区域分割等任务中虽然取得了很好的性能指标,但在实时性和复杂场景理解方面仍存在局限。为此,提出了一种新型多任务感知模型——YOLOv10-MTP(YOLOv10 Multi-Task Perception)。该模型基于YOLOv10骨干网络,并进一步引入稀疏自注意力模块(Sparse Self-attention,SSA),有效提升了实时性。YOLOv10-MTP还引入了图像字幕任务,进一步预训练YOLOv10,以增强其对复杂驾驶场景的理解能力,从而提升下游任务(目标检测、车道线检测和可行驶区域分割)的性能。实验结果表明,在BDD100K数据集上,YOLOv10-MTP在嵌入式设备上实现了40 fps的实时推理,且在各项任务中均取得了优异表现,Recall和mAP50得分显著提升,展示了模型在复杂场景下的理解能力和有效性。