标题：YOLOv10-MTP：基于YOLOv10的自动驾驶多任务感知系统
作者：金彦亮孙龙武
作者单位：上海大学通信与信息工程学院，上海 200444
关键字：自动驾驶；多任务感知；目标检测；实例分割；图像字幕
摘要：自动驾驶系统的核心在于高效、准确地感知环境。现有的多任务感知框架在目标检测、车道线检测和可行驶区域分割等任务中虽然取得了很好的性能指标，但在实时性和复杂场景理解方面仍存在局限。为此，提出了一种新型多任务感知模型——YOLOv10-MTP（YOLOv10 Multi-Task Perception）。该模型基于YOLOv10骨干网络，并进一步引入稀疏自注意力模块（Sparse Self-attention，SSA），有效提升了实时性。YOLOv10-MTP还引入了图像字幕任务，进一步预训练YOLOv10，以增强其对复杂驾驶场景的理解能力，从而提升下游任务（目标检测、车道线检测和可行驶区域分割）的性能。实验结果表明，在BDD100K数据集上，YOLOv10-MTP在嵌入式设备上实现了40 fps的实时推理，且在各项任务中均取得了优异表现，Recall和mAP50得分显著提升，展示了模型在复杂场景下的理解能力和有效性。