标题:基于元强化学习的自动驾驶算法研究 作者:金彦亮 范宝荣 高塬 作者单位:上海大学通信与信息工程学院,上海 200444 关键字:自动驾驶;元学习;强化学习;近端策略优化 摘要:随着深度学习和强化学习的发展,基于深度强化学习的端到端自动驾驶模型的研究已经成为热门研究课题。针对基于深度强化学习的自动驾驶模型“学会学习”能力较差,面临新的驾驶任务时需从零开始训练、训练速度缓慢、泛化性能差等问题,提出了一种基于元强化学习的MPPO(Meta-PPO)自动驾驶模型。MPPO模型将元学习与强化学习相结合,利用元学习算法在元训练阶段为自动驾驶模型训练一组良好的参数,使模型在面临新的驾驶任务时能够在该组参数的基础上,经过少量样本微调就可以快速达到收敛状态。实验结果表明,在导航场景任务中,与基于强化学习的基准自动驾驶模型相比,MPPO模型的收敛速度提高了2.52倍,奖励值提高了7.50%,偏移量减少了7.27%,泛化性能也得到了一定程度的提高,能够应用于多任务场景中。 |