2025年度  第6期


标题:基于集成对抗模型优化的约束强化学习方法
作者:陈春甫;穆煜
作者单位:太原师范学院计算机科学与技术学院,山西 晋中 030600;太原工业学院自动化系,山西 太原 030000
关键字:约束强化学习;集成对抗模型;智能体
摘要:未知环境动力学模型可能导致模型预测误差,进而引发不安全行为。为了解决安全数据的准确率不高,求得最优解的效率较低的问题,提出了一种基于集成对抗模型优化的强化学习方法,旨在解决智能体在面临安全约束时如何有效学习和利用安全数据的问题。该方法使用集成模型预测不确定性,并通过对抗网络生成的扰动来学习更安全的策略。在交叉熵函数中引入了全局精英变量,来加速算法寻找最优解的过程。结果表明,对抗网络的引入提高了模型的安全性,可以将安全数据准确率保持在高的水平,使其适用于更多安全场景。