Loading...
机构名称:
¥ 1.0

自主停车是一种革命性的技术,它随着深度强化学习的兴起,尤其是双胞胎延迟的深层确定性政策梯度算法(TD3),它改变了汽车行业。尽管如此,由于Q值估计的偏见,在确定在特定状态下采取的行动的良好时,TD3的鲁棒性仍然是一个重大挑战。为了研究这一差距,本文分析了TD3中的不同损失函数,以更好地近似真正的Q值,这对于最佳决策是必不可少的。评估了三个损失功能;平均平方错误(MSE),平均绝对误差(MAE)和HUBER损失,通过模拟实验进行自动停车。结果表明,HUBER损失的TD3具有最高的收敛速度,而最快的演员和批评损失收敛。发现Huber损失函数比孤立使用的MSE或MAE这样的损耗函数更强大,更有效,这使其成为TD3算法中现有损失函数的合适替代。将来,当估计的Q值代表以特定状态采取行动的预期奖励的估计Q值时,将使用Huber损失的TD3用作解决TD3中高估问题的基本模型。

自主停车的TD3中损失函数的比较分析

自主停车的TD3中损失函数的比较分析PDF文件第1页

自主停车的TD3中损失函数的比较分析PDF文件第2页

自主停车的TD3中损失函数的比较分析PDF文件第3页

自主停车的TD3中损失函数的比较分析PDF文件第4页

自主停车的TD3中损失函数的比较分析PDF文件第5页