摘要在不久的将来,自动驾驶汽车(AV)可能会与混合型官员中的人类驾驶员同居。这种同居在造成的流行和个人流动性方面以及从道路安全的角度提出了严重的挑战。混合术可能无法满足预期的安全要求,然后自动驾驶汽车可能会垄断该官员。使用多机构增强学习(MARL)算法,研究人员试图针对两种情况设计自动驾驶汽车,本文研究了他们最近的进步。我们专注于解决决策问题的文章,并确定四个范式。有些作者解决了或者没有社会可行的AV的混合问题问题,而另一些作者则解决了完全自治的案例。虽然后一种情况本质上是一个交流问题,但大多数解决混合处理的作者承认了一些局限性。文献中发现的当前人类驾驶员模型过于简单,因为它们不涵盖驾驶员行为的异质性。因此,他们无法概括各种可能的行为。对于所研究的每篇论文,我们分析了作者如何从观察,行动和奖励方面提出MARL问题以匹配它们所应用的范例。
主要关键词