摘要 - 在本文中,我们提出了一种基于通信的动作空间增强D-MARL探索算法,以提高以占用网格图为代表的未知环境的绘制效率。通常,在探索大型和非结构化环境时,自主系统之间的通信至关重要。在这样的真实世界情景中,数据传输受到限制,并且在很大程度上依赖于代理间接近性和自主平台的属性。在拟议的方法中,每个代理的策略都通过利用异构代理近端策略优化算法进行优化,以自主选择是交流还是探索环境。为实现这一目标,通过整合代理间的交流和探索来提出多种新颖的奖励功能。调查的方法旨在提高映射过程中的效率和鲁棒性,最大程度地减少勘探重叠并防止代理碰撞。已经将接受不同奖励功能的D-MARL政策进行了比较,以了解不同的奖励术语对同质代理人的协作态度的影响。最后,提供了多个模拟结果以证明所提出的方案的功效。
主要关键词