●带有可变步骤频率的TD3:学习控制任务的步骤频率。●具有离散状态空间的基于模型的强化学习。●了解基于模型的离线强化学习的不确定性估计和安全政策改进●研究现实世界中的Cassie机器人的离线增强学习学习●抽象空间中的计划:通过计划模型从计划模型中学习策略,从期权模型中学习策略●适应性PID控制器:研究对控制策略的ADAPTIVE PID PID属性学习。●学习有限的空间门控复发神经网络。●策略梯度带有奖励分解:利用有方面奖励的策略梯度的变化。●深入增强学习算法的性能比较:DQN,DDQN,决斗体系结构和A3C对Atari进行了测试。●使用共形预测降低深神经网中的歧义:在深神经网络中,结构性预测的输出量最小化导致不确定性较小。●自主驾驶的直接感知:通过捕获观察值的时间特征来增强现有方法。
Sevagram,Wardha指导者:H.S.Belsare摘要:在这项研究中,一种新型的自动驾驶汽车导航算法,避免了与行人和临时障碍的碰撞。提出的算法通过使用RGB-D深度传感器来预测临时障碍和徘徊的行人的位置。考虑到这些环境不确定性,介绍了唯一的临时视觉流动性规则。提出了一种深入的增强学习(DRL)算法作为决策技术(以引导自动驾驶工具无事发生)。比较了深层Q-NETWORK(DQN),双重Q-Network(DDQN)和Dueling Double Deep Q-Network(D3DQN)算法,并且D3DQN的负率最少。我们使用CARLA模拟环境测试了算法,以检查RGB-D和RGB-LIDAR的输入值。构成综合神经网络D3DQN的一系列算法被选为最佳DRL算法。在减慢城市流量的建模中,RGB-D和RGB-LIDAR产生的结果基本相同。修改了更新的儿童驾驶汽车的自动驾驶版本,以证明拟议算法的实时效率。索引术语:自动驾驶工具,深度加固学习,临时凸进,避免障碍物,车道检测,对象检测。1。引言临时或临时障碍,例如路障,坑洼,速度颠簸和漫游行人,可能会为印度和类似国家的自动驾驶车辆提供挑战。另外,自动驾驶车辆可以使用Vanet(车辆临时网络)与路边单元或另一个移动车辆进行通信,以收集有关事故,道路障碍,交通拥堵和天气状况的最新信息。这种类型的信息对于允许自动驾驶车辆安全行驶并防止道路事故也很重要。研究人员已将传感器安装在车辆上,以识别临时障碍,例如,一些研究人员使用这些传感器来指导自动驾驶车辆,例如,一些研究人员开发了一种基于智能手机的Ad Hoc-Obstacle检测算法。同时,在中央服务器上记录了有关已确定障碍物(类似位置)的信息,并用于提醒其他驾驶员在同一道路上行驶的驾驶员。