Loading...
机构名称:
¥ 1.0

●带有可变步骤频率的TD3:学习控制任务的步骤频率。●具有离散状态空间的基于模型的强化学习。●了解基于模型的离线强化学习的不确定性估计和安全政策改进●研究现实世界中的Cassie机器人的离线增强学习学习●抽象空间中的计划:通过计划模型从计划模型中学习策略,从期权模型中学习策略●适应性PID控制器:研究对控制策略的ADAPTIVE PID PID属性学习。●学习有限的空间门控复发神经网络。●策略梯度带有奖励分解:利用有方面奖励的策略梯度的变化。●深入增强学习算法的性能比较:DQN,DDQN,决斗体系结构和A3C对Atari进行了测试。●使用共形预测降低深神经网中的歧义:在深神经网络中,结构性预测的输出量最小化导致不确定性较小。●自主驾驶的直接感知:通过捕获观察值的时间特征来增强现有方法。

Anurag Koul

Anurag KoulPDF文件第1页

Anurag KoulPDF文件第2页

Anurag KoulPDF文件第3页