摘要 - 我们为自动移动机器人提出了一个基于储层的Q学习模型。该模型是在强化学习框架上训练的,在该框架中,代理商根据环境给出的奖励执行反复试验。此模型中的储层在输入层上接收感官信号,并近似输出层上可能的操作质量。该模型是根据Q-学习训练的,Q学习是一种无模型的重新执行学习算法。Q学习是从最大程度地提高奖励对连续试验的期望值的意义上的最佳政策。我们使用2D机器人模拟器环境评估该模型,其中设备机器人从开始位置转移到目标位置,同时避免环境中的障碍。我们表明该模型正确地学习了适当的行为,并将机器人从开始位置到目标位置。目前的工作可能有助于开发类似脑型的人工智能。1。简介
主要关键词