详细内容或原文请订阅后点击阅览
使用 Python 的机器人技术:Q-Learning、Actor-Critic 与进化算法
为您的 RL 机器人构建自定义 3D 环境Python 机器人学:Q-Learning vs Actor-Critic vs Evolutionary Algorithms 帖子首先出现在 Towards Data Science 上。
来源:走向数据科学机器学习有四种类型:
- Supervised — 当数据集中的所有观测值都标记有目标变量时,您可以执行回归/分类来学习如何预测它们。Unsupervised — 当没有目标变量时,因此您可以执行聚类来对数据进行分割和分组。Semi-Supervised — 当目标变量不完整时,因此模型也必须学习如何预测未标记的数据。在这种情况下,使用监督和无监督模型的混合。强化 ——当有奖励而不是目标变量时,你不知道最好的解决方案是什么,所以这更多的是一个达到特定目标的反复试验的过程。
更准确地说,强化学习研究人工智能如何在交互式环境中采取行动以最大化奖励。在监督训练期间,您已经知道正确的答案(目标变量),并且您正在拟合一个模型来复制它。相反,在强化学习问题中,你事先不知道正确答案是什么,唯一的方法是采取行动并获得反馈(奖励),因此模型通过探索和犯错误来学习。
强化学习 训练机器人 算法