强化学习变得简单:在Python中建立Q学习代理

受到Alphago的Move 37的启发 - 了解代理如何探索,利用和Win The Post Post Forwsworce学习变得简单:在Python中建立Q学习代理商首先出现在数据科学方面。

来源:走向数据科学

,GO世界冠军Lee Sedol面对一个不是由血液和血液制成的对手,而是由代码线制成。 很快就显而易见的是人类迷路了。 最后,Lee Sedol输了4:1。 上周,我再次观看了纪录片Alphago,并再次发现它令人着迷。 关于它的可怕事情吗? Alphago并未从数据库,规则或策略书籍中获得游戏风格。 相反,它已经对抗了数百万次,并学会了如何在此过程中获胜。 在第2场比赛中移动37是全世界理解的那一刻:这个人工智能不像人类那样发挥作用 - 它的表现更好。 Alphago结合了监督的学习,强化学习和搜索。一个令人着迷的部分是,它的策略来自通过对抗自身的学习而出现的 - 使用强化学习随着时间的流逝而改善。 现在,我们不仅在游戏中,而且在能源优化的机器人(例如抓地力武器或家用机器人)中使用强化学习,例如为了减少数据中心或交通控制的能源消耗,例如通过交通信号灯优化。 以及在现代代理商中,我们现在使用大型语言模型以及强化学习(例如,从人类反馈中学习的强化学习),以使Chatgpt,Claude或Gemini的反应更像人性化。 在本文中,我将确切地向您展示它的工作原理,以及我们如何使用简单游戏更好地理解该机制:TIC TAC TOE。 什么是强化学习? 当我们观察一个婴儿学习走路时,我们会看到:它站起来,跌倒,再次尝试 - 在某个时候迈出了第一步。 没有老师向婴儿展示如何做。取而代之的是,婴儿通过反复试验尝试行走不同的动作。 当它可以站立或走几步时,这是婴儿的奖励。毕竟,它的目标是能够行走。如果掉下来,就没有回报。 试验,错误和奖励的学习过程是强化学习(RL)的基本思想。 RL代理如何思考,决定和学习

,GO世界冠军Lee Sedol面对一个不是由血液和血液制成的对手,而是由代码线制成。

很快就显而易见的是人类迷路了。

最后,Lee Sedol输了4:1。

上周,我再次观看了纪录片Alphago,并再次发现它令人着迷。

关于它的可怕事情吗? Alphago并未从数据库,规则或策略书籍中获得游戏风格。

相反,它已经对抗了数百万次,并学会了如何在此过程中获胜。

在第2场比赛中移动37是全世界理解的那一刻:这个人工智能不像人类那样发挥作用 - 它的表现更好。

Alphago结合了监督的学习,强化学习和搜索。一个令人着迷的部分是,它的策略来自通过对抗自身的学习而出现的 - 使用强化学习随着时间的流逝而改善。

现在,我们不仅在游戏中,而且在能源优化的机器人(例如抓地力武器或家用机器人)中使用强化学习,例如为了减少数据中心或交通控制的能源消耗,例如通过交通信号灯优化。

以及在现代代理商中,我们现在使用大型语言模型以及强化学习(例如,从人类反馈中学习的强化学习),以使Chatgpt,Claude或Gemini的反应更像人性化。

在本文中,我将确切地向您展示它的工作原理,以及我们如何使用简单游戏更好地理解该机制:TIC TAC TOE。

什么是强化学习?

当我们观察一个婴儿学习走路时,我们会看到:它站起来,跌倒,再次尝试 - 在某个时候迈出了第一步。

没有老师向婴儿展示如何做。取而代之的是,婴儿通过反复试验尝试行走不同的动作。

当它可以站立或走几步时,这是婴儿的奖励。毕竟,它的目标是能够行走。如果掉下来,就没有回报。

试验,错误和奖励的学习过程是强化学习(RL)的基本思想。RL代理如何思考,决定和学习