强化学习(RL)在机器学习算法的领域中脱颖而出,因为其独特的方法涉及代理与环境相互作用的代理,以发现最大程度地提高预期累积奖励的政策。这与监督的学习形成对比,后者依赖于预定的数据标签对来进行更正。在RL中,反馈信号仅来自环境中定义的奖励功能,这使得此奖励功能的设计至关重要。设计较差的奖励功能可以阻碍学习过程,并导致一项预测不良行动的政策[3],强调了RL仔细奖励功能工程的重要性。在为环境设计奖励功能时,尤其是对于机器人操纵任务时,常见的方法是将对象和目标之间的总距离或额外的奖励使用。例如,fetch [29]中的任务使用抓地力和目标位置之间的距离作为奖励,而Metaworld [44]中的拾取位置任务使用抓地力,对象和目标位置之间的距离,并带有额外的奖励,表明对象是否由抓手抓住。但是,这种奖励功能设计倾向于评估当前状态而不是动作本身。一种更强大的方法涉及基于动作的奖励指标,这些指标可以评估行动质量,考虑到诸如动作效率,路径优化和动态相互作用之类的因素。在机器人操纵任务中,要实现目标状态,必须首先实现一系列先决条件。仅在物体和目标位置之间的距离时设计奖励功能通常会错过一些先决条件。
批准:Sue C. Bratton,少校教授 Garry L. Landreth,委员会成员 Dee Ray,委员会成员 Janice Holden,咨询项目协调员 Michael Altekruse,咨询、发展和高等教育系主任 M. Jean Keller,教育学院院长 Sandra L. Terrell,罗伯特·B·图卢兹研究生院院长
我们的图形微积分的能力远远超出了这一长度的文章。尚未讨论经典控制,但是对控制的研究是[11]中†-Frobenius algebras的原始公理化的动力。这种控制概念允许表示量子测量的分支行为。因此,该系统包含测量计算的方程理论[22],并且可以模拟其他基于测量的方案,例如逻辑栅极传送[23]和状态转移[24]。正在进行的工作旨在在我们的图形环境中对基于一般测量的量子计算进行统一处理。我们强调,我们所描述的演算足以在量子力学领域进行许多计算。然而,已知它是代数不完整的;也就是说,并非可以以图形方式得出希尔伯特空间中的每个真实方程。additional,尚不清楚,将需要公理才能使所有理想的方程式衍生。由于其简单形式 - 方程是无向图的局部变形 - 我们呈现的演算是可以自动化的,打开了通向协议和算法的半自动或全自动推导的门,以及其正确性的证明。