在在线广告中,广告商通常通过使用需求端平台(DSP)提供的自动铸造工具参加广告拍卖的广告广告机会。当前的自动铸造算法通常采用强化学习(RL)。然而,由于安全问题,大多数基于RL的自动竞标政策都经过模拟培训,从而在在线环境中部署时会导致性能退化。要缩小此差距,我们可以并行部署多个自动竞标代理,以收集大型交互数据集。然后可以利用离线RL算法来培训新的政策。随后可以部署训练有素的策略以进行进一步的数据收集,从而产生了迭代培训框架,我们将其称为迭代的离线RL。在这项工作中,我们确定了这种迭代离线RL框架的瓶颈,该框架源自离线RL算法固有的保守主义引起的无效探索和剥削。为了克服这种瓶颈,我们提出了轨迹探索和外观(TEE),它引入了一种新颖的数据收集和数据利用方法,用于从轨迹有偏见的迭代离线RL。此外,为了在保留TEE的数据集质量的同时确保在线探索的安全性,我们建议通过自适应行动选择(SEAS)进行安全探索。在阿里巴巴展示广告平台上的离线实验和现实世界实验都证明了我们提出的方法的有效性。
设想的增强学习应用领域(RL)包括自动驾驶,精确农业和金融,所有这些都要求RL代理在现实世界中做出决定。在这些领域中采用RL方法的一项重大挑战是常规算法的非舒适性。尤其是RL的焦点通常是回报的预期值。期望值是无限多个轨迹的统计集合的平均值,这可能对平均个体的性能不信息。例如,当我们具有重尾回报分布时,整体平均值可以由罕见的极端事件主导。因此,优化期望值可能会导致策略,该政策产生了异常高回报,概率
强化学习(RL)是机器学习中的一个活跃子区域,已成功应用于解决复杂的决策问题,例如玩棋盘游戏[31,32]和视频游戏[22] [22],自主驾驶[18,21],以及最近,将大型语言模型和文本生成模型与人类的preference preferfection and-to anclight [18,21]。RL研究主要集中在离散时间和空间中的马尔可夫决策过程(MDP)上。有关MDP的理论和应用的详细说明,请参见[34]。Wang,Zariphopoulou和Zhou [40]是第一个使用受控扩散过程的RL制定和开发RL的熵调查的,探索性控制框架的人,该过程固有地与连续状态空间和可能的连续作用(可能连续的动作(控制)空间)。在此框架中,随机放松控制被用来表示探索,从而捕获了RL核心的“反复试验”概念。随后的工作旨在通过Martingale方法[14、15、16]和政策优化在连续时间内为无模型RL奠定理论基础[44]。在这里,“无模型”是指潜在的动力学是扩散过程,但是它们的系数以及奖励函数是未知的。[14,15,16]的关键见解是,可以从基于连续时间RL的Martingale结构中得出学习目标。这些论文中的理论结果自然会导致一般RL任务的各种“无模型”算法,因为它们直接直接学习最佳策略而无需尝试学习/估计模型参数。这些算法中的许多算法恢复了通常以启发式方式提出的MDP的现有RL算法。然而,对MDP的RL研究占据了中心阶段的算法的融合和遗憾分析仍然缺乏扩散率。To our best knowledge, the only works that carry out a model-free convergence analysis and derive sublinear regrets are [12] for a class of stochastic linear–quadratic (LQ) control problems and [11] for continuous-time mean–variance portfolio selection, both of which apply/apapt the policy gradient algorithms developed in [15] and exploit heavily the special structures of the problems.本文的目的是通过对[16]中引入的(小)Q学习的定量分析以及通常非线性RL问题的相关算法来填补这一空白。(big)Q-学习是离散时间MDP RL的关键方法,但Q功能在连续的时间内崩溃,因为它不再依赖于时间步长无限时间小时的操作。[16]提出了Q功能的概念,Q功能是Q功能在时间离散化方面的第一阶导数。
本文重点关注人与机器之间的互动,特别是人工智能,以分析这些系统如何逐渐接管迄今为止被认为“仅”属于人类的角色。最近,随着人工智能在无需监督的情况下学习、识别模式和解决问题的能力方面的提升,它采用了创造力、新颖性和意向性等特征。这些事件让人们深入了解了人类的本质,以及在后人文主义话语中越来越重要的自我定义。这两个主题中的讨论属于人工智能哲学,涉及意识、意向性和创造力问题。人工智能导致当前以人类为中心的观念发生转变,导致人类被描绘成特殊的存在。其次,这一探索回答了与人工智能应用相关的重要问题,例如伦理、社会和存在问题。本文强调有必要定义人工智能的出现及其对人与技术互动的影响,以及在模仿思维和创造力的智能机器出现之后社会个性的作用。它试图促使更具体地分析人工智能如何或为何减少人工智能与人类智能之间的差异,或增加将意识概念扩展到以人类为中心的概念之外的选择前景。
摘要:机器人系统越来越多地用于工业自动化,诸如抛光需要敏捷性和合规行为等接触任务。这些任务很难建模,从而使经典控制具有挑战性。深钢筋学习(RL)通过直接从数据中启用模型和控制策略来提供有希望的解决方案。但是,其应用于现实世界问题的应用受数据效率低下和不安全探索的限制。自适应混合RL方法将经典控制和RL自适应地结合在一起,结合了两者的优势:来自RL的控制和学习的结构。这导致了数据效率和勘探安全性的提高。但是,它们对硬件应用程序的潜力仍然没有得到充实的态度,迄今为止没有对物理系统的评估。这种评估对于在现实世界中充分评估这些方法的实用性和有效性至关重要。这项工作介绍了用于机器人抛光的混合RL算法CHEQ的实验证明,并具有可变阻抗,这是一项需要精确力和速度跟踪的任务。在模拟中,我们显示可变阻抗会增强抛光性能。我们将独立的RL与自适应混合RL进行了比较,这表明Cheq在遵守安全限制的同时可以实现有效的学习。在硬件上,Cheq实现了有效的抛光行为,只需要八个小时的训练,只会发生五次失败。这些结果突出了自适应混合RL对于直接在硬件上训练的真实世界,接触式任务的潜力。
摘要:提高电力系统的能源效率对于降低环境破坏和促进可持续发展至关重要。近年来,强化学习 (RL) 方法已成为许多领域寻找最佳能源使用方式的有用方法。本研究的目的是研究如何使用 RL 算法提高电力系统的能源效率。该研究探讨了如何使用 RL 算法通过减少浪费、充分利用能源和最大限度地利用能源来提高电力系统的效率。该研究提出了一种使用 RL 方法来动态改变诸如电力共享、负载调度和资源分配等事物的新方法,以便在尽可能少地使用能源的同时保持系统性能。研究方法的一些重要部分是创建与电力系统及其局限性一起工作的 RL 模型,以及提出正确的支付功能,以帮助人们学习如何以消耗更少能源的方式行事。使用广泛的模型和对样本电气系统的实际研究来测试建议的方法的效果。根据研究结果,使用 RL 算法可以大大改变能源使用效率,能源使用量将从 [插入确切数字范围] 减少。该研究还展示了基于 RL 的解决方案在不同系统设置和操作场景中的灵活性和可扩展性。总体而言,这项研究通过展示如何使用 RL 算法解决电气系统中的难题,增加了越来越多的能源效率研究。根据这项研究的教训,我们可以制定切实可行的计划来提高能源效率,促进各种业务和用途的可持续发展。
在过去的几年中,机器人技术领域取得了显着进展,无论是固定机器人在制造业中执行动态变化的任务还是用于仓库管理或太空勘探的自动化导向车辆。使用人工智能(AI),尤其是强化学习(RL),为各种机器人任务的成功做出了重大贡献,证明向智能控制范式的转变是成功和可行的。RL的一个令人着迷的方面是它可以同时作为低级控制器和高级决策工具的功能。一个例子是操纵机器人,其任务是通过具有不规则和反复障碍的环境来指导自己。在这种情况下,低级控制器可以使用关节角度并使用关节轨迹控制器执行平滑运动。在较高级别上,RL也可以用来定义旨在避免障碍和自我填充的复杂路径。AGV成功操作的一个重要方面是做出及时决定的能力。当基于RL的召集神经网络(CNN)网络与RL合并时,代理可以决定有效地将AGV引导到目的地,这正在减轻灾难性碰撞的风险。即使可以通过经典解决方案来解决许多这些挑战,但设计这种解决方案也需要大量时间和精力,这使得这一过程非常昂贵。此外,我们在经典机器人方法和基于RL的机器人方法之间提供了针对性的比较分析。介绍了对机器人技术的不同类别的RL应用程序,本研究将概述RL在机器人应用中的使用,从而研究了先进应用程序的优势和缺点。除了我们的分析得出结论之外,还提供了未来可能加速机器人技术的进步和自治的未来可能性和进步的概述。
近年来,游戏 AI 研究取得了巨大突破,尤其是强化学习 (RL)。尽管取得了成功,但底层游戏通常是使用自己预设的环境和游戏机制实现的,因此研究人员很难为不同的游戏环境设计原型。然而,针对各种游戏环境测试 RL 代理对于最近研究 RL 泛化并避免可能发生的过度拟合问题至关重要。在本文中,我们介绍了 Griddly 作为游戏 AI 研究的新平台,它提供了高度可配置的游戏、不同的观察者类型和高效的 C++ 核心引擎的独特组合。此外,我们还提出了一系列基线实验来研究不同观察配置和 RL 代理泛化能力的影响。
摘要 - 强化学习(RL)已成为复杂环境中自动决策的有效范式。但是,在RL中,事件驱动的决策过程的集成仍然是一个挑战。本文介绍了一种新颖的体系结构,将离散事件监督(DES)模型与标准RL框架相结合,以创建混合决策系统。我们的模型利用了DES的能力来管理基于事件的动态,而RL代理对连续状态和行动的适应性,从而促进了以连续和离散事件为特征的系统中更强大,更灵活的控制策略。DES模型与RL代理一起运行,通过基于事件的见解来增强策略的性能,而环境的状态过渡则由机械模型约束。我们通过模拟证明了方法的功效,这些模拟显示出比传统RL实现的性能指标的改进。我们的结果表明,这种综合方法对从工业自动化到智能交通系统的应用有望在离散事件处理至关重要的情况下。索引术语 - 预言学习,离散事件超级访问控制,混合系统,自主决策,事件驱动的动态