愤怒的小鸟人工智能竞赛 (AIBIRDS) 的目标是构建能够比最优秀的人类玩家更好地玩新版愤怒的小鸟关卡的智能代理。该竞赛由本报告的作者于 2012 年发起,并与一些主要的人工智能会议同期举行,如 2013 年和 2015 年的国际人工智能联合会议以及 2014 年的欧洲人工智能会议。愤怒的小鸟是一款流行的基于物理的益智游戏,由 Rovio 公司开发,要求玩家使用弹弓将小鸟射向受物理结构保护的绿色小猪(见图 1)。玩家可以采取的操作很简单,即小鸟从弹弓上释放的点 (x, y) 以及释放后激活小鸟特殊能力的时间 (t)。一旦所有小猪都被消灭,关卡就算通过;大多数关卡最多需要五只小鸟即可通过。不同的鸟有不同的行为和特殊能力,虽然玩家知道鸟在弹弓上出现的顺序,但玩家无法操纵这个顺序。虽然这听起来很简单,但对于人工智能来说,这是一个非常困难的问题,因为动作空间是连续的,如果不模拟每个动作,就无法知道每个动作的确切结果。内置的物理模拟器可以确定性地
摘要。对足球等侵入性运动的分析具有挑战性,因为比赛情况在时间和空间上不断变化,多个智能体单独识别比赛情况并做出决策。以前使用深度强化学习的研究通常将球队视为单个智能体,并评估每个离散事件中持球的球队和球员。那么,在时空连续的状态空间中评估多个球员(包括远离球的球员)的动作是一项挑战。在本文中,我们提出了一种基于多智能体深度强化学习的单一整体框架中评估有球和无球足球运动员可能采取的动作的方法。我们考虑连续状态空间中的离散动作空间,模仿谷歌研究足球,并利用监督学习进行强化学习中的动作。在实验中,我们分析了与常规指标、赛季进球和专家比赛评分的关系,并展示了所提方法的有效性。我们的方法可以评估多名球员在整个比赛过程中如何连续移动,这很难离散化或标记,但对于团队合作、球探和球迷参与至关重要。
摘要 - 新应用程序的出现导致对移动边缘计算(MEC)的需求很高,这是一个有希望的范式,在网络边缘部署了类似云的架构,以向移动用户(MUS)提供计算和存储服务。由于MEC服务器与远程云相比的资源有限,因此在MEC系统中优化资源分配并平衡合作MEC服务器之间的负载至关重要。MEC服务器的不同类型计算服务(CSS)的缓存应用数据也可能是高度好处的。在本文中,我们调查了合作MEC系统中层次结构缓存和资源分配的问题,该系统被称为有限的Horizon成本成本最小化Markov决策过程(MDP)。为了处理大型状态和动作空间,我们将问题分解为两个耦合的子问题,并开发了基于分层的增强学习(HRL)基于基于的解决方案。下层使用深Q网络(DQN)来获取流量决策的服务缓存和工作量,而上层则利用DQN来获得合作MEC服务器之间的负载平衡决策。我们提出的方案的可行性和有效性通过我们的评估结果验证。
摘要 - 能够学习新型操纵任务的自主机器人系统有望将行业从制造业转变为服务自动化。然而,当前方法(例如,VIP和R3M)仍然面临重大障碍,尤其是机器人实施例之间的域间隙以及在特定动作空间内成功执行成功的任务执行的稀疏性,从而导致了错误和模棱两可的任务。我们介绍了AG2Manip(操纵的代理 - 不合稳定代表),该框架旨在通过两个关键的创新来解决这些挑战:(1)源自人类操纵视频的代理人视觉表示,并具有实施方案的细节,以增强普遍性; (2)代表机器人的运动学代表到通用代理代理,强调了终端效果和对象之间的关键相互作用。ag2manip在模拟基准中进行了经验验证,显示出325%的性能提高而不依赖于域特异性演示。消融研究进一步强调了代理 - 不合稳定的视觉和作用表示对这一成功的基本贡献。将我们的评估扩展到现实世界,AG2Manip很明显地将模仿学习成功率从50%提高到77.5%,这表明了其在模拟和真实环境中的有效性和可推广性。
摘要 — 移动网络 (MN) 有望提供前所未有的机会,实现全新的互联体验世界,并从根本上改变人们与万物互动的方式。由于配置问题日益复杂,新服务需求不断涌现,MN 变得越来越复杂。这种复杂性对部署、管理、运营、优化和维护提出了重大挑战,因为它们需要对 MN 有完整的理解和认知。人工智能 (AI) 处理计算机中智能行为的模拟,已在许多应用领域取得巨大成功,表明其在认知 MN 状态和做出智能决策方面具有潜力。在本文中,我们首先提出了一种由人工智能驱动的移动网络架构,并讨论了认知复杂性、高维动作空间决策和系统动态自适应方面的挑战。然后,讨论了与人工智能相关的潜在解决方案。最后,我们提出了一种深度学习方法,将 MN 的状态直接映射到感知的 QoS,将认知与决策相结合。我们提出的方法可以帮助运营商做出更明智的决策来保证 QoS。同时,我们提出的方法的有效性和优势在真实数据集上得到了证明,该数据集涉及 5 天内 77 个站点的 31261 名用户。
摘要 - 许多现实世界的应用程序可以作为多机构合作问题,例如网络数据包路由和自动驾驶汽车的协调。深入增强学习的出现(DRL)通过代理和环境的相互作用为多机构合作提供了一种有希望的方法。然而,传统的DRL解决方案在策略搜索过程中遭受了具有连续动作空间的多个代理的高维度。此外,代理政策的动态性使训练非平稳。为了解决这些问题,我们建议采用高级决策和低级个人控制,以进行有效的政策搜索。特别是,可以在高级离散的动作空间中学习多种代理的合作。同时,低级个体控制可以减少为单药强化学习。除了分层增强学习外,我们还建议对手建模网络在学习过程中对其他代理的政策进行建模。与端到端的DRL方法相反,我们的方法通过以层次结构将总体任务分解为子任务来降低学习复杂性。为了评估我们方法的效率,我们在合作巷更改方案中进行了现实世界中的案例研究。模拟和现实世界实验都显示了我们在碰撞速度和收敛速度中的优越性。索引条款 - 多机构合作;深入的强化学习;分层增强学习
术语 A = 动作空间 a = 动作 a ,b = 机械手长度属性,m B = 值分布箱的数量 C = 科里奥利矩阵 dt = 目标上的对接口位置,m E = 期望 h = 角动量,kg ⋅ m2 ∕ s I = 转动惯量,kg ⋅ m2 J = 总预期奖励 K = 参与者数量 L = 损失函数 l = 线性动量,kg ⋅ m ∕ s M = 质量矩阵 M = 小批量大小 m = 质量,kg N = N 步返回长度 N = 正态分布 p = 位置,m R = 重放缓冲区大小 r = 奖励 u = 控制力度 v = 速度,m ∕ s X = 状态空间 x = 总状态;特定状态,下标为 c 或 tx = x 方向的位置,m Y = 目标值分布 y = y 方向的位置,m Z ϕ = 具有参数 ϕ 的价值神经网络 α = 策略网络学习率 β = 价值网络学习率 γ = 未来奖励的折扣因子 ϵ = 权重平滑参数 π θ = 具有参数 θ ϕ 0 或 θ 0 的策略神经网络 = ϕ 或 θ ϕ 的指数平滑版本,q = 角度,度 σ = 探索噪声标准差 ω = 角速率,rad ∕ s
在复杂环境中无人驾驶汽车(UAV)的自主导航仍然是一个挑战性的领域。将无人机的实时感知视为一项顺序决策挑战,研究人员越来越多地采用基于学习的方法,利用机器学习来增强复杂环境中的导航。在本文中,已经提出了一种新颖的深入加强学习(DRL)模型,以使无人机的平稳导航。本文提供了现有技术的概述,为我们提出的工作奠定了基础,这不仅解决了某些局限性,而且还显示了复杂环境中的卓越性能。模拟环境是使用虚幻引擎构建的,并且已经使用AirSim API建立了连接。由于其在不关OFT策略,基于价值的方法中,选择了TD3算法在连续动作空间中的特殊适应性,从而提高了稳定性和样本效率,而PPO算法的实施是由于其实用方法引起的,因此导致稳定学习无需进行价值功能估计而导致其实施。我们的模型在定制的景观山区环境中接受了培训,并且在严格的培训后获得的结果得到了彻底分析。使用石灰和外形技术解释了我们训练的TD3代理的状态行动对。本文通过提出了有希望的方向,以进一步探索和进步。
提出了一种基于多机构增强学习的方法,以应对捕获无人接地车辆(UGV)的逃避焦油的挑战。最初,本研究介绍了针对合作UGV捕获的环境和运动模型,以及明确定义的直接捕获成功标准。将注意力集成到软演员批评(SAC)中的注意机制已杠杆化,将注意力集中在与任务有关的关键状态特征上,同时有效地管理较少相关的方面。这使捕获代理可以专注于目标代理的范围和活动,从而增强追求期间的协调和协作。关注目标代理的重点有助于完善捕获过程,并确保对价值功能的精确估计。多余的活动和不产生的场景的重新产生会增强效率和鲁棒性。此外,注意力加权动态适应环境变化。要解决在iOS中引起的有限激励措施 - iOS带有多个车辆捕获目标的动力,该研究引入了改进的奖励系统。它将奖励功能分为个人和合作组成部分,从而优化了全球和本地化的激励措施。通过Fa-Div>捕获UGV之间的合作协作,这种方法削弱了目标UGV的动作空间,从而成功地捕获了结果。与以前的SAC算法相比,提出的技术表明捕获成功增强。模拟试验和与替代学习方法的比较验证了算法的有效性和奖励函数的设计方法。
工程设计问题通常涉及大型状态和动作空间以及高度稀疏的奖励。由于无法穷尽这些空间,因此人类利用相关领域知识来压缩搜索空间。深度学习代理 (DLAgents) 之前被引入使用视觉模仿学习来模拟设计领域知识。本文以 DLAgents 为基础,并将其与一步前瞻搜索相结合,以开发能够增强学习策略以顺序生成设计的目标导向代理。目标导向的 DLAgents 可以采用从数据中学习到的人类策略以及优化目标函数。DLAgents 的视觉模仿网络由卷积编码器 - 解码器网络组成,充当与反馈无关的粗略规划步骤。同时,前瞻搜索可以识别由目标指导的微调设计动作。这些设计代理在一个无约束桁架设计问题上进行训练,该问题被建模为一个基于动作的顺序配置设计问题。然后,根据该问题的两个版本对代理进行评估:用于训练的原始版本和带有受阻构造空间的未见约束版本。在这两种情况下,目标导向型代理的表现都优于用于训练网络的人类设计师以及之前反馈无关的代理版本。这说明了一个设计代理框架,它可以有效地利用反馈来增强学习到的设计策略,还可以适应未见的设计问题。[DOI:10.1115/1.4051013]