在对电动驱动器的最佳控制中,人们可以通过在退缩地平线上求解基础控制问题,在离散时间步骤中隐式优化控制输入,或者可以尝试明确地找到一个直接映射测得的测量状态以控制操作的控制策略函数。后一种方法通常称为显式最佳控制,需要使用近似功能来解决连续(即无限)状态和动作空间。一旦找到了(近似)最佳控制策略,通常比在每个控制器周期必须在线优化过程进行在线优化过程的隐式情况要快得多。由于控制器决策时间间隔在电动驱动器的子毫秒范围内,因此明确的最佳控制的快速在线推断是一项令人信服的功能。在这里,潜在的控制策略近似函数涵盖了广泛的函数类别,例如神经网络,高斯过程或拉瓜多项式[1]。可以从数据(例如增强学习[2])或基于可用植物模型(差异预测性控制[3])中学习控制策略。在这两种情况下,近似函数的拓扑都在控制策略的性能以及训练和推理阶段的数值复杂性方面都起着至关重要的规则。虽然近似函数的特定选择通常是基于临时启发式方法,但如何系统地选择给定控制任务的最佳近似函数的问题仍然在很大程度上开放。
批处理增强学习(RL)旨在利用预收取的数据找到最大化动态环境中预期总奖励的最佳策略。现有方法需要对目标策略在状态或行动上或两者兼有的数据分布引起的分布所引起的分布上绝对连续的假设(例如,不存在非重叠区域)。我们提供了一种新的批次RL算法,该算法允许在离线数据分布和目标策略引起的分布之间的状态和动作空间(例如,在无限 - 休养者马尔可夫决策过程中都具有连续状态和动作之间的奇异性)。我们称我们的算法钢:奇异性吸引的增强学习。我们的算法是由对销售评估进行的新错误分析的动机,在该评估中,我们使用最大的平均差异以及分布强劲的优化,以表征由可能的奇异性引起的非政策评估的误差,并启用模型外额外的模型。通过利用悲观的思想,在某些技术条件下,我们为我们提出的算法提供了第一个有限样本的遗憾保证。与现有算法相比,只需仅需最少的数据覆盖假设即可提高批量RL的适用性和鲁棒性。另外,提出了一种几乎没有调谐的两步自适应钢。广泛的仿真研究和一个(半真实的实验实验)对我们方法在处理批处理RL中可能的奇异性方面的出色表现。
抽象的机器学习一直在赋予系统设计各个方面的无线通信能力,其中基于加固的方法(RL)方法可以直接与环境互动,并有效地从收集的经验中学习,从而引起了很多研究的关注。在本文中,我们提出了一种新颖且有效的基于RL的多光束组合方案,用于未来毫米波(MMWAVE)三维(3D)多输入多输入 - 多数输出(MIMO)通信系统。所提出的方案不需要完美的渠道状态信息(CSI)或通常在实践中很难获得的精确用户位置,并且很好地解决了由多用户,多路径和多孔通信系统的极为巨大状态和动作空间产生的计算复杂性的关键挑战。尤其是,提出了一个自我发项的深层确定性策略梯度(DDPG)的束选择和组合框架,以自适应地学习没有CSI的3D光束成型模式。我们旨在通过优化每个用户的服务束集和相应的组合权重来最大化MMWAVE 3D-MIMO系统的总和。为此,利用基于变压器的自我发项DDPG来获得输入元素的全局信息,并精确地捕获信号方向,从而实现了最佳的光束形式设计。仿真结果验证了所提出的自我发项DDPG的优越性,而不是在各种情况下的总和率方面的基于AI的光束成型方案。
提供对各种机器学习算法的理解以及评估 ML 算法性能的方法 UNIT - I:简介:人工智能问题、代理和环境、代理结构、问题解决代理基本搜索策略:问题空间、无信息搜索(广度优先、深度优先搜索、深度优先与迭代深化)、启发式搜索(爬山法、通用最佳优先、A*)、约束满足(回溯、局部搜索) UNIT - II:高级搜索:构建搜索树、随机搜索、AO* 搜索实现、极小极大搜索、Alpha-Beta 剪枝基本知识表示和推理:命题逻辑、一阶逻辑、前向链接和后向链接、概率推理简介、贝叶斯定理 UNIT - III:机器学习:简介。机器学习系统,学习形式:监督学习和非监督学习,强化学习 – 学习理论 – 学习的可行性 – 数据准备 – 训练与测试和拆分。第四单元:监督学习:回归:线性回归、多元线性回归、多项式回归、逻辑回归、非线性回归、模型评估方法。分类:支持向量机 (SVM)、朴素贝叶斯分类第五单元:无监督学习最近邻模型 – K 均值 – 围绕中心点聚类 – 轮廓 – 层次聚类 – kd 树、聚类树 – 学习有序规则列表 – 学习无序规则。强化学习 – 示例:迷路 – 状态和动作空间
摘要 - 增强机器人系统独立获取新型操作技巧的能力对于从组装线到服务机器人的应用至关重要。现有方法(例如,VIP,R3M)依赖于学习操纵任务的广义表示,但忽略(i)(i)不同实施方案之间的域间隙以及(ii)在实施方案中成功的任务轨迹的稀疏 - 特定于特定的动作空间中,导致了错误的和歧义的任务表示,具有地下学习效率。我们的工作通过引入AG2Manip(操纵代理表示)来学习上述挑战,以学习新型操纵技巧。我们的方法包括两个主要创新:(i)在人体操纵视频上进行了新颖的代理 - 反应视觉表示形式,其具有掩盖性的实施方案,以及(ii)一个代理 - 敏捷的动作表示,将机器人的动力学链抽象为具有普遍的代理链中的代理链中,将其用于普遍的构成,以将对象置于核心互动之间。通过我们的实验,AG2Manip在无需进行领域特定的示范的情况下展示了各种各样的操纵任务的显着改善,证明了来自Frankakitchen,Maniskill和PartManip的24个任务中平均成功率的325%提高了325%。进一步的消融研究强调了两种表示在实现此类改进中的关键作用。
摘要 - 强化学习为机器人控制提供了一个吸引人的框架,因为它仅通过现实世界的互动才能纯粹学习表达政策。但是,这需要解决现实世界的约束并避免在训练过程中造成灾难性失败,这可能会严重阻碍学习进步和最终政策的表现。在许多机器人设置中,这相当于避免某些“不安全”状态。高速越野驾驶任务代表了对此问题的特别挑战性的实例化:高回报策略应尽可能积极地驱动驱动力,通常需要接近“安全”状态集的边缘,因此在该方法上承担特定的负担,以避免频繁失败。既学习高表现的政策,又避免过度失败,我们提出了一个增强学习框架,将对风险敏感的控制与自适应动作空间课程相结合。此外,我们表明我们的风险敏感目标会自动避免配备认知不确定性的估计量。我们在小规模的拉力赛上实施了算法,并表明它能够为现实世界中的越野驾驶任务学习高速政策。我们表明,我们的方法大大减少了培训过程中的安全违规数量,实际上导致在驾驶和非驾驶模拟环境中都具有类似挑战的驾驶和非驾驶模拟环境中的绩效策略。
部分可观察到的马尔可夫决策过程(POMDP)是在不确定性下进行计划的有力框架。他们允许对状态不确定性建模为一种信念概率分布。基于蒙特卡洛抽样的近似求解器,在放宽计算需求并执行在线计划方面取得了巨大的成功。然而,将许多动作和较长计划视野的比例扩展到复杂的现实域仍然是一个重大挑战,实现良好性能的关键点是指导采取行动选择程序,并使用针对特定应用程序域量身定制的域依赖性政策启发式方法。我们建议从任何求解器生成的执行trace traces中学习高质量的启发式方法。我们将信仰行动对转换为逻辑语义,并进行了数据和时间效率的归纳逻辑编程(ILP),以生成可解释的基于信念的政策规范,然后将其用作在线启发式方法。我们在两个臭名昭著的POMDP问题上彻底评估了我们的方法,涉及大型动作空间和较长的计划范围,即摇滚样本和Pocman。考虑了包括POMCP,Supstot和Adaops在内的不同最先进的在线POMDP求解器,我们表明,在答案集编程(ASP)中表达的启发式方法(ASP)屈服表现出优于神经网络,并且类似于最佳手工制作的任务 - 在较低计算时间内的特定特定的启发式方法。此外,它们已经概括为在训练阶段没有经历的更具挑战性的场景(例如,在岩石样品中增加岩石和网格大小,增加了地图的大小以及Pocman中鬼魂的侵略性)。
有效的探索对于在复杂的协调任务中发现多智能体强化学习 (MARL) 的最优策略至关重要。现有的方法主要利用内在奖励来实现承诺性探索,或者使用基于角色的学习来分解联合动作空间,而不是直接在整个动作观察空间中进行集体搜索。然而,它们在获取特定的联合动作序列以在长期任务中达到成功状态时经常面临挑战。为了解决这一限制,我们提出了想象、初始化和探索 (IIE),这是一种新颖的方法,为复杂场景中的高效多智能体探索提供了一种有前途的解决方案。IIE 采用变换器模型来想象智能体如何达到可以影响彼此转换函数的临界状态。然后,我们在探索阶段之前使用模拟器初始化此状态下的环境。我们将想象表述为序列建模问题,其中状态、观察、提示、动作和奖励是自回归预测的。该提示由剩余时间步长、剩余返回值、影响力值和一次性演示组成,用于指定期望状态和轨迹并指导动作生成。通过在关键状态下初始化智能体,IIE 显著提高了发现潜在重要且未被充分探索区域的可能性。尽管方法简单,但实证结果表明,我们的方法在星际争霸多智能体挑战赛 (SMAC) 和 SMACv2 环境中的表现优于多智能体探索基线。尤其值得一提的是,与其他生成方法(例如 CVAE-GAN 和扩散模型)相比,IIE 在稀疏奖励 SMAC 任务中表现出色,并且在初始化状态下生成了更有效的课程。
摘要 — 目前,帕金森病 (PD) 在美国影响着大约 100 万人。深部脑刺激 (DBS) 是一种针对 PD 运动症状的外科治疗,通过向大脑的基底神经节 (BG) 区域提供电刺激。现有的商用 DBS 设备仅采用基于固定频率周期脉冲的刺激。虽然这种周期性高频 DBS 控制器可以有效缓解 PD 症状,但它们在能耗方面非常低效,并且这些电池供电设备的使用寿命仅限于 4 年。此外,固定高频刺激可能会产生副作用,例如言语障碍。因此,需要超越 (1) 固定刺激脉冲控制器和 (2) “一刀切”的与患者无关的治疗方法,以提供节能且有效(就缓解 PD 症状而言)的 DBS 控制器。在本研究中,我们引入了一种基于深度强化学习 (RL) 的方法,该方法可以得出特定于患者的 DBS 模式,这些模式既能有效减少基于模型的 PD 症状代理,又能节省能源。具体而言,我们将 BG 区域建模为马尔可夫决策过程 (MDP),并将状态和动作空间分别定义为 BG 区域中神经元的状态和刺激模式。此后,我们在状态空间上定义奖励函数,并将学习目标设置为在有限范围内(即治疗持续时间)最大化累积奖励,同时限制平均刺激频率。我们使用实现生理相关基底神经节模型 (BGM) 的 Brain-on-Chip (BoC) FPGA 平台评估我们方法的性能。我们表明,我们基于 RL 的 DBS 控制器在能源效率方面明显优于现有的固定频率控制器(例如,比普通周期控制器节省 70% 的能源),同时适当减少了基于模型的 PD 症状代理。
巷道保存是自动驾驶中至关重要的功能,对于车辆安全,稳定性和遵守交通流量很重要。巷道控制控制的复杂性在于平衡各种驾驶环境的精确性和响应能力。本文对两种强化学习(RL)算法进行了比较检查 - Double Deep Q-Network(Double DQN)和近端策略优化(PPO) - 用于跨离散和连续动作空间的车道。double dqn是对标准深q网络的升级,消除了q值的高估偏差,证明了其在离散作用空间中的有用性。这种方法在高维环境(如高速公路)等低维环境中发光,在该环境中,车道保存需要经常进行离散的修改。相比之下,PPO是一种用于连续控制的强大政策梯度方法,在高维情况(例如城市道路和弯曲的高速公路)中表现良好,在这种情况下,必须进行持续的,准确的转向变化。在MATLAB/SIMULINK模拟中测试了这些方法,以模拟高速公路和城市驱动环境。每个模型都集成了车辆动力学和神经网络拓扑以构建控制技术。结果表明,双DQN始终保持在高速公路设置中的车道位置,从而利用了其最小化Q值高估的能力,从而达到了稳定的车道居中。ppo在动态和不可预测的设置中超出了持续的控制调整,尤其是在困难的交通状况和弯曲道路上。这项研究强调了将RL算法与特定驾驶环境的动作空间要求相匹配的重要性,在离散任务方面具有双重DQN,并且在连续自适应控制方面具有出色的DQN和PPO,从而有助于提高自主汽车的灵活性和安全性。