•使用Q学习,策略迭代和深度Q-NETWORKS开发和评估了MDP代理,实施了对跨多个领域实现最佳策略的顺序决策的代理。•实施了可解释的机器学习模型的实施功能工程技术和辩护转换,重点介绍了高风险决策域中的公平和偏见缓解。•使用多个可解释的AI框架(AIX360,Lime,Shap)分析了模型行为和决策边界,生成了可解释的解释和可视化,以评估模型预测和特征重要性。•为顺序规划域创建了马尔可夫决策过程模型和分层任务分析,通过价值/政策迭代和强化学习方法实现最佳政策。
摘要 - 联合雷达通信(JRC)的流动策略依赖于车辆网络中通信和雷达系统的先验知识。在本文中,我们建议在周围车辆定期执行雷达检测的环境中,以最少的先验知识进行智能车辆进行JRC,这在当代协议中是典型的。我们介绍了一个有关数据有用性的指标,以帮助车辆确定应该传输数据以及向谁传输的数据。问题框架是马尔可夫决策过程(MDP)。我们表明,与非学习算法相比,深度强化学习可以提高性能。此外,实验结果表明,经过训练的深钢筋学习剂对环境中车辆数量的变化具有牢固的态度。
摘要 - 作为一种公平而有效的资源分配方法拍卖机制已被广泛用于品种交易方案,例如广告,众汇和频谱。但是,除了获得更高的利润和满意度外,隐私问题还引起了研究人员的关注。在本文中,我们主要研究了针对间接推理攻击的双重拍卖市场中保存隐私问题。大多数现有作品都采用差异隐私理论来防御推断攻击,但存在两个问题。首先,差异隐私(DP)的“难以区分”无法阻止拍卖市场中持续估值。第二,尚未解决差异隐私部署中的隐私 - 实用性权衡(PUT)。为此,我们提出了一种基于攻击防御的强化钢筋学习隐私方法 - 保存实际上在双重拍卖中提供隐私保护的方法。首先,拍卖师充当防守者,为投标人的估值增加了噪音,然后充当发射推理攻击的对手。之后,拍卖师使用攻击结果和拍卖结果作为指导下一次部署的参考。上述过程可以视为马尔可夫决策过程(MDP)。国家是当前步骤下每个投标人的估值。动作是添加到每个竞标者中的噪声。奖励由隐私,公用事业和培训速度组成,其中攻击成功率和社会福利被视为隐私和效用的衡量标准,使用延迟惩罚条款来减少培训时间。利用深层确定性政策梯度(DDPG)算法,我们建立了一个参与者批评网络来解决MDP问题。最后,我们进行了广泛的评估,以验证我们提出的方法的性能。结果表明,与其他现有的基于DP
本文讨论了如何将Q学习和深度Q-Networks(DQN)应用于马尔可夫决策过程(MDP)描述的状态行动问题。这些是机器学习方法,用于在每个时间步骤中找到最佳的动作选择,从而导致最佳策略。讨论了这两种方法的局限性和优势,主要局限性是Q学习无法用于无限状态空间的问题。Q-学习在算法的简单性方面具有优势,从而更好地理解了该算法实际上在做什么。Q学习确实设法找到了本文研究的简单问题的最佳策略,但无法解决高级问题。深层Q-NETWORK(DQN)方法能够解决这两个问题,因此很难理解算法实际上在做什么。
强化学习(RL)是一种计算学习方法,在与复杂和不确定的环境互动时,代理商试图最大化其获得的总奖励。它不仅在许多游戏(例如GO)中表现出很强的性能,而且在许多当今现实世界中的应用程序(例如LLM培训,体现的AI)中也成为必不可少的技术。本课程旨在教授RL的基本原理和高级主题。课程内容包括引入基本RL元素(包括MDP,动态编程,策略迭代),基于价值的方法(DQN),基于策略的方法(策略梯度),基于模型的RL,Multi-Agent RL,其他高级主题以及RL技术在当今计算机视觉或AI应用程序中的应用。为了更好地增强理解,我们还将包含一些Python/Pytorch实现。
我们提出了一种基于模型的终身强化学习方法,该方法估计分层贝叶斯后验,提炼出不同任务之间共享的共同结构。学习到的后验与基于样本的贝叶斯探索程序相结合,提高了跨一系列相关任务学习的样本效率。我们首先分析了有限 MDP 设置中样本复杂度和后验初始化质量之间的关系。接下来,我们通过引入变分贝叶斯终身强化学习算法将该方法扩展到连续状态域,该算法可以与最近的基于模型的深度 RL 方法相结合,并表现出后向迁移。在几个具有挑战性的领域的实验结果表明,我们的算法比最先进的终身 RL 方法实现了更好的前向和后向迁移性能。1
课程覆盖范围:本课程是基于迭代非线性,适应性和最佳反馈控制动态系统的工程方法(RL)(机器学习的重要领域)控制系统的视角。中心主题将围绕近似动态编程技术发展。作为课程的介绍,将简要介绍Sutton和Barto教科书中某些章节的本质(有关强化学习的主要计算机科学教科书),以学习RL术语和RL中使用的基本过程。该书介绍了加强学习的计算机科学方法(主要是蒙特卡洛和马尔可夫统计数据(马尔可夫决策过程,MDP),以及使用神经网络来生成学习政策)。在此类中,控制和系统方法将用于生成学习策略(最佳反馈策略,最佳反馈控制)。
摘要 - 为了实现复杂的现实世界利用任务的自主权,我们考虑为具有异质自治能力的机器人团队的部署策略。在这项工作中,我们制定了一个多机器人勘探任务,并计算一项操作政策,以维持机器人团队的生产率并最大程度地提高任务奖励。环境描述,机器人能力和任务结果被建模为马尔可夫决策过程(MDP)。我们还包括实地世界操作中的限制,例如传感器故障,有限的沟通覆盖范围和移动性压力元素。然后,我们在DARPA地下(Subt)挑战的背景下研究了现实情况下提出的操作模型。在SubT挑战的最终竞争中,计算出的部署政策还与基于人类的操作策略进行了比较。最后,使用拟议的模型,我们讨论了建立具有异质功能的多机器人团队的设计权衡。