摘要 - 我提出了一种新颖的增强学习方法,用于在模拟环境中训练四足机器人。在动态环境中控制四足机器人的想法非常具有挑战性,我的方法提出了最佳的政策和培训方案,资源有限,并且表现出色。该报告使用RaisimgyMtorch开源库和专有软件Raisim进行模拟Anymal机器人。我的方法以训练时的机器人步行方案的评估为中心,以制定马尔可夫决策过程。使用在Actor-Critic模式下使用的近端策略优化算法来解决结果的MDP,并使用一台台式机收集了数千个状态转换。这项工作还提出了一个控制器方案,该计划在模拟环境中显示了数千个时间步骤。这项工作还为早期研究人员提供了他们喜欢的算法和配置的基础。
Abstract In many real-world reinforcement learning (RL) problems, besides optimizing the main objective function, an agent must concurrently avoid violating a number of constraints.In particular, besides optimizing performance, it is crucial to guar- antee the safety of an agent during training as well as deployment (e.g., a robot should avoid taking actions - exploratory or not - which irrevocably harm its hard- ware).To incorporate safety in RL, we derive algorithms under the framework of constrained Markov decision processes (CMDPs), an extension of the standard Markov decision processes (MDPs) augmented with constraints on expected cu- mulative costs.Our approach hinges on a novel Lyapunov method.We define and present a method for constructing Lyapunov functions, which provide an ef- fective way to guarantee the global safety of a behavior policy during training via a set of local linear constraints.Leveraging these theoretical underpinnings, we show how to use the Lyapunov approach to systematically transform dynamic programming (DP) and RL algorithms into their safe counterparts.To illustrate their effectiveness, we evaluate these algorithms in several CMDP planning and decision-making tasks on a safety benchmark domain.Our results show that our proposed method significantly outperforms existing baselines in balancing con- straint satisfaction and performance.
疲劳裂纹是钢结构的常见缺陷,在不同的负载和各种环境因素的长期影响之后[1]。如果没有及时有效治疗,它最终可能导致结构性疲劳失败。维修和加固技术的出现提供了一种解决此问题的新方法。与更换损坏的结构部件相比,维修和加固技术在时间和成本方面都具有很大的优势[2,3]。在裂纹尖端上使用裂纹停止孔是最常用的临时控制技术之一。在过去的几十年中,许多学者研究了裂纹停止孔的工程应用[4,5]。结果表明,裂纹停止孔的形状,尺寸和姿势的合理设计可以有效地降低裂纹的生长速度并增加残留疲劳寿命。但是,当在疲劳裂纹尖端处理裂纹停止孔时,原始结构的机械强度被削弱,并创建了新的容易疲劳的区域。更重要的是,当裂纹从裂纹停止的边缘启动时,由于存在停止孔的存在,新裂纹的膨胀速率不会改变[6]。作为一种复合材料,纤维增强聚合物(FRP)材料具有高强度重量比,良好的耐腐蚀性和疲劳性能,并且几乎可以将其分为几乎所有所需的形状。在过去的几年中,关于结构缺陷大小的影响[7,8],粘合剂的特性[9,10]和FRP键合法
加拿大的慈善行业每年为经济活动贡献 1,920 亿加元,占我国 GDP 的 8.3%。我们每年雇用 250 万人,每 10 个加拿大人中就有 1 个在慈善机构或非营利组织工作。我们的劳动力中有 77% 是女性、47% 是新移民,35% 是原住民和有色人种。自疫情爆发以来,我们行业面临着来自慈善机构和非营利组织的服务需求持续增长的问题。当前的负担能力危机给捐款带来了压力,并产生了新的和增加的服务需求。1 目前的运营成本很高:通货膨胀影响了项目供应成本;保险目前购买成本更高或更难获得;各组织正在争夺人才并留住他们。Imagine Canada 发布的研究表明,我们行业的劳动力正在老龄化。2 可持续的劳动力规划要求组织吸引接受过人工智能使用培训的年轻一代工人。
想象力,基于模型的推理和决策的神经基础对神经科学产生了很大的兴趣[5-7];在认知水平上,在动物和人类学习中已经假设并证明了模型学习和心理模拟[8-11]。其在基于人工模型的代理中的成功部署迄今已仅限于可用的确切过渡模型[12]或模型易于学习的域中的设置,例如符号环境或低维系统[13 - 16]。在代理无法使用模拟器的复杂域中,最近的成功由无模型方法主导[2,17]。在此类域中,采用标准计划方法的基于模型的代理的性能通常会遭受功能近似作用的模型错误[18,19]。这些错误在计划过程中复合了,导致过度优势和剂性能差。当前没有计划
摘要 - 云计算中的主要关注点之一是如何使用密码学有效地管理数据访问控件。虽然具有挑战性,但加密方法是个人和企业都希望采用的一种有吸引力的解决方案。为了解决这个问题,本研究提出了一种称为CryptSecure的潜在解决方案。CryptSecure的主要目标是通过密码启用动态访问控制。为了撤销访问权限,按CryptSecure指示修改云中的加密数据。此技术涉及由文件和吊销代码组成的对称代码系统。发生撤销时,授权实体将新的吊销代码上传到云时,该文件会加上附加的安全层加密。这触发了加密代码系统中的相应调整。
目前,联邦执法机构发布的公共用例清单尚未履行其透明度和问责制。例如,司法部的2022披露由一页信息组成,列出了联邦调查局单一使用AI,以用于“威胁进气处理系统”以分析犯罪技巧。2,该单页没有关于联邦调查局使用面部识别技术的信息,尽管该局已经将这种AI驱动的技术用于刑事调查已有近十年了。3同样,其他多个司法部执法机构对面部识别的使用零披露 - 从DEA到ATF,再到美国元帅 - 即使最近的政府问责办公室(GAO)审计报告了这些机构中每个机构对这项技术的大量使用。4,尽管DOJ在2023年更新了其披露,但其他一些用例中仍然不包括这些子代理中任何一个的使用面部识别。5也没有与使用车牌读取器使用有关的任何披露。
动态治疗方案(DTRS)提供了一种系统的方法来制定适合个人患者特征的顺序治疗决策,尤其是在感兴趣的生存结果的临床环境中。审查感知树的增强学习(CA-TRL)是一个新的框架,可在估计最佳DTR时解决与审查数据相关的复杂性。我们探索从观察数据中学习有效DTR的方法。通过增强基于树木的增强学习方法,具有增强的反可能性加权(AIPW)和审查感知的修改,CA-TRL提供了强大而可解释的治疗策略。我们使用SANAD癫痫数据集通过广泛的模拟和现实世界应用来展示其有效性,在该数据集中,它的表现优于最近提出的关键指标中提出的ASCL方法,例如受限的平均生存时间(RMST)和决策精度。这项工作代表着跨不同医疗机构的个性化和数据驱动的治疗策略迈出的一步。
为了在现实世界中部署强化学习(RL)代理,它们必须能够推广到看不见的环境。但是,RL在分布外的概括方面挣扎,通常是由于过度拟合培训环境的细节。尽管可以应用监督学习的正则化技术来避免过度插入,但超级学习和RL之间的差异限制了其应用。为了解决这个问题,我们提出了RL的信噪比调节的参数不确定性网络(SNR PUN)。我们将SNR作为正规化网络的参数定向的新量度,并提供了正式分析,解释了SNR正则为什么对RL效果很好。我们证明了我们提出的方法在几个模拟环境中概括的有效性;在一个物理系统中,显示了使用SNR PUN将RL应用于现实世界应用程序的可能性。