学习表征捕获对世界的非常基本的理解是机器学习的关键挑战。隐藏在数据中的解释因素的层次结构是如此一般的表示,并且可以通过分层VAE实现。然而,培训层次的VAE总是遭受“后塌陷”的苦难,其中数据信息很难传播到更高级别的潜在变量,因此导致层次结构不良。为了解决这个问题,我们首先是从信息理论的角度来减轻后层崩溃的现有方法的缺点,然后突出了正规化的必要性,即在维持不同级别之间的依赖性的同时,将数据信息明确传播到高级潜在变量。这自然会导致提出高级潜在表示作为顺序决策过程的推断,这可能受益于应用强化学习(RL)。将RL的目标与正规化的目标保持一致,我们首先引入了一条跳过的途径,以获取奖励,以评估潜在的潜在表示的信息内容,然后基于它的Q-VALUE函数可能具有正规化的一致优化方向。最后,策略梯度是典型的RL方法之一,用于训练层次VAE,而无需引入梯度估计器。1。简介实验结果坚定地支持我们的分析,并证明我们提出的方法有效地减轻了后塌陷问题,学习了信息的层次结构,获得了可解释的潜在表示,并且在下游任务中明显优于其他基于层次的VAE方法。
我们为不依赖于人类反馈的大型语言模型(LLMS)提出了一种新颖的增强学习(RL)框架。相反,我们的方法使用模型本身中的交叉注意信号来获得自我监督的奖励,从而指导对模型策略的迭代微调。通过分析模型在生成过程中如何“参加”输入提示,我们构建了及时的覆盖,重点和连贯性的度量。然后,我们使用这些措施来对候选响应进行排名或评分,提供了奖励信号,鼓励模型产生良好的一致,主题文本。在与标准策略梯度方法的经验比较和合成偏好模型的RL微调中,我们的方法在非RL基线的迅速相关性和一致性方面显示出显着的提高。虽然它尚未与完全监督的RLHF系统的性能相匹配,但它突出了使用最小的人类标记来扩展对齐的重要方向。我们提供了详细的分析,讨论潜在的局限性,并概述了将基于跨注意的信号与较少人类反馈相结合的未来工作。
摘要 - 具有触发动作功能的事物(IoT)平台的信息(IoT)平台允许事件条件通过创建一系列交互来自动触发IoT设备中的操作。对手利用这种互动链将虚假事件条件注入物联网中心,从而在目标IoT设备上触发未经授权的操作以实现远程注入攻击。现有的防御机制主要集中于使用物理事件指纹对事件交易的验证,以实施安全策略以阻止不安全的事件交易。这些方法旨在提供防止注射攻击的离线防御。最新的在线防御机制提供了实时防御,但是对攻击推断对物联网网络的推断影响的可靠性限制了这些方法的概括能力。在本文中,我们提出了一个独立于平台的多代理在线防御系统,即限制,以应对运行时的远程注射攻击。限制允许国防代理在运行时介绍攻击动作,并利用强化学习来优化符合IoT网络安全要求的国防政策。实验结果表明,防御代理有效地采取了针对复杂和动态远程注射攻击的实时防御动作,并通过最小的计算开销来最大化安全增益。索引术语 - 事物的内部,触发器平台,重新注射攻击,强化学习,深度复发Q网络,多代理系统。
存在强化学习之类的应用,例如医学,其中政策需要被人类“解释”。用户研究表明,某些政策类可能比其他政策类更容易解释。但是,进行人类的政策解释性研究是昂贵的。此外,没有明确的解释性定义,即没有明确的指标来解释性,因此主张取决于所选的定义。我们解决了通过人类解释性的经验评估政策的问题。尽管缺乏明确的定义,但研究人员对“模拟性”的概念达成了共识:政策解释性应与人类如何理解所给出的政策行动有关。为了推进可解释的强化学习研究,我们为评估政策解释性做出了新的方法。这种新方法依赖于代理来进行模拟性,我们用来对政策解释性进行大规模的经验评估。我们使用模仿学习来通过将专家神经网络提炼为小程序来计算基线政策。然后,我们表明,使用我们的方法来评估基准解释性会导致与用户研究相似的结论。我们表明,提高可解释性并不一定会降低表现,有时会增加它们。我们还表明,没有政策类别可以更好地跨越各个任务的可解释性和绩效进行交易,这使得研究人员有必要拥有比较政策可解释性的方法。
摘要 - 双方机器人由于其拟人化设计,在各种应用中提供了巨大的潜力,但其结构的复杂性阻碍了它们的控制。当前,大多数研究都集中在基于本体感受的方法上,这些方法缺乏克服复杂地形的能力。虽然视觉感知对于在以人为中心的环境中运作至关重要,但其整合使控制进一步复杂化。最近的强化学习(RL)方法已经显示出在增强腿部机器人运动方面的希望,特别是基于本体感受的方法。然而,地形适应性,尤其是对于两足机器人,仍然是一个重大挑战,大多数研究都集中在平坦的情况下。在本文中,我们介绍了专家教师网络RL策略的新型混合物,该策略通过一种简单而有效的方法来增强基于视觉投入的教师策略的绩效。我们的方法将地形选择策略与教师政策结合在一起,与传统模型相比,表现出色。此外,我们还引入了教师和学生网络之间的一致性损失,而不是强制实施相似之处,以提高学生驾驶各种地形的能力。我们在Limx Dynamic P1 Bipedal机器人上实验验证了我们的方法,证明了其跨毛线地形类型的可行性和鲁棒性。索引术语 - Bipedal机器人,增强学习,视觉感知的控制
强化学习(RL)已成功地应用于各种在线调整任务,通常优于传统优化方法。但是,无模型的RL算法通常需要大量的样式,训练过程通常涉及数百万个相互作用。由于需要重复此耗时的过程来为每个新任务培训基于RL的控制器,因此它在在线调整任务中更广泛地应用构成了重大障碍。在这项工作中,我们通过扩展域随机化来训练一般的晶格 - 反应政策来应对这一挑战。我们专注于线性加速器中的共同任务:通过控制四极杆和校正磁体的强度来调整电子束的横向位置和尺寸。在训练期间,代理与磁铁位置随机分配的环境相互作用,从而增强了训练有素的策略的鲁棒性。初步结果表明,这种方法使政策能够概括和解决不同晶格部分的任务,而无需进行额外的培训,这表明有可能开发可转移RL的代理。这项研究代表了迈向快速RL部署的第一步,并为加速器系统创建了晶格 - 不合稳定的RL控制器。
在现代同步加速器的光源中,保持光束稳定性对于确保高质量合成子辐射性能至关重要。光源稳定性受电流,梁位置和光束尺寸的稳定性的控制。梁的尺寸稳定性在几微米的顺序上需要改进,以进行将来的实验。增强学习(RL)为实时梁大小反馈系统提供了有希望的方法。RL框架由一个智能代理组成,该智能代理与环境相互作用,以最大程度地基于状态观察和行动来最大化累积重组。在一个点上的梁尺寸测量和垂直分散是RL环境的观察,可以沿存储环呈现光束尺寸分布。通过模拟和实际实验设置,我们证明了PPO算法的功效,该算法适应了控制光束稳定性和校正耦合方面的离散作用空间。在实际操作中应用了模拟环境中的超参数的进一步优化。该方法可在在线,实时校正耦合错误方面有了显着改进,与传统方法相比,提供了更快,更适应性的解决方案。
从1628年的费迪南多二世(Ferdinando II)开始的时期,并于1723年以Cosimo III的去世结束,至少在过去的二十年中,它值得得到的史学关注。在这段托斯卡纳历史的长期中,缺乏兴趣,在此过程中,进行了过程,描绘了Medicean Grand Duchy的经济和文化的许多基本特征,具有远距离的起源,并植根于十七世纪的整体愿景,即使没有达到最小的速度,以最小的速度确定了任何速度。增加了利益,并鼓励了17世纪的Medicean 17世纪的不屑一顾的判断,这是在此期间构成的关于托斯卡纳历史的著作中的不可争议的事实。实际上,众所周知,与1781年的Riguccio Galluzzi出版了有关七世纪托斯卡纳历史的第一项工作。这项工作由大公爵Pietro Leopoldo委托,是一项复杂的意识形态计划的一部分,该计划的目标是通过美第奇政府的重建,以合法化灭绝的统治王朝与
A.像Keilor Transformer更换一样,类似的估计资本成本为1.4亿美元。对于此RIT-T的基本案例中已经包含了此费用,因此不包括更换Keilor Transformers的类似费用。 B.Keilor Transformer替换1000 MVA变压器的估计资本成本为1.5亿美元。5390万美元代表升级到1000 MVA变压器的增量成本,当时现有的变压器应在2029年更换,以及促进变压器升级所需的故障缓解工程的成本。
。cc-by-nc-nd 4.0国际许可证(未经同行评审证明)获得的是作者/资助者,他授予Biorxiv授予Biorxiv的许可,以永久显示预印本。它是制作