逆增强学习(IRL)由于其有效性从专家的演示中恢复奖励功能的有效性,因此一直在接受大量的研究工作,这些奖励功能可以很好地解释专家的行为。在实际应用中,约束无处不在,与一组约束相比,奖励功能比单个奖励功能更好地解释了复杂的行为(Malik等,2021)。因此,提出了逆约束强化学习(ICRL)以从专家的示范中学习限制。IRL上的最新目前(Fu等,2018; Imani&Ghoreishi,2021)和ICRL(Scobee&Sastry,2019年)可以在不受约束的环境中学习奖励功能,或者可以推断出与获得地面真相奖励但不能推断出两者的约束。为了解决这一挑战,提出了分布式ICRL(Liu&Zhu,2022)来学习专家的奖励功能和约束。在本文中,我们遵循(Liu&Zhu,2022)中的ICRL的定义,这意味着学习专家的奖励功能和约束。
大多数程序内容生成的研究都可以理解,专注于生成可完整的水平,即播放器可以完成它们的水平。在这项工作中,我们探讨了无法完成的水平及其应用的产生。在基于现有的基于约束的级别的一般级别上构建,我们为从一开始就无法达到目标的目标增加了支持。因此,发电机可以在许多方面(例如本地瓷砖模式)创建与可完成水平相似的级别,但无法完成。然后,我们描述了这些约束的几个应用以及由此产生的级别,包括:定性地表征使级别无法完成的原因;创建培训数据以进行完整分类器;检查生成器只能生成可完整的级别;并生成需要玩家使用特殊动作的水平。
摘要 - 本文提出了使用粒子群优化(PSO)对人工神经网络(ANN)的增强,以管理虚拟电厂(VPP)系统中的可再生能源资源(RESS)。这项研究突出了ANN-BPSO算法与原始BPSO算法的比较。在搜索隐藏层(n)和学习率(LR)中节点数量的最佳值时进行了比较。这些参数值用于微电网最佳能量调度的ANN训练中。已对涉及Ress的微电网(MG)的VPP系统进行了测试,这些方法涉及Ress,以最大程度地减少能力并优先考虑可持续资源的参与,而不是从公用事业网格那里购买电力。该模型使用马来西亚北部Perlis State记录的24小时记录的实际载荷需求进行了测试。此外,Tenaga nasional Berhad Research(TNBR)太阳能气象学记录了真实的天气状况数据,平均为1小时(例如,太阳辐射,风速,电池状态数据和燃油水平)。结果表明,与BPSO算法相比,ANN-PSO给出了精确的决策,这反过来又证明神经网的增强达到了最佳的能量调度水平。
满足 Hoek-Brown 破坏准则的岩体设计。本文回顾了 Hoek.Brown 准则定义的完整岩石和节理岩体的强度以及收敛约束法的基础。给出了允许构建收敛约束法三个基本组成部分的方程,即 i) 纵向变形剖面 (LDP)、ii) 地面反应曲线 (GRC) 和 iii) 支撑特性曲线 (SCC)。本文讨论了一个圆形隧道支撑设计的实际案例,并使用收敛约束法进行了解决。本文还包含一个总结该方法实施情况的电子表格。表格和图表中给出了典型岩石特性以及典型支撑系统的几何和机械特性的参考值。© 2000 由 Elsevier Science Ltd. 出版。保留所有权利。
摘要 — 我们考虑电力聚合器试图了解客户的用电模式,同时通过实时广播调度信号实施负荷调整程序的问题。我们采用多臂老虎机问题公式来解释客户对调度信号响应的随机性和未知性。我们提出了一种受约束的汤普森抽样启发式方法 Con-TS-RTP,作为电力聚合器试图影响客户用电以匹配各种期望需求曲线(即减少高峰时段的需求、整合更多间歇性可再生能源发电、跟踪期望的每日负荷曲线等)的负荷调整问题的解决方案。所提出的 Con-TS-RTP 启发式方法考虑了每日变化的目标负荷曲线(即反映可再生能源预测和期望需求模式的多个目标负荷曲线),并考虑了配电系统的运营约束,以确保客户获得足够的服务并避免潜在的电网故障。我们对我们的算法的遗憾界限进行了讨论,并讨论了在整个学习过程中坚持分销系统约束的运行可靠性。
摘要 — 我们考虑电力聚合器试图了解客户的用电模式,同时通过实时广播调度信号实施负荷调整程序的问题。我们采用多臂老虎机问题公式来解释客户对调度信号响应的随机性和未知性。我们提出了一种受约束的汤普森抽样启发式方法 Con-TS-RTP,作为电力聚合器试图影响客户用电以匹配各种期望需求曲线(即减少高峰时段的需求、整合更多间歇性可再生能源发电、跟踪期望的每日负荷曲线等)的负荷调整问题的解决方案。所提出的 Con-TS-RTP 启发式方法考虑了每日变化的目标负荷曲线(即反映可再生能源预测和期望需求模式的多个目标负荷曲线),并考虑了配电系统的运营约束,以确保客户获得足够的服务并避免潜在的电网故障。我们对我们的算法的遗憾界限进行了讨论,并讨论了在整个学习过程中坚持分销系统约束的运行可靠性。
本文旨在揭示不同显示设计原则在直升机领域的影响。在低空前向直升机飞行期间评估了两种不同的避障支持显示:基线平视显示器 (HUD) 由传统的咨询显示器或受生态界面设计启发的基于约束的显示器补充。后者在直升机领域应用很少。假设咨询显示减少了工作量,提高了态势感知能力,并在正常避障情况下改善了性能指标,而基于约束的显示提高了飞行员-车辆系统对意外、非正常情况的适应能力。12 名具有不同飞行经验的直升机飞行员参加了代尔夫特理工大学 SIMONA 研究模拟器的一项实验。与预期相反,实验表明显示器对任何相关测量均无显著影响。但是,与基线 HUD 相比,使用任何支持显示器时,飞行员的工作量都有减少,情况意识也有所提高。飞行员更喜欢在正常情况下使用咨询显示器,而在非正常情况下使用基于约束的显示器,这与固定翼领域的研究结果相似。控制任务的时间框架相对较短且单调,已经提示丰富的基线 HUD 条件以及显示器之间的相似性可能阻碍了揭示条件之间更大的差异。未来的研究将分析该实验的避障轨迹,可能揭示显示器引起的控制策略变化,即使集中性能指标相似。后续实验将重点关注更长的任务时间范围、更多变的情况和真正的生态展示,以研究在直升机领域应用生态界面设计和不同自动化系统的效果。
可扩增和激活 T 细胞的肽疫苗已成为一种有前途的预防和治疗方法,可用于应对包括传染病和癌症在内的健康相关挑战 (Malonis、Lai 和 Vergnolle 2019)。与基于整个生物体的更传统的减毒活疫苗或基于整个蛋白质亚基的亚基疫苗相比,肽疫苗基于一小组足以诱导 T 细胞免疫反应的蛋白质片段(肽),从而能够引发更有针对性的反应,避免过敏和反应原反应 (Li et al. 2014)。肽疫苗的设计包括选择免疫原性蛋白质片段,通常称为表位 (Li et al. 2014),当将其包含在疫苗中时,可扩增表位特异性 T 细胞。机器学习的进步使我们能够预测哪些肽将由主要组织相容性复合体 (MHC) 分子呈递以供适应性免疫系统监视 (Ching 等人 2018;Reynisson 等人 2020),这可用于识别将显示哪些表位 (Sohail 等人 2021)。个体显示的表位取决于其 MHC 基因的特定等位基因,因此免疫系统显示的肽在个体之间可能存在很大差异 (Zaitouna、Kaur 和 Raghavan 2020)。因此,找到一组预测将由大部分流行人群显示的肽的工程任务
如果未来的零排放能源系统在很大程度上依赖太阳能和风力资源,则资源可用性和电力需求之间的空间和时间不匹配可能会使系统可靠性。使用39年的每小时重新分析数据(1980 - 2018年),我们分析了太阳能和风资资源满足42个国家 /地区电力需求的能力,改变了可再生生成的假设规模和混合能力以及能源存储能力。假设完美的传输和年度生成等于年度需求,但没有储能,我们发现最可靠的可再生电力系统是风重,并且满足了72 - 91%小时的电力需求(通过添加12小时的存储时间为83 - 94%)。即使在满足需求的90%的系统中,每年可能会发生数百小时的未满足需求。我们的分析有助于量化附加能量存储,需求管理或削减的功率,能源和利用率,以及区域聚集的好处。
有机染料在人们的生活中随处可见。尽管有机染料在我们的生活中无处不在,但它们在生理条件下本质上是光降解和反应性的。[1] 自十九世纪以来,人们就已发现[2] 染料的不稳定性部分源于激发态寿命期间发生的不同光激活物理和化学过程,其中包括通过系统间窜越形成暗态、[3,4] 分子构象变化、[5] 以及由于明暗态之间随机偏移而引起的光诱导充电和触发暂时性扰动(闪烁)。[6–8] 更重要的是,与染料接触的活性氧化物 (ROS) 会诱导不可逆的光致发光 (PL) 消光,称为光漂白或褪色。[9,10] 这些过程大大减少了进行实验的时间窗口,从而限制了生物成像应用和各种条件下的体内监测。例如,绿色荧光蛋白 (GFP) 在光漂白之前提供有限数量的吸收/发射循环,发射光子数在 10 4 到 10 5 之间。尽管如此,GFP 仍然非常受欢迎,作为荧光探针,尽管它们的使用在典型的成像条件下仅限于几分钟。[11,12]