摘要 - 课程增强学习(CRL)允许通过生成量身定制的学习任务来解决复杂的任务,从简单开始,随后增加了他们的困难。尽管在各种作品中清楚地显示了RL中课程的潜力,但尚不清楚如何在给定的学习环境中生成它们,从而产生了各种旨在自动化此任务的方法。在这项工作中,我们专注于将课程作为任务分布之间的插值,以前已被证明是CRL的可行方法。识别现有方法的关键问题,我们将课程的生成作为任务分布之间的最佳运输问题的生成。基准表明,这种课程生成的方式可以改善现有的CRL方法,从而在具有不同特征的各种任务中产生高性能。
任何定理供者的大多数组件都可以进行参数化和微调。为参数选择正确的值通常并不容易。通常没有明确的最佳选择,即使有一个总体的非最佳选择,对于某些类型的问题也可能更好。所有暴露参数的特定值选择是一种策略。使用正确的策略在给定超时内解决问题通常至关重要。解决此问题的一种方法是使定理供者向用户展示选项,使他们能够配置使用的策略。这是一个无花果叶:定义正确的策略通常需要对求解器的内部运作的深入了解。此外,供者的开发人员必须设置一个明智的默认值。这也不容易:通常,供奉献的开发人员不知道摊子会遇到的问题类型。默认值通常也应有些通用。总体而言,设计和使用策略是值得关注的主题。由于对于许多问题,有一种可以在短时间内解决问题的策略,因此自然要在该问题上尝试多种策略。最简单的方法是从列表中逐一尝试策略。稍微复杂的是准备一系列策略列表,并配对超时:如果运行更长的时间,可能有些策略会减少回报。我们将这样的列表称为时间表。在本文中,我们提供了一个工具箱来生成和使用时间表。工具箱的核心是一种基于整数编程的方法,可以找到
H3 / LN0 H3-xEV 420 60 40 175 x 175 x 190 6 15/16 x 6 15/16 x 7 1/2 26.9 3 years H4 / 140R/LN1 H4-xEV 570 80 50 207 x 175 x 190 8 1/8 x 6 15/16 x 7 1/2 33.9 3 years H5 / 47 / LN2 H5-xEV 660 100 60 242 x 175 x 190 9 9/16 x 6 15/16 x 7 1/2 39.2 3年B24L/51R B24-XEV 410 75 41 238 x 129 x 129 x 129 x 223 9 3/8 x 5 1/8 x 5 1/1/16 x 8 3/4 29.3 3年3岁B24pp/51 B24pp-xev 410 75 410 75 41 75 41 223 3 3 3/3 3 3/3 3/3 3 3/3 3 3/3 3/3 3 3/3 3 3/3 3 3/3 3/3 3 3/3 3/3 3/3 3/ 29.4 3年
摘要 - 在本文中,我们开发了一种机器学习,以优化电网的实时操作。尤其是,我们学到了可行的解决方案,这些解决方案具有可忽略不计的最佳差距的交流最佳功率流(OPF)问题。AC OPF问题旨在确定电网的最佳操作条件,以最大程度地减少功率损失和/或发电成本。由于解决了这个非概念问题的计算挑战,许多努力都集中在线性化或近似问题上解决AC OPF问题,以解决更快的时间范围内的AC OPF问题。但是,其中许多近似值可能是实际系统状态的相当差的表示,并且仍然需要解决优化问题,这对于大型网络来说可能很耗时。在这项工作中,我们学习了系统加载和最佳生成值之间的映射,使我们能够找到近乎最佳和可行的AC OPF解决方案。这使我们能够绕过传统的非convex AC OPF问题,从而导致网格运营商的计算负担显着减少。
∗ Pawe l Doligalski(通讯作者):英国布里斯托尔大学经济学系,The Priory Road Complex,Priory Road,BS8 1TU,布里斯托尔,电子邮箱:pawel.doligalski@bristol.ac.uk,电话:+44 117 954 6930。Luis E. Rojas:西班牙巴塞罗那 Cerdanyola del Vall´es 08193 UAB 校区 B 栋,电子邮箱:luis.rojas@MOVEbarcelona.eu,电话:(+34) 93 581 47 39 分机 4739。Luis Rojas 感谢 ERC 高级资助 (APMPAL) GA 324048 的支持。Pawe l Doligalski 感谢匈牙利中央银行给予他在匈牙利任职期间参与该项目的机会。我们非常感谢联合编辑 Florian Scheuer、匿名审稿人以及 ´ Arp´ad ´ Abrah´am、Charles Brendon、Antoine Camous、Hal Cole、Mike Golosov、Piero Gottardi、Ramon Marimon、Wojciech Kopczuk、Claus Kreiner、Dirk Krueger、Etienne Lehmann、Humberto Moreira、Erwin Ooghe、Wojciech Paczos、Evi Pappa、Dominik Sachs、Julia Schmieder、Jon Temple 和 Yanos Zylberberg 提出的宝贵意见。所有错误均由我们自己承担。
完整作者名单:Alobaid,Aisha;科威特大学工程与石油学院,化学工程 Adomaitis,Raymond;马里兰大学帕克分校,化学工程
* 杜克大学法学院法学副教授。我非常感谢过去几年来与许多人的深入交流和反馈,包括 Matthew Adler、Kerry Abrams、Rohit Asirvatham、Rachel Barkow、Sara Sun Beale、Monica Bell、Jeffrey Bel- lin、Joseph Blocher、James Boyle、Sam Buell、Robynn Cox、Miltonette Craig、Michael Frakes、Brandon Garrett、Lia Gelles、Max Gelles、Jim Greiner、Lisa Griffin、Eisha Jain、Anna Kaplan、Charlotte Kaplan、Emma Kaufman、Maggie Lemos、Kate Levine、Asher Levinthal、Tracey Meares、Ion Meyn、Ngozi Okidegbe、JJ Prescott、Michael Pollack、Roshan Rama、John Rappaport、Jocelyn Simonson、Sam Speers、Megan Stevenson、Chris Slobogin、Jenia Turner、Ronald Wright 和 Diego Zambrano。我还要感谢明尼苏达大学法学院公法研讨会、哈佛大学法学院刑事司法改革阅读小组、实证刑法圆桌会议、ABA-AALS-司法学院刑事司法圆桌会议、杜克大学法学院教职员工研讨会、2020 年法律与社会会议和 CrimConn 2020 的反馈。
简介 命题可满足性 (SAT) 或其他约束形式主义的编译已成为解决不同规划和模型检查变体的成功方法(Kautz 和 Selman 1992;Biere 等人 1999)。大多数此类基于编译的技术通过向约束求解器(例如 SAT 求解器)提交多个查询来工作,并且每个查询都对问题进行编码“是否存在最多有 h 个步骤的见证转换序列?”,其中 h 是某个自然数,通常称为地平线。对多个增加的 h 值重复此操作。为了使这些方法完整,h 必须有一个上限,通常称为完整性阈值,如果没有更短的上限,则不会找到任何见证人。此外,界限越严格,这些基于编译的程序就越有效。先前的研究已经将状态空间的不同拓扑属性确定为不同变体模型检查和规划问题的完备性阈值。例如,对于安全属性的有界模型检查,Biere 等人将直径(状态空间中最长最短路径的长度)确定为完备性阈值。直径也是基于 SAT 的满意规划的完备性阈值。Biere 等人还将递归直径(状态空间中最长简单路径的长度)确定为活性属性有界模型检查的完备性阈值。Edmund Clarke(Clarke、Emerson 和 Sifakis 2009)在其 Turing 中将识别和计算完备性阈值视为模型检查的一个活跃研究领域
摘要。本文探讨了博弈论在竞争环境中保险业务结构发展最优策略形成问题中的应用,并展示了一类可用于保险组合优化的优化模型。设计的博弈论模型旨在制定保险公司实施的最优策略,该公司提供各种保险。将组织一个旨在分析一组保险产品的模型,以跟踪保险公司在提供保险服务上花费的成本以及保险公司因提供保险服务而获得的收入。任务包括计算公司的最佳保险组合,目的是从开发的保险产品实现中获得最大收入。博弈模型能够确定保险公司提供保险服务的百分比,同时考虑到保险市场的条件和竞争对手的行为。进行的计算使保险公司的高管能够确定某些类型保险产品的有利保险市场条件,并加强有关减少或增加保险服务提供的决策过程。