设计具有靶向特性的分子对于从药物设计到设计可持续化学过程的应用至关重要[Bilodeau等,2022]。最近,诸如扩散或流匹配模型之类的生成模型成功地生成了与现有化学数据集相似的分子[Hoogeboom等,2022,Runcie and Mey,2023]。虽然扩散模型有望对复杂(高维或组合)空间进行采样,但它们自然不会导致设计通过在线反馈来优化特定属性。同时,贝叶斯优化技术会导致良好的性质最大化,但不容易扩展到复杂的域。因此:我们是否可以根据最佳概念结合生成模型产生有希望的分子的能力,同时根据生成分子的序列实现特性进一步证明?我们最近开始通过利用[Yuan等,2024,Uehara等,2024]的扩散模型来回答这个问题,并通过扩散模型为贝叶斯优化设计算法。现在,我们旨在将这些想法专门为实用方法,并在现实世界中的新分子设计问题上进行测试。
摘要-Multi-Access点协调(MAPC)和艺术智能和机器学习(AI/ML)被预计将是未来Wi-Fi的关键特征,例如即将到来的IEEE 80211亿次IEEE(Wi-Fi 8)及以后。在本文中,我们探索了一种基于在线学习的协调解决方案,以驱动空间重复使用(SR)的优化,该方法允许多个设备通过通过数据包检测(PD)调整(PD)调整和传输功率控制来控制干扰来执行同时传输。特别是,我们专注于多代理多武装匪徒(MA-MAB)设置,其中多个决策通过利用MAPC框架并研究各种算法和奖励共享机制来同时通过共存网络配置SR参数。我们使用良好的Wi-Fi模拟器Komondor评估了不同的MA-MAB实现,并证明,通过协调的mAb启用的AI-Native SR可以改善网络性能,而不是当前的Wi-Fi操作:平均吞吐量输入15%,而公平率提高了15%,而通过超过210%的最小访问量增加了最小的遍布量的最小范围,而将最高限制为210%以下MES,则可以提高33%的范围。索引术语 - 兵器,IEEE 802.11,机器学习,多访问点协调,多武器限制,空间重复使用,Wi-Fi
2025 年 1 月 6 日 — 危害人民安全的罪行......伊尼扬巴内省墙上的海报是要求叛军向军队投降的,但是,就其本身而言......
我们研究了具有已知动态但未知奖励功能的平均奖励和交流马尔可夫决策过程(MDP)中的遗憾最小化。尽管在此类MDP中学习比完全未知的MDP更容易,但它们仍然在很大程度上是挑战,因为它们包括特殊情况,例如组合半伴侣等大类问题。以统计上有效的方式利用遗憾最小化的过渡功能的知识似乎在很大程度上没有探索。猜想,即使有已知的过渡,我们即使在通用MDP中实现精确的最佳性也是NP-HARD,因此我们专注于计算有效的放松,以实现Order-Timpimal-Timal-Topimal-Mic MIC的遗憾而不是精确的最佳性。我们通过基于流行的匪徒最小经验差异策略引入一种新颖的算法来填补这一空白。提出的算法的关键组成部分是一个经过精心设计的停止标准,利用固定策略引起的复发类别。我们得出了一种非渐近,问题依赖性和对数的遗憾,该算法依赖于利用该结构的新颖遗憾分解。我们进一步提供了有效的实施和实验,以说明其有希望的经验绩效。关键字:平均奖励马尔可夫决策过程,遗憾的最小化,对数遗憾,马尔可夫链,经常性课程
1个随机匪徒1 1.1快速潜入两个阶段的随机实验。。。。。。。。。。。。。。。。。1 1.2随机匪徒简介。。。。。。。。。。。。。。。。。。。。。。。。。。2 1.3算法:探索 - 探索折衷。。。。。。。。。。。。。。。。。。10 1.3.1基本委员会 - 然后探索算法。。。。。。。。。。。。。。。。。。。。11 1.3.2从贪婪到UCB。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。15 1.3.3 Boltzmann探索。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 25 1.3.4随机匪徒的简单策略梯度。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 27 1.4随机匪徒的下限。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 31 1.4.1在相对熵上有点。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 31 1.4.2 Mini-Max下限(依赖模型)。15 1.3.3 Boltzmann探索。。。。。。。。。。。。。。。。。。。。。。。。。。。。。25 1.3.4随机匪徒的简单策略梯度。。。。。。。。。。。。。。。。27 1.4随机匪徒的下限。。。。。。。。。。。。。。。。。。。。。。。。。31 1.4.1在相对熵上有点。。。。。。。。。。。。。。。。。。。。。。。。。。。。31 1.4.2 Mini-Max下限(依赖模型)。。。。。。。。。。。。。。。。。34 1.4.3渐近下限(依赖模型)。。。。。。。。。。。。。。。。。36
我们为结构化限制提出了一个新颖的框架,我们称之为影响图匪。我们的框架使用图形模型来捕获动作,潜在变量和观察之间的复杂统计依赖性;因此,统一并扩展了许多现有的模型,例如共同的半伴侣,级联的匪徒和低级匪徒。我们开发了新颖的在线学习算法,这些算法学会在模型中有效地行事。关键思想是要跟踪模型参数的结构化分布,无论是外部还是大约。采取行动,我们将模型参数从其后部进行采样,然后使用影响图的结构来发现采样参数下最乐观的动作。我们在三个结构化的匪徒问题中凭经验评估了我们的算法,并表明它们的性能与特定问题的最新基准相比,它们的性能和更好或更好。
摘要 - 班迪斯作为序列学习的理论基础,也是现代收获系统的算法基础。但是,推荐系统通常依赖于用户敏感的数据,从而使隐私成为关键问题。本文有助于理解具有可信赖的集中决策者的土匪的差异隐私(DP),尤其是确保零集中差异隐私(ZCDP)的含义。首先,我们根据考虑的输入和相互作用协议进行形式化和比较DP的不同适应性。然后,我们提出了三种私人算法,即ADAC-UCB,ADAC-GOPE和ADAC-OFUL,用于三个土匪设置,即有限的武装匪徒,线性匪徒和线性上下文匪徒。三种算法共享一个通用算法蓝图,即高斯机制和自适应发作,以确保良好的隐私 - 实用性权衡。我们分析并限制了这三种算法的遗憾。我们的分析表明,在所有这些环境中,与遗憾的遗憾相比,强加了ZCDP的价格(渐近)可以忽略不计。接下来,我们将遗憾的上限与第一个Minimax下界补充了与ZCDP的匪徒的遗憾。为了证明下限,我们阐述了一种基于耦合和最佳运输的新证明技术。我们通过实验验证三种不同的匪徒设置的理论结果来得出结论。索引术语 - 差异隐私,多军匪徒,重新分析,下限
摘要 - 我们考虑在随机多臂匪徒中最佳手臂识别的问题,在每个臂在每个回合中进行一次采样的情况。这种统一的抽样制度是一个概念上简单的设置,与许多实际应用相关。目的是停止并正确识别概率至少1 -δ的最佳臂,同时保持低回合的数量。我们在此设置的样品复杂性上得出了一个下限。此后,我们提出了两个自然停止规则,该规则是Bernoulli强盗的:一个基于PPR Martingale置信序列,另一个基于GLR统计数据。两个规则均显示为δ→0匹配。我们的分析和实验表明,两个停止规则的相对性能取决于强盗实例的属性。