将大语言模型(LLM)与人类偏好保持一致,在建立现代生成模型中起着关键作用,可以通过从人类反馈(RLHF)学习来实现。尽管表现出色,但当前的RLHF方法通常需要大量的人类标记的偏好数据,这很昂贵。在本文中,受主动学习成功的启发,我们通过提出查询有效的RLHF方法来解决此问题。We first formalize the alignment problem as a contextual dueling bandit problem and design an active-query-based proximal policy optimization ( APPO ) algorithm with an e O ( d 2 / ∆) instance-dependent regret bound and an e O ( d 2 / ∆ 2 ) query complexity, where d is the dimension of feature space and ∆ is the sub-optimality gap over all the contexts.然后,我们提出了基于直接偏好优化(DPO)的算法的实用版本ADPO,并将其应用于微调LLMS。我们的实验表明,ADPO仅对人类偏好的查询进行了大约一半的查询,与最先进的DPO方法的性能相匹配。
主算法(算法 1)首先从我们需要解决的目标 6 实例(算法 2)创建一个子实例任务池,并可能从其他未解决的实例中创建子实例以进一步提高性能(选项 MIX)。通常,任务池包含 100,000 个任务或子实例。8 在每次迭代中,采样器/老虎机从池中挑选一批任务子实例并将其传递给 9 RL 代理。一批通常有 500 个任务或子实例(算法 3)。10 基于蒙特卡洛树搜索(算法 4)的 RL 代理,借助神经网络(CNN 或 11 GNN)进行增强,尝试解决这些实例。对于批次中的每个实例,MCTS 都会在给定的资源预算下寻找一个解决方案,对于生成的每个成功解决方案,MCTS 还会为策略/价值深度网络(训练器)生成一系列新的训练数据,以进一步更新其网络参数。每个实例的 MCTS 成功/失败状态都会发送回采样器/老虎机以调整其权重。每次成功的尝试不仅会生成一个有效的解决方案,还会为训练器改进策略/价值数据,以训练代理的深度网络。训练器会保留一个大小为 100000 的池子,用于存储 MCTS 生成的最新训练数据,并训练网络。每个训练批次都会均匀随机抽样。所有实验均在配备 2x18 19 核 Xeon Skylake 6154 CPU 和 5 个 Nvidia Tesla V100 16GB GPU 的机器上完成,所有训练组件均使用学习率为 0 的 Adam。 002作为默认优化器。MCTS模拟次数R设置为1600,Exp3每次迭代采样的batch size M设置为500。
o详尽的搜索(BFS / DFS)o启发函数 /合并知识o启发式搜索(最佳搜索 / a*) GA实施:突变,跨界,选择,繁殖•加固学习(RL)o RL简介:代理,环境,行动,政策,政策,奖励匪徒问题(探索与剥削)o马尔可夫决策过程o通用政策迭代o蒙特 - 卡洛方法o时间差异学习(SARSA / Q学习)•神经网络(NN)< / div>
表演者:Terra Greer – 声乐 Jasmin Daley – 声乐 Jordan Ellis – 贝斯和吉他 Amaree Bowen – 贝斯和吉他 Michael O'Donnell – 吉他 Work Song/ Sunny Mashup 由 Nat Adderly & Bobby Hymn 演唱(Jasmin Daley,声乐;Terra Greer,声乐;Michael O'Donnell,吉他;Jordan Ellis,吉他;Amaree Bowen,贝斯) At Last 由 Etta James 演唱(Jasmin Daley,声乐;Michael O'Donnell,吉他;Jordan Ellis,吉他;Amaree Bowen,贝斯) Hand On The Pulse 由 Amaree Bowen 演唱(Amaree Bowen,吉他;Michael O'Donnell,吉他;Jordan Ellis,贝斯) Real Love 由 Clean Bandit 演唱(Terra Greer,声乐;Michael O'Donnell,吉他;Jordan Ellis,吉他;Amaree Bowen,贝斯) Dancing Queen 由 Abba 演唱(Jasmin Daley,声乐;Terra Greer,声乐;Michael奥唐纳 (O'Donnell),吉他;乔丹·埃利斯 (Jordan Ellis),吉他;阿玛里·鲍恩 (Amaree Bowen),贝斯 )
摘要 - 我们考虑在随机多臂匪徒中最佳手臂识别的问题,在每个臂在每个回合中进行一次采样的情况。这种统一的抽样制度是一个概念上简单的设置,与许多实际应用相关。目的是停止并正确识别概率至少1 -δ的最佳臂,同时保持低回合的数量。我们在此设置的样品复杂性上得出了一个下限。此后,我们提出了两个自然停止规则,该规则是Bernoulli强盗的:一个基于PPR Martingale置信序列,另一个基于GLR统计数据。两个规则均显示为δ→0匹配。我们的分析和实验表明,两个停止规则的相对性能取决于强盗实例的属性。
在不久的将来,建造量子计算机[1]的最新进展[1]在量子算法中广泛应用。有了量子计算机的优势,人们不仅可以加快基本算法,例如非结构化搜索[6]和分解[11],而且还可以加快机器学习算法[3]。在本文中,我们研究了强化学习的规范任务的量子加速,这是多臂匪徒中最佳的手臂识别。多臂匪徒(MAB) - 从LAI和ROBBINS引起[8] - 是一个重要的顺序决策模型(参考,[9])。在随机情况下,mAb由k臂组成,每个臂都与未知平均µ k的奖励分布相关。查询臂k∈K时:= {1,2,。。。,k},一个人从其奖励分布中获得的奖励,即
多臂老虎机 (MAB) 问题模拟了一个决策者,该决策者根据当前和获得的新知识优化其行动以最大化其回报。这种类型的在线决策在脑机接口 (BCI) 的许多程序中都很突出,MAB 以前曾用于研究,例如,使用哪些心理命令来优化 BCI 性能。然而,BCI 背景下的 MAB 优化仍然相对未被探索,即使它有可能在校准和实时实施期间提高 BCI 性能。因此,本综述旨在向 BCI 社区进一步介绍 MAB 的成果丰硕的领域。本综述包括 MAB 问题和标准解决方法的背景,以及与 BCI 系统相关的解释。此外,它还包括 BCI 中 MAB 的最新概念和对未来研究的建议。
我们为结构化限制提出了一个新颖的框架,我们称之为影响图匪。我们的框架使用图形模型来捕获动作,潜在变量和观察之间的复杂统计依赖性;因此,统一并扩展了许多现有的模型,例如共同的半伴侣,级联的匪徒和低级匪徒。我们开发了新颖的在线学习算法,这些算法学会在模型中有效地行事。关键思想是要跟踪模型参数的结构化分布,无论是外部还是大约。采取行动,我们将模型参数从其后部进行采样,然后使用影响图的结构来发现采样参数下最乐观的动作。我们在三个结构化的匪徒问题中凭经验评估了我们的算法,并表明它们的性能与特定问题的最新基准相比,它们的性能和更好或更好。
1。Ally Yalei du ∗,Daniel Ngo ∗和Zhiwei Steven Wu。对下游决策制定的模型多样性。国际学习表征会议(ICLR),2025。2。Xinyan Hu ∗,Daniel Ngo ∗,Zhiwei Steven Wu和Aleksandrs Slivkins。激励组合匪徒探索。神经信息处理系统(神经),2022。3。Daniel Ngo ∗,Giuseppe Vietri ∗和Zhiwei Steven Wu。在Linearmdp中,差异私人探索改善了遗憾。国际机器学习会议(ICML),2022年。4。Keegan Harris,Daniel Ngo ∗,Logan Stapleton *,Hoda Heidari和Zhiwei Steven Wu。战略工具变量回归:从战略反应中恢复因果关系。国际机器学习会议(ICML),2022年。5。Daniel Ngo ∗,Logan Stapleton ∗,Vasilis Syrgkanis和Zhiwei Steven Wu。使用算法仪器激励探索。机器学习国际会议(ICML),2021。
在线学习中的有效探索(AAAI 最佳论文亚军、IJCAI)行星健康问题通常是空间规划问题,其中每个动作都是特定于上下文的,对应于地球上的物理区域。与每个动作相关的地理特征使我们能够使用平滑度假设来关联动作。例如在野生动物保护中,我们预计具有相似地理特征的地区也会有相似的偷猎模式。从数学上讲,我们可以将两个动作的奖励中的这种相似性编码为 Lipschitz 连续性。此外,每个动作(巡逻一组区域)在区域数量上是组合的,但可以分成具有附加、可分解奖励的构成区域。因此,我们引入了一种新的多臂老虎机变体,该变体结合了可分解性和平滑性,在这些奖励估计上强制实施 Lipschitz 连续性假设,以实现明显更快的收敛 [3]。我们表明,这种方法可以改善遗憾界限,并且不依赖于区域数量 N ,与最先进的 ˜ O ( T