公共许可策略线性上下文匪徒托马斯·克莱恩·布宁(Thomas Kleine Buening),aadirupa saha,Christos dimitrakakis,Haifeng XU神经信息处理系统会议(Neurips),2024年,[PDF],[PDF]逆增强的环境设计 2024, [pdf ] Bandits Meet Mechanism Design to Combat Clickbait in Online Recommendation Thomas Kleine Buening , Aadirupa Saha, Christos Dimitrakakis, Haifeng Xu International Conference on Learning Representations (ICLR), Spotlight Presentation , 2024, [pdf ] ANACONDA: An Improved Dynamic Regret Algorithm for Adaptive Non‑Stationary Dueling Bandits Thomas Kleine Buening,Aadirupa Saha人工智能与统计国际会议(AISTATS),2023年,[PDF] minimax -bayes辅助学习Thomas Kleine Buening*,Christos dimitrakakis*,Hannes Eriksson*,Hannes Eriksson*,Hannes Eriksson*,Divya Grover*,Divya Grove*,Emilio Jorge*国际人工智能和人工智能和统计局(A)
本文将招聘视为一个上下文匪徒问题:要找到最好的工人,随着时间的流逝,公司必须平衡“剥削”(从具有可靠的往绩记录的群体中选择)与“示例”(从代表性不足的群体中选择以了解质量)。基于“监督学习”方法的现代招聘算法仅是为了剥削而设计的。替代,我们构建了一种简历筛选算法,该算法通过根据候选者的统计上升潜力来评估候选者来重视探索。使用从财富500强公司中招募的专业服务的数据,我们表明,这种方法可提高选择进行面试的候选人的质量(根据最终招聘率来衡量),同时还增加了相对于公司现有实践的演示多样性。对于传统的基于监督学习的算法而言,这是不正确的,该算法提高了招聘率,但选择了黑色和西班牙裔申请人少得多。一起,我们的结果强调了将探索纳入可能更有效和公平的决策算法中的重要性。
当前的研究动机:我旨在研究我们是否可以在医学和经济学等领域扩展AI的使用,同时确保算法公平。我的兴趣来自于我与约翰·迪克森(John Dickerson)教授所做的有关骑车和其他学生进行讨论的公平性的研究。这些讨论使我对AI和ML对医学和经济学等领域的决策产生更大的影响。在医学上,使用多军匪徒(mAb)等技术为患者做出治疗决策,而在经济学方面,深度学习被用来优化肾脏交换和乘车场等市场的匹配。由于人类随机性,医学和经济学的决定是没有完美信息的,因此AI和ML可以通过做出大约最佳的决定来克服这一问题特别重要。同时,在乘车区(约翰·迪克森教授)和NLP(与Jordan Boyd-Graber教授一起工作)向我展示了有关AI和ML系统当前不可靠性的问题,特别是关于偏见和平等的不可靠性,创造了对无偏见的决策技术的需求。
我们首先介绍了分类和预测的近似正确的学习理论。然后,我们考虑调谐参数的正则化和数据驱动的选择。我们将讨论如何使用Python和Scikit-Learn软件包执行监督的学习任务。我们将讨论规范正常手段模型。在此模型中,我们将以不同的方式激励收缩估计器,并证明收缩估计器可以统一地主导常规估计器的著名结果。我们接下来将引入深度神经网,这是一种非常成功的监督学习方法。在这种情况下,我们还将考虑用于训练神经网的数值方法,例如随机梯度下降。我们通过讨论变压器和(大型)语言模型来完成课程的这一部分,这是深度神经网的应用,最近在最近受到了特别关注。课程的下一部分将涵盖在线和自适应学习的不同框架。我们将从对抗性在线学习设置开始,那里根本没有对数据生成的概率假设。我们将接下来考虑多臂匪徒,并回顾一些理论结果,为在土匪设置中用于学习的算法提供性能保证(后悔界限)。
在标准在线多类分类模型中,学习者对对手进行重复的游戏。在每个回合t∈[t]中,对手选择一个标记的实例(x t,y t)∈X×y,并向学习者揭示x t。使用访问对假设类H的X X,学习者可能会进行随机预测ˆ yt∈Y。对手然后揭示真实的标签,然后学习者遭受损失1 {y t = y y t}。总体而言,学习者的目的是输出预测,以便其预期的累积损失并不大于H中所有固定假设中最小的累积损失。这种在线多类分类的标准设置通常称为全信息设置,因为学习者可以在每个回合结束时观察真正的标签。也许更实用的设置是匪徒反馈设置,在每个回合结束时,学习者无法观察到真正的标签,而只能指示其预测是否正确(Kakade,Shalev-Shalev-Shwartz和Tewari,Tewari,2008年)。此设置的一个应用程序是在线广告,广告商向用户推荐广告(标签),但只能观察用户是否单击广告。
大脑计算机界面(BCI)是一项技术,可以在大脑与外部设备或计算机系统之间进行直接通信。它允许个人仅使用自己的思想与设备进行交互,并具有在医学,康复和人类增强中广泛应用的巨大潜力。基于脑电图(EEG)和事件相关电位(ERP)的拼写系统是一种BCI,它允许用户在不使用物理键盘的情况下拼写单词,而是通过记录和解释不同刺激呈现范式下的大脑信号。传统的非自适应范式独立对待每个单词选择,从而导致了漫长的学习过程。为了提高采样效率,我们将问题作为一系列最佳武器识别任务的顺序,在多臂匪徒中。利用预先训练的大语言模型(LLMS),我们利用从先前任务中学到的先验知识来告知和促进后续任务。以连贯的方式这样做,我们建议在固定的信心设置和固定的预算设置下进行一个最高的汤普森采样(STTS)算法。我们研究了构成算法的理论特性,并通过合成数据分析以及P300 BCI拼写模拟器示例来证明其实质性的经验改进。
许多决策问题涉及通过与环境互动并观察这些相互作用产生的奖励来学习。在机器学习领域,这一研究属于所谓的增强学习(RL)和训练与环境相互作用的人工剂的算法(Sutton和Barto,2018; Kaelbling et et and; Kaelbling等人。,1996; Bertsekas和Tsitsiklis,1996)。我们在这里对匪徒家族问题的最佳手臂识别(BAI)问题感兴趣,这与RL问题集有关,其中与环境的互动会产生立即奖励以及不必要的长期计划(请参阅Lattimore和Szepesvári,2020年的长期计划)。更确切地说,我们对BAI问题的量子版本感兴趣,为此我们设计了能够解决该问题的量子算法。Quantum机器学习是量子计算和机器学习界面上的一项研究场,目的是使用量子计算范式和技术来提高学习算法的速度和性能(Wittek,2014; Biamonte等人。 ,2017年; Ciliberto等。 ,2018年; Schuld和Petruccione,2018年)。 量子计算中的一个基本概念是量子叠加,这是量子算法(1996年)之类的量子算法(最受欢迎的量子算法之一)成功地解决了从n个项目的无结构数据库中删除一个项目的问题,否,2017年; Ciliberto等。,2018年; Schuld和Petruccione,2018年)。量子计算中的一个基本概念是量子叠加,这是量子算法(1996年)之类的量子算法(最受欢迎的量子算法之一)成功地解决了从n个项目的无结构数据库中删除一个项目的问题,否
策略梯度算法对在执行学习中的应用显示出了令人印象深刻的结果,但长期以来,人们已经认识到,一些更正是为了改善收敛性;实施此类更正的几个众所周知的程序是对数势垒进行加强算法[23],信任区域策略优化TRPO [16]和近端策略优化(PPO,OpenAI的默认默认依据重新启动学习算法);所有人都使用正规化形式,即所有人都试图通过各种方法限制和控制策略更新。在这种一般环境中,我们将在此关注不同类型的正则化,并最具体地谈论多武装匪徒。虽然策略梯度算法显示出有趣的数值性能,但对MAB收敛的理论研究直到最近才见证了重要的进步。在[8]中证明,随机梯度程序对于线性二次调节器的一般情况而言,而Agarwal等人则具有很高的可能性。在Markov Prosess的一般框架下给出了[2]的理论结果,并在不同的策略参数中特别证明了收敛性;在我们在此处分析的软马克斯参数化的特定情况下,它们检查了三种解决此问题的算法。最初的方法涉及在目标上直接的策略梯度下降而没有改变。第二种方法 - 企业熵正规化,以防止参数过度生长,从而确保足够的探索。最后,他们研究了自然政策差异算法,并证明了与分配不匹配系数或特定维度特定因素无关的全球最佳结果。回想一下,相比之下,我们在这里研究了使用L 2正则化的SoftMax参数化。在几个月前(在写作时)在线发表的一篇最近的论文[4]中,J。Bhandari和D. Russo讨论了SoftMax参数化,但重点介绍(我们引用)“理想化的政策梯度更新,并访问了确切的梯度评估”。是一个区别,我们将在这里重点放在非脱颖而出的梯度上(这是实施的梯度),但以更强的假设为代价。然而,在另一项最先进的研究[11]中,作者做出了三项贡献。首先,他们确定,当启用真实梯度(即没有随机性)时,具有软磁性参数化的策略梯度以O(1 /T)的速率收敛。然后,他们检查了熵登记的策略梯度,并证明其加速收敛速率。最后,通过整合上述结果,它们描述了熵正规化增强策略优化的机制。最后,其他一些相关的作品包括[21],更具体地研究了使用深神经网络时的现场,而[24]通过使用新的变体进行了折现因子来研究蒙特卡洛估计的随机推出的新变体。
在 Blox Fruits 中,升级系统是一个关键机制,它使玩家能够增强实力并解锁各种能力。通过击败敌人、完成任务和参与活动,玩家可以获得经验 (EXP) 点数,从而帮助他们升级。每个级别都会增强玩家的属性和战斗表现。玩家可以投入属性的最大 EXP 点数等于当前玩家的最大等级,即 2550。每级所需的 EXP 量遵循以下公式:⌈ 2 ∗ L evel^{2.3} + 84 ⌉ = exptolevelup 。要达到最高等级(2550 级),玩家需要大约 105,774,383,121 EXP。玩家可以使用 EXP 代码或从商店购买 2 倍 EXP 来一次获得多个等级。然而,必须注意的是,一些海洋生物和 Raid Boss 提供了更有效的升级机会。例如,击败利维坦可获得 5 个等级,而击败海兽仅可获得 1 个等级。Blox 水果扭蛋中随机水果的价格会随着等级的提高而上涨。50 级用户可以掷出一个水果约 32,000,而最高等级的玩家可以掷出大约 407,000。由于元素免疫要求高,建议使用佛陀或其他具有良好研磨能力的水果,而不要仅仅依赖元素水果。研磨海兽不是一种有效的方法,因为获得的经验值很少。相反,玩家应该专注于更有利可图的活动,例如研磨匪徒或见习任务。此外,使用 2x EXP 代码或从商店购买时,玩家死亡时可以获得额外的双倍经验值,以补偿重生时间。赏金和荣誉系统允许玩家通过杀死等级差异为 600 级或以上的其他玩家来获得奖励。只有 20 级以上的玩家才能使用该系统。在 Blox Fruits 中,玩家可以达到某个点,在该点之后他们无法从 Boss 那里获得赏金和荣誉。要快速升级角色,请遵循以下提示。首先,使用开发人员提供的游戏代码来获得优势。这些代码会在一定时间内提供双倍经验值,让您更快地升级。这些代码的一些示例包括 Axiore、Bluxxy 和 Enyu_is_ Pro。其次,在故事进展过程中完成任务。但是,请确保您只接受当前级别范围内的任务。您不能一次接受多个任务,因此请先完成一个任务,然后再继续下一个任务。最后,在从一个地方到另一个地方旅行时,请选择适合您当前级别的岛屿。每个地点都有自己的级别要求,因此如果您的级别对于某个特定地点来说太低,您将无法有效地完成任务。例如,只有达到 226-300 级后才能进入斗兽场。下面列出了各个地点及其对应的级别。请记住,在 Blox Fruits 中升级角色需要策略和耐心。使用这些技巧成为一名强大的海盗并探索游戏的丰富内容。 225-300 熔岩村:300 海底都市:375 喷泉都市:625-700 第二片海 咖啡厅:安全区 乌索普岛:700 玫瑰王国:700-850 绿区:875-925 墓地:950-975 洋馆:1000 黑暗竞技场:1000 雪山:1000-1050 诅咒之船:1000-1325 冷热交织:1100-1200 冰雪城堡:1350-1400 遗忘之岛:1425-1475 第三片海 海上城堡:安全区 港口城镇:1500-1575 九头蛇岛:1575-1675 巨树:1700-1750 漂浮乌龟:1775-2000 闹鬼城堡:1975-2075 糖果之海:2075-2275 升级技巧 #4 - 明智使用属性点 属性点是角色升级进程的重要组成部分。 大多数初学者会随机分配点数,但可以考虑将它们放在近战和防御中。 如果您没有 Logia 果实,请将点数放在 Blox 果实属性中。 枪属性可以击晕敌人,主要用于 PvP。 升级技巧 #5 - 省钱 您可能认为开始时有很多钱,但这些钱是随着时间推移而花掉的。 省钱,直到您能买得起光、熔岩、冰和黑暗果实,例如人佛。 这些将使研磨和升级更快、更容易。 结论 Blox Fruits 是一款有趣的游戏,玩家可以在其中竞争成为海盗王。 实现这一目标的旅程很艰难,但与朋友一起玩会让它更有趣。 希望我们的升级指南对您有所帮助!烟雾:元素伤害,成本 100K 或 250;觉醒:无火焰:罕见元素,250K 或 550;觉醒:14.5K冰:罕见元素,350K 或 750;觉醒:14.5K沙子:罕见元素,420K 或 850;觉醒:14.5K黑暗:罕见元素,500K 或 950;觉醒:14.5K光明:稀有元素,650K 或 1.1M;觉醒:14.5K岩浆:稀有元素,960K 或 1.3M;觉醒:14.5K隆隆声:传奇元素,2.1B 或 2.1B;觉醒:14.5K 暴风雪:传奇元素,2.4B 或 2.25B;觉醒:无 面团:神话元素,2.8B 或 2.4M;觉醒:18.5K NPC 及其元素抗性: 袭击者(700 级):快速擒抱通过本能绕过免疫。 雇佣兵(725 级):使用本能躲避攻击。 天鹅海盗(775 级):比相距较远的工厂员工更容易磨练。 工厂员工(800 级):使用 Blox 水果烟雾、炸弹和尖刺,所有这些都可以绕过免疫。 海军中尉(875 级):使用光环更容易磨练;使用切碎可以更快地磨练。 海军上尉(900 级):有光环;建议使用切碎以便更容易磨练。僵尸(等级 950):比吸血鬼稍微容易刷,吸血鬼有闪步,很烦人。吸血鬼(等级 975):使用来自顶部的远程攻击来避免闪步攻击。雪地士兵(等级 1000):刷起来很烦人;建议刷雪地士兵而不是冬日战士。冬日战士(等级 1050):有特殊攻击可以绕过免疫并且可以击晕,这使得刷起来非常困难。