强化学习(RL)在使大语言模型(LLMS)与人类偏好相结合并提高其执行复杂任务的能力方面起着至关重要的作用。但是,由于使用多种模型和大量的在线抽样培训(例如PPO),当前的方法要么需要大量的计算资源(例如,PPO),要么被用作匪徒问题(例如,DPO,DRO),通常在多步理学任务中挣扎,例如数学问题和复杂的推理,涉及较长的思想链条。为了克服这些局限性,我们引入了直接的Q-功能优化(DQO),该优化将响应生成过程作为马尔可夫决策过程(MDP),并利用软actor-Critic(SAC)框架来优化语言模型直接参数参数的Q函数。DQO的MDP公式提供了比基于匪徒的方法的结构优势,从而实现了更有效的过程监督。对两个数学解决问题数据集GSM8K和数学的实验结果表明,DQO胜过以前的方法,将其确定为一种有希望的离线强化学习方法,以使语言模型对齐。
本文将招聘视为一个上下文匪徒问题:要找到最好的工人,随着时间的流逝,公司必须平衡“剥削”(从具有可靠的往绩记录的群体中选择)与“示例”(从代表性不足的群体中选择以了解质量)。基于“监督学习”方法的现代招聘算法仅是为了剥削而设计的。替代,我们构建了一种简历筛选算法,该算法通过根据候选者的统计上升潜力来评估候选者来重视探索。使用从财富500强公司中招募的专业服务的数据,我们表明,这种方法可提高选择进行面试的候选人的质量(根据最终招聘率来衡量),同时还增加了相对于公司现有实践的演示多样性。对于传统的基于监督学习的算法而言,这是不正确的,该算法提高了招聘率,但选择了黑色和西班牙裔申请人少得多。一起,我们的结果强调了将探索纳入可能更有效和公平的决策算法中的重要性。
涉及实体中资源竞争的情况可以由竞争性的多军强盗(CMAB)问题来建立,该问题与社会问题有关,例如最大化总成果并实现个人之间最公平的资源回音。在这些方面,量子状态的固有随机性和全局特性为获得最佳解决方案提供了理想的工具。基于先前对双臂案例中的CMAB问题的研究,本文介绍了找到极化 - 纠结的N-Photon状态所需的理论原则,这些原理可以优化总资源输出,同时确保玩家之间的平等。通过使用数值模拟来重现现实配置,并找到了克服玩家的极化测量系统之间潜在的未对准的最佳策略,将这些原理应用于两,三,四和五人情况。尽管此处未介绍N-玩家情况的一般公式,但提出了一般推导规则和验证算法。本报告以有限的概率资源来证明量子状态在集体决策中的潜在可用性,这可以作为迈向基于量子的资源分配系统的第一步。
摘要 — 我们考虑电力聚合器试图了解客户的用电模式,同时通过实时广播调度信号实施负荷调整程序的问题。我们采用多臂老虎机问题公式来解释客户对调度信号响应的随机性和未知性。我们提出了一种受约束的汤普森抽样启发式方法 Con-TS-RTP,作为电力聚合器试图影响客户用电以匹配各种期望需求曲线(即减少高峰时段的需求、整合更多间歇性可再生能源发电、跟踪期望的每日负荷曲线等)的负荷调整问题的解决方案。所提出的 Con-TS-RTP 启发式方法考虑了每日变化的目标负荷曲线(即反映可再生能源预测和期望需求模式的多个目标负荷曲线),并考虑了配电系统的运营约束,以确保客户获得足够的服务并避免潜在的电网故障。我们对我们的算法的遗憾界限进行了讨论,并讨论了在整个学习过程中坚持分销系统约束的运行可靠性。
摘要 — 我们考虑电力聚合器试图了解客户的用电模式,同时通过实时广播调度信号实施负荷调整程序的问题。我们采用多臂老虎机问题公式来解释客户对调度信号响应的随机性和未知性。我们提出了一种受约束的汤普森抽样启发式方法 Con-TS-RTP,作为电力聚合器试图影响客户用电以匹配各种期望需求曲线(即减少高峰时段的需求、整合更多间歇性可再生能源发电、跟踪期望的每日负荷曲线等)的负荷调整问题的解决方案。所提出的 Con-TS-RTP 启发式方法考虑了每日变化的目标负荷曲线(即反映可再生能源预测和期望需求模式的多个目标负荷曲线),并考虑了配电系统的运营约束,以确保客户获得足够的服务并避免潜在的电网故障。我们对我们的算法的遗憾界限进行了讨论,并讨论了在整个学习过程中坚持分销系统约束的运行可靠性。
本文分析了一种战略探索模型,其中竞争者独立探索一组替代方案。该模型以多玩家多臂老虎机问题为特征,捕捉了抢占(秘密探索对手未来将探索的替代方案)与优先排序(探索最有前途的替代方案)之间的战略权衡。我们的研究结果解释了战略权衡如何影响均衡行为和结果,例如超级大国之间的技术竞赛和企业之间的研发竞争。我们表明,参与者在同一组替代方案上竞争,导致从头到尾重复探索,并且在更有前途的替代方案耗尽之前,他们会探索先验前景较差的替代方案。该模型还预测,竞争会诱导参与者过早实施不可靠的技术,即使他们应该等待技术成熟。即使替代方案同样有前景,协调探索也是不可能的,但如果期限很短,它可能会经过抢占式竞争阶段后达到平衡。由于探索能力不对称,弱势一方会进行广泛的探索而非深入的探索——与强势一方一样探索尽可能多的替代方案,但从未充分探索过任何一种。
摘要-Multi-Access点协调(MAPC)和艺术智能和机器学习(AI/ML)被预计将是未来Wi-Fi的关键特征,例如即将到来的IEEE 80211亿次IEEE(Wi-Fi 8)及以后。在本文中,我们探索了一种基于在线学习的协调解决方案,以驱动空间重复使用(SR)的优化,该方法允许多个设备通过通过数据包检测(PD)调整(PD)调整和传输功率控制来控制干扰来执行同时传输。特别是,我们专注于多代理多武装匪徒(MA-MAB)设置,其中多个决策通过利用MAPC框架并研究各种算法和奖励共享机制来同时通过共存网络配置SR参数。我们使用良好的Wi-Fi模拟器Komondor评估了不同的MA-MAB实现,并证明,通过协调的mAb启用的AI-Native SR可以改善网络性能,而不是当前的Wi-Fi操作:平均吞吐量输入15%,而公平率提高了15%,而通过超过210%的最小访问量增加了最小的遍布量的最小范围,而将最高限制为210%以下MES,则可以提高33%的范围。索引术语 - 兵器,IEEE 802.11,机器学习,多访问点协调,多武器限制,空间重复使用,Wi-Fi
我们首先介绍了分类和预测的近似正确的学习理论。然后,我们考虑调谐参数的正则化和数据驱动的选择。我们将讨论如何使用Python和Scikit-Learn软件包执行监督的学习任务。我们将讨论规范正常手段模型。在此模型中,我们将以不同的方式激励收缩估计器,并证明收缩估计器可以统一地主导常规估计器的著名结果。我们接下来将引入深度神经网,这是一种非常成功的监督学习方法。在这种情况下,我们还将考虑用于训练神经网的数值方法,例如随机梯度下降。我们通过讨论变压器和(大型)语言模型来完成课程的这一部分,这是深度神经网的应用,最近在最近受到了特别关注。课程的下一部分将涵盖在线和自适应学习的不同框架。我们将从对抗性在线学习设置开始,那里根本没有对数据生成的概率假设。我们将接下来考虑多臂匪徒,并回顾一些理论结果,为在土匪设置中用于学习的算法提供性能保证(后悔界限)。
简介 多臂老虎机 (MAB) 模型是强化学习中最基本的设置之一。这个简单的场景捕捉到了诸如探索和利用之间的权衡等关键问题。此外,它还广泛应用于运筹学、机制设计和统计学等领域。多臂老虎机的一个基本挑战是最佳臂识别问题,其目标是有效地识别出具有最大预期回报的臂。这个问题抓住了实际情况中的一个常见困难,即以单位成本只能获得有关感兴趣系统的部分信息。一个现实世界的例子是推荐系统,其目标是找到对用户有吸引力的商品。对于每个推荐,只会获得对推荐商品的反馈。在机器学习的背景下,最佳臂识别可以被视为主动学习的高级抽象和核心组件,其目标是尽量减少底层概念的不确定性,并且每个步骤仅显示被查询的数据点的标签。量子计算是一种有前途的技术,可能应用于密码分析、优化和量子物理模拟等不同领域。最近,量子计算设备已被证明在特定方面的表现优于传统计算机
在标准在线多类分类模型中,学习者对对手进行重复的游戏。在每个回合t∈[t]中,对手选择一个标记的实例(x t,y t)∈X×y,并向学习者揭示x t。使用访问对假设类H的X X,学习者可能会进行随机预测ˆ yt∈Y。对手然后揭示真实的标签,然后学习者遭受损失1 {y t = y y t}。总体而言,学习者的目的是输出预测,以便其预期的累积损失并不大于H中所有固定假设中最小的累积损失。这种在线多类分类的标准设置通常称为全信息设置,因为学习者可以在每个回合结束时观察真正的标签。也许更实用的设置是匪徒反馈设置,在每个回合结束时,学习者无法观察到真正的标签,而只能指示其预测是否正确(Kakade,Shalev-Shalev-Shwartz和Tewari,Tewari,2008年)。此设置的一个应用程序是在线广告,广告商向用户推荐广告(标签),但只能观察用户是否单击广告。