摘要:加强学习的最新进步使得培养足球代理人,以模仿人类球员的行为。但是,现有方法成功复制现实的玩家行为仍然具有挑战性。实际上,代理商表现出诸如在球周围聚集或过早射击之类的行为。此问题的一个原因在于奖励功能总是为某些行动分配巨大的奖励,例如得分目标,无论情况如何,这种情况都会使代理人偏向高奖励行动。在这项研究中,我们将相对位置奖励和拍摄的位置重量纳入用于增强学习的奖励功能中。相对位置奖励,源自球员,球和目标的位置,是使用逆强化学习在真正的足球游戏数据集中估算的。拍摄的位置重量类似地基于这些游戏中观察到的实际射击位置。通过在真正的足球游戏中获得的数据集中进行实验,我们证明了相对位置奖励有助于使代理商的行为与人类玩家的行为更加紧密地保持一致。
最初开发用于连续的控制问题,近端政策操作(PPO)已成为各种强化学习(RL)应用程序的工作马,包括生成模型的微调。不幸的是,PPO需要多种启发式术才能实现稳定的收敛性(例如价值网络,剪辑),并以其对这些组件的精确影响的敏感性而臭名昭著。作为回应,我们退后一步,问生成模型时代的简约RL算法是什么样的。我们提出了Rebel,这是一种算法,可简单地减少策略优化问题,以在政策方面将两个完成之间的相对奖励回归到提示中,从而实现了引人注目的轻量级实施。从理论上讲,我们证明了像自然政策梯度这样的基本RL算法可以看作是叛军的变体,这使我们能够在RL文献中的收敛性和样本复杂性方面与最强的已知理论保证相匹配。Rebel还可以清晰地合并离线数据,并扩展以处理我们在实践中经常看到的不及物优先偏好。从经验上讲,我们发现Rebel提供了一种统一的方法,用于具有与PPO和DPO更强或类似性能的语言建模和图像生成,同时比PPO更易于实现,并且在计算上更有效。当微调Llama-3-8B - 教堂时,Rebel在Alpacaeval 2.0,MT-Bench和Open LLM排行榜中取得了出色的表现。可以在https://github.com/zhaolingao/rebel上找到叛军的实施,可以在https://huggingface.co/cornell-agi上找到由Rebel培训的模型。
最初开发用于连续控制问题的近端政策选择(PPO)已成为各种强化学习(RL)应用程序(包括生成模型的微调)的工作马。不幸的是,PPO需要多种启发式学才能实现稳定的收敛(例如价值网络,剪辑),并以其对这些组件的精确实现的敏感性而臭名昭著。回应,我们退后一步,问生成模型时代的简约RL算法是什么样的。我们提出了Rebel,这是一种算法,可简洁地减少策略优化问题,以通过两个完成之间的直接策略参数化回归相对奖励,从而使得轻量轻量级实现。从理论上讲,我们证明了像自然政策梯度这样的基本RL算法可以看作是叛军的变体,这使我们能够在RL文献中的收敛性和样本复杂性方面与最强的已知理论保证相匹配。Rebel还可以清洁地合并离线数据,并处理我们在实践中经常看到的不及物线偏好。从经验上讲,我们发现Rebel提供了一种统一的方法,用于与PPO和DPO具有更强或类似性能的语言建模和图像生成,同时比PPO更易于实现,并且在计算上更可行。
信息理论已成为一种越来越重要的研究领域,以更好地了解Quantum力学。值得注意的是,它涵盖了基础和应用观点,还提供了一种共同的技术语言来研究各种研究领域。非常明显,关键信息理论数量之一是由相对熵给出的,这量化了分开两个概率分布,甚至两个量子状态的困难。这样的数量依赖于诸如计量,量子热力学,量子通信和量子信息等领域的核心。鉴于应用的广泛性,希望了解该数量在量子过程中如何变化。通过考虑一般的统一通道,我们在输出和输入之间的广义相对熵(r´enyi和tsallis)上建立了一个结合。作为我们边界的应用,我们根据相对熵得出了一个量子速度限制的家族。讨论了这个家族与热力学,量子相干,不对称和单光信息理论之间的可能联系。
摘要 现有研究对经济对投票率的影响的分析相互矛盾;一些研究表明经济不景气会导致投票率降低,而另一些研究则发现相反的结果,或者没有显著影响。造成这种模糊性的原因之一可能是对选民如何形成对经济表现的态度的理解有限。先前的研究隐含地假设选民的经济评估完全基于有关回顾性国内经济的信息。相反,这项研究表明选民会将自己国家的经济与其他国家的经济进行比较。如果经济影响投票率,那么相对经济就会影响选民的评价,从而影响他们的投票决定。本文采用了自 1980 年代以来 29 个民主国家选举和国家中媒体确定的空间参考点衡量的“相对经济”变量,发现相对经济不佳会导致投票率降低,而相对经济良好似乎没有影响。这一发现对于投票率的选举效应以及民主问责具有重要意义。
对于任何状态 ρ 和 σ (其中后者不需要归一化)。相对熵是一个比冯·诺依曼熵更一般的熵量。它包含后者和其他信息测度,如互信息,作为特例。它可以看作是量子态之间的相异性度量,并用于定义各种重要量,如纠缠的相对熵 [6]。相对熵表征非对称假设检验的误差指数 [7] 或量化资源理论中的资源量 [8,9]。到目前为止,还没有证明量子相对熵的链式法则。这与经典情况形成了鲜明的对比,在经典情况下,相对熵(也称为 Kullback-Leibler 散度)存在链式法则 [10,定理 2.5.3]。对于一对离散随机变量 ( X, Y ),其字母为 X × Y ,我们有
抽象事实在每种互动中都会发生,但它们不是绝对的:它们与互动中有关的系统相对。稳定的事实是那些相对论可以忽略的相对论的事实。在这项工作中,我们描述了相对事实世界中稳定的事实如何出现,并讨论了它们在连接量子理论和世界中的各自作用。相对和稳定事实之间的区别解决了弗劳吉格和雷纳的无关定理所指出的困难,与对本理学的本地友好不平等的侵犯相一致。理论在相对事实上阐明了典型的范围,使典型的作用在典型的角色上阐明了典型的范围。 “投影”假设。