从人类反馈中学习(RLHF)已成为使大语言模型(LLM)与人类偏好保持一致的标准方法,从而使LLM可以在各种任务中表现出显着的能力。现有方法通过在单个决策(转弯)级别上模拟偏好,限制其在需要计划或多转交互以实现长期目标的设置中的功能。在本文中,我们通过开发新的增强学习方法(RL)来解决这个问题,从两次完整的多转交谈之间的偏好反馈中。在表格设置中,我们为一般多转变的基于多转变的RL问题提供了一种新型的基于镜下降的策略优化算法,并证明了其与NASH平衡的收敛。为了评估绩效,我们创建了一个新的环境,教育对话,教师代理人指导学生学习一个随机主题,并证明我们算法的深度RL变体优于RLHF Baselines。最后,我们表明,在具有明确奖励的环境中,我们的算法恢复了与基于奖励的RL基线相同的性能,尽管仅依靠较弱的偏好信号。
此处使用的目标函数是根据(相当流行的)PPO算法建模的。该算法反过来是一种策略梯度方法,并且是由信任区域策略优化(TRPO)的目标函数所激发的。,但是目标函数背后的(超高级别)直觉如下:1。对奖励的期望表明,在RL训练的模型πRL的样品上,我们希望该样品πrl的概率高时,当奖励rθ高,否则否则为低。2。beta术语的期望表明我们不希望RL训练的模型概率πrl到
对环境施加灵活的工具控制的能力是适应性决策的决定性特征。在这里,我们研究了调节对具有更大工具分歧的环境的偏好的神经基础,工具分歧是与替代行动相关的结果概率分布之间的距离。作为代理的正式指标,工具分歧允许有机体随着偏好的变化灵活地获得当前最期望的结果。因此,它可能具有内在效用,引导决策走向最大化工具力量的环境。与此观点一致,我们发现,将工具分歧视为奖励替代品的预期价值测量比仅对金钱奖励敏感的传统模型更好地解释了男性和女性人类参与者的选择偏好。使用基于模型的 fMRI,我们发现前额外侧和腹内侧 PFC 中的活动(分别与抽象认知推理和主观价值计算相关)随基于分歧的预期价值解释而缩放。讨论了信息理论和动机变量的神经共同货币的含义。
。CC-BY-NC-ND 4.0 国际许可 它是根据作者/资助者提供的,他已授予 medRxiv 永久展示预印本的许可。(未经同行评审认证)
摘要。随着技术创新和政策支持的增加,新的能源车市场正在迅速发展。本研究调查了市场教育对电动汽车(EV)和内燃机(ICE)车辆之间消费者偏好的影响。它调查了市场教育的影响,包括广告,专业论坛和社交媒体平台对消费者决策。该研究表明,市场教育大大增强了消费者对EV技术,建立品牌信任并刺激购买意图的理解。名人认可和社交媒体运动在短期内特别有效,而专业论坛则加深了消费者对电动汽车技术的信任。市场教育在强调电动汽车的长期成本效益方面也发挥了关键作用,有助于克服高初始成本的障碍。该研究结束时,建议汽车制造商和政策制定者利用市场教育来解决消费者对电动汽车的担忧并促进电动汽车市场的发展。
好:这是一个非常严重的问题。研究表明,由于整个刑事司法系统中的系统性种族偏见,黑人和棕色的人,尤其是男人,与白人相比,与白人相比,被囚禁不成比例。
神经营销已关注弥合传统营销研究与脑电图(EEG)基于脑部计算机界面(BCI)研究之间的差距。它通过偏好预测确定客户实际想要的东西。基于EEG的偏好检测系统的性能取决于适当的特征提取技术和机器学习算法。在这项研究中,我们使用脑电图指数的不同特征组合和不同算法进行特征提取和分类检查了神经营销数据集的偏好检测。对于EEG特征提取,我们采用了离散小波变换(DWT)和功率谱密度(PSD),这些变换(PSD)用于测量基于EEG的偏好指数,从而提高了偏好检测的准确性。此外,我们将深度学习与其他传统的分类器进行了比较,例如K-Neartime(KNN),支持向量机(SVM)和随机森林(RF)。我们还研究了偏好指标对分类算法性能的影响。通过严格的局部分析,我们研究了偏好检测和分类的计算智能。拟议的深神经网络(DNN)的性能在准确性,精度和召回方面优于KNN和SVM;但是,RF获得的结果与同一数据集类似于DNN的结果。
行业5.0旨在优先考虑人类运营商,专注于他们的福祉和能力,同时进行人类和机器人之间的合作,以提高效率和生产力。协作机器人的整合必须确保人类运营商的健康和福祉。的确,本文解决了以人类机器人协作(HRC)方案中基于偏好的优化算法提出以人体工程学评估来提高基于偏好的优化算法的必要性,以改善工作条件。HRC应用程序包括在对象处理任务期间优化协作机器人最终效果。以下方法(AMPL-RULA)利用了一种主动的多首选项学习(AMPL)算法,这是一种基于偏好的优化方法,在其中要求用户通过在几个候选人之间表达成对的偏好来迭代提供定性反馈。要解决身体健康,符合人体工程学的性能指数,快速上肢评估(RULA)与用户的成对偏好相结合,以便可以计算最佳设置。实验测试以验证该方法,涉及机器人执行的对象处理过程中的协作组装。结果表明,所提出的方法可以在简化协作任务时改善操作员的物理工作量。
随着AI生成的Content(AIGC)的开发,文本与ADIO模型正在引起广泛关注。然而,由于自然语言的固有信息密度和有限的模型不明显的能力,这些模型要生成与人类偏好保持一致的音频。为了减轻此问题,我们删除了指挥棒,这是第一个框架,旨在增强使用人类偏爱的反馈来增强生成的音频和文本提示之间的对齐。我们的接力棒包括三个关键阶段:首先,我们策划了一个包含提示和相应生成的音频的数据集,然后根据人类的馈本进行注释。其次,我们使用构造的数据集引入了奖励模型,该数据集可以通过分配奖励输入文本审计对来模仿人类的喜好。最后,我们采用了奖励模型来微调现成的文本对原模型。实验结果表明,我们的指挥棒可以显着提高原始文本对原模型的发电质量,音频完整性,时间关系以及与人类偏爱的一致性。项目页面可从https://baton2024.github.io获得。
从人类反馈(RLHF)中学习的最新进展通常是通过最大程度地提高观察到的人类偏好的可能性来对重新功能进行建模。但是,由于个体的不同背景,这些偏好信号本质上是随机的。在奖励和政策更新过程中,首选项中的这种固有的不确定性可能会导致不稳定或不安全的行为。在这项工作中,我们通过学习分布式奖励模型和来自离线偏好数据集的风险敏感政策来介绍RLHF中不确定性的优先对齐。具体来说,我们提出了最大的后验(地图),以更新与轨迹相关的奖励。此更新过程在人类偏好中的不确定性之前包含了一份信息。利用此更新的奖励样本,我们开发了一个生成奖励模型来表示奖励分布。在奖励模型中固有的随机性驱动下,我们利用了离线分销钟声操作员和有条件的危险价值(CVAR)度量标准,从离线数据集中学习了对风险敏感的策略。实验结果表明,风险敏感的RLHF代理可以有效地识别并避免具有重大随机性的状态,从而在不同任务中实现规避风险的控制。