摘要 - 表达机器人行为对于在社交环境中广泛接受机器人至关重要。学习的腿部运动控制器的最新进展已实现了更具动态和多功能的机器人行为。,确定在各种情况下与不同用户互动的最佳行为仍然是一个挑战。当前方法要么依赖于自然语言输入,这是有效但低分辨率的,要么从人类的偏好中学习,尽管高分辨率却是效率低下的样本。本文介绍了一种新的方法,该方法利用了预先训练的LLMS产生的先验,并在偏好学习的精确度上。我们的方法称为语言引导的偏好学习(LGPL),使用LLMS生成初始行为样本,然后通过基于偏好的反馈来完善这些样本,以学习与人类期望紧密相符的行为。我们的核心见解是,LLM可以指导偏好学习的抽样过程,从而实现样本效率的实质性提高。我们证明,LGPL可以快速学习精确和表现力的行为,只有四个查询,既优于纯语言参数模型和传统的偏好学习方法。带有视频的网站:此HTTP URL。
13.单击“保存”;如果未选择“保存”,则所有偏好数据都将丢失。13A.申请人将根据数值按升序排序。13B.在“申请人兴趣”栏下,如果会员手动选择了列出的工作机会之一的偏好,则会出现一个复选标记;在此示例中,没有会员选择可用的工作机会的偏好。13C.信号栏下将出现一个绿色复选标记,表示手动填写的偏好;这会向会员发送通知。
随着AI生成的Content(AIGC)的开发,文本与ADIO模型正在引起广泛关注。然而,由于自然语言的固有信息密度和有限的模型不明显的能力,这些模型要生成与人类偏好保持一致的音频。为了减轻此问题,我们删除了指挥棒,这是第一个框架,旨在增强使用人类偏爱的反馈来增强生成的音频和文本提示之间的对齐。我们的接力棒包括三个关键阶段:首先,我们策划了一个包含提示和相应生成的音频的数据集,然后根据人类的馈本进行注释。其次,我们使用构造的数据集引入了奖励模型,该数据集可以通过分配奖励输入文本审计对来模仿人类的喜好。最后,我们采用了奖励模型来微调现成的文本对原模型。实验结果表明,我们的指挥棒可以显着提高原始文本对原模型的发电质量,音频完整性,时间关系以及与人类偏爱的一致性。项目页面可从https://baton2024.github.io获得。
我们分析了一个小型开放经济中最优货币政策,其特点是消费偏向本土。我们的框架的独特之处在于将拉姆齐型分析应用于近期开放经济新凯恩斯主义文献的模型。我们表明,消费偏向本土是促使开放经济货币政策制定者偏离严格加价稳定策略并考虑某种(最优)汇率稳定的充分条件。我们关注两种情况下的最优政策设定:企业提前一个时期设定价格,以及以逐步方式设定价格,但要考虑调整成本。虽然第一种设置允许我们分析性地突出本土偏好作为均衡加价波动的独立来源,但第二种设置允许研究未来预期对最优政策问题的影响以及本土偏好对最优通胀波动的影响。尤其是后者,与贸易开放度呈U型关系,而汇率波动性则随着开放度单调递减。
有很多现实世界的黑框优化概率需要同时优化多个标准。然而,在多目标优化(MOO)问题中,确定整个帕累托阵线需要过度的搜索成本,而在许多实际情况下,决策者(DM)只需要在帕累托最佳解决方案集中的特定解决方案。我们提出了一种贝叶斯操作方法(BO)方法,以使用昂贵的目标功能识别MOO中最喜欢的解决方案,其中DM的贝叶斯偏好模型是根据两种称为成对偏好和改进请求的Supperions类型的交互方式自适应估算的。要探索最优选的解决方案,我们定义了一个采集函数,在该函数中,在观察函数和DM偏好中的不确定性都已合并。为了最大程度地减少与DM的相互作用成本,我们还为偏好估计提出了一种主动学习策略。我们通过基准功能优化和机器学习模型的高参数优化问题来证明我们提出的方法的有效性。
对环境施加灵活的工具控制的能力是适应性决策的决定性特征。在这里,我们研究了调节对具有更大工具分歧的环境的偏好的神经基础,工具分歧是与替代行动相关的结果概率分布之间的距离。作为代理的正式指标,工具分歧允许有机体随着偏好的变化灵活地获得当前最期望的结果。因此,它可能具有内在效用,引导决策走向最大化工具力量的环境。与此观点一致,我们发现,将工具分歧视为奖励替代品的预期价值测量比仅对金钱奖励敏感的传统模型更好地解释了男性和女性人类参与者的选择偏好。使用基于模型的 fMRI,我们发现前额外侧和腹内侧 PFC 中的活动(分别与抽象认知推理和主观价值计算相关)随基于分歧的预期价值解释而缩放。讨论了信息理论和动机变量的神经共同货币的含义。
摘要。本文重点研究了一种在具有模糊偏好的纯交换经济 (PXE-FP) 中实现均衡的新模型。该模型将交换、消费和主体在消费集中的模糊偏好整合在一起。我们在消费集上建立了一个新的模糊二元关系来评估模糊偏好。此外,我们证明了在某些条件下消费集中存在一个连续的模糊保序函数。通过模糊非合作博弈中模糊纳什均衡存在的新结果,证实了 PXE-FP 存在模糊竞争均衡。在模糊非合作博弈中,任何主体的所有策略配置的收益都是模糊数。最后,我们表明模糊竞争均衡可以表征为相关拟变分不等式的解,从而得到均衡解。
在未标记的蛋白质数据集上训练的生成模型表明,没有任何特定于任务的训练数据,可以预测某些生物学功能。但是,此功能并未扩展到所有相关功能,在许多情况下,无监督的模型仍然不足以特定于任务,监督的基线。我们假设这是由于基本的“一致性差距”所致,在该差距中,在无监督培训期间所学的规则不能保证与感兴趣的功能有关。在这里,我们演示了如何为蛋白质生成模型提供有用的特定任务信息,而不会失去训练期间学到的丰富的一般知识。使用称为直接偏好优化(DPO)的优化任务,我们通过鼓励模型希望稳定而不是稳定的变体,从而使结构调节的语言模型对齐,以生成稳定的蛋白质序列。我们所产生的模型ProteIndpo是第一个结构条件的语言模型偏好于实验数据。ProteIndpo实现了竞争性稳定性预测,并始终优于该模型的无监督和填充版本。值得注意的是,对齐模型在其训练数据之外的领域也表现良好,以实现大蛋白的绝对稳定性预测和多链复合物的结合亲和力预测,同时还可以实现多种骨干的单步稳定。这些结果表明,ProteIndpo从其生物物理对齐数据中学习了可推广的信息。
摘要人工智能(AI)系统在医疗保健和临床决策中迅速发展。但是,目前尚不清楚AI可以或应该支持基于丧失能力的患者的护理目标和目标的决策,这通常需要临床医生和亲人的投入。在医学伦理学文献中讨论了使用算法来预测患者最有可能的治疗方法,但在临床实践中尚未实现例子。这可以说是由于缺乏对这种算法的设计和使用引起的认识论,道德和务实挑战的结构化方法。本文通过建议将AIS视为具有独特生命周期的社会技术系统,从而为问题提供了新的观点。我们探索已知和新颖的挑战如何将其映射到发展的不同阶段,突出了其解决方案的跨学科策略。
摘要 - 本研究旨在调查英语作为外语(EFL)学生对使用交互式学习应用的看法。研究方法是定量的,使用问卷收集有关学生对交互式学习应用程序及其在这方面的偏好的看法的数据。此外,还包括学术绩效数据。研究人群包括印度尼西亚北苏门答腊的教师培训和教育科学学院(Stkip)Al Maksum的所有学生。该样本由2021/2022学年的英语系学习计划中的20名学生组成。研究结果表明,学生对互动学习应用的看法会影响他们对学习应用的选择,最终影响他们的学习成果。根据学生对学习应用的看法的总分,学生更倾向于选择Kahoot供EFL使用。这是因为,在有效性,享受和感知到的学习方面,此应用程序在quizizz方面表现出色。