本文中表达的任何观点都是作者的意见,而不是Iza的意见。本系列发表的研究可能包括对政策的看法,但IZA没有任何机构政策立场。IZA研究网络致力于研究完整性的IZA指导原则。IZA劳动经济学研究所是一家独立的经济研究所,在劳动经济学领域进行研究,并就劳动力市场问题提供基于证据的政策建议。在德意志邮政基金会的支持下,伊扎(Iza)拥有世界上最大的经济学家网络,其研究旨在为我们这个时代的全球劳动力市场挑战提供答案。我们的主要目标是在学术研究,决策者和社会之间建造桥梁。IZA讨论论文通常代表初步工作,并被散发以鼓励讨论。引用这种论文应解释其临时特征。可以直接从作者那里获得修订版。
设计奖励功能的复杂性一直是深入强化学习(RL)技术的广泛应用的主要障碍。描述代理商的所需行为和属性也可能很困难。一种新的范式,称为从人类优先(或基于偏好的RL)学习的强化学习已成为有前途的解决方案,其中从BE-HAVIOR轨迹之间从人类偏好标签中学到了奖励功能。但是,现有的基于首选项的RL的方法受到准确的Oracle首选项标签的限制。本文通过开发一种从各种人类偏好中学习的方法来限制这种局限性。关键思想是通过在潜在空间中的规范和纠正来稳定奖励学习。为了确保时间一致性,对奖励模型施加了强大的限制,该模型迫使其范围的空间接近非参数分配。此外,基于置信的奖励模型结合方法旨在产生更稳定和可靠的预测。对DMCON-trol和Meta-World中的各种任务进行了测试,并在从不同的反馈中学习时,对现有基于首选项的RL算法显示出一致且显着的改进,为RL方法的现实世界应用铺平了道路。
©2023。保留所有权利。iqvia®是美国,欧盟和其他各个国家的IQVIA Inc.的注册商标。05.2023.USCAN。BCS2023-1303-04APR
本报告确定了驾驶员对仪表盘亮度/对比度水平的偏好。共有 30 名驾驶员(10 名年轻美国人、10 名老年美国人和 10 名日本人)参与。在密歇根州安娜堡 17 英里路线的 9 个地点获得了判断(最小、首选、最大和耀眼)。每位驾驶员都针对 5 种测试条件(白天 - 电子除尘器,带和不带太阳镜;夜间 - 电子、绿色模拟和白色模拟集群)提供了判断。对比度方差分析 (ANOVA) 显示,夜间 3 个集群之间存在显著差异(电子=l78:1、绿色=82:l 和白色=51:l)。t 检验显示带太阳镜(14:l)和不带太阳镜(1 1:1)的电子面板之间存在显著差异。对于 5 种情况(戴太阳镜、不戴太阳镜、电子、绿色和白色),首选比率分别为 14:1、11:1、186:1、77:1 和 441。正如预期的那样,从低到高的对比度判断顺序为最小(30:1)、首选(67:1)、最大(84:1)和耀眼(88:1)。但是,最大和耀眼的判断并没有显著差异。这是集群有限亮度范围的函数,因为 30% 的时间最高设置不足以达到最大判断,67/0 的时间它不足以达到耀眼。因此,这两个判断的对比度被低估了。年轻人(64:1)和老年人(70:1)美国人之间存在差异,但美国男性和女性或美国和日本司机之间没有差异。为对比而开发的预测方程至少解释了首选、最大和令人眼花缭乱的判断的 84% 的变异性。
声音对海洋哺乳动物的影响传统上被定义为伤害或行为紊乱。最早对行为紊乱的担忧是,高噪音会通过掩盖微弱信号来减少通信范围。很少有研究记录这种影响,但最近的研究强调了动物用来补偿高噪音的机制。许多研究已经记录了行为变化与暴露的关系,但事实证明很难将这些变化与对个体动物福利或种群状况的影响联系起来。解释影响的有希望的方法包括避开栖息地、觅食的能量学以及将反捕食者行为模型应用于人类干扰。在 20 世纪 90 年代,伤害的声学标准是基于暂时性听力损失而指定的。海军声纳演习期间,喙鲸大量搁浅的异常现象不断出现,这表明,某些物种在某些环境下,在较低暴露水平下的行为反应可能会导致受伤或死亡。一头带标签的喙鲸对实验性播放的中频声纳声音表现出与虎鲸叫声相似但较弱的反应,这表明,在暴露于不太可能直接造成伤害的声音水平后,反捕食者反应可能会对动物造成伤害。
摘要 当今社会需要在生活的各个领域建立道德、更持久的秩序,为人类进一步发展奠定坚实的基础。学校教育触动了孩子们的道德行为,因为它在灌输正确的价值观方面起着至关重要的作用。这将使他们在成长过程中受益匪浅。成年后,他们可以在社会生活中实践他们在成长阶段吸收的价值观。因此,价值观教育应该是教师培训的主要关注点,因为教师有责任塑造儿童的思想,这些思想决定了他们以后生活中的行为和行动。本研究考察了未来教师的价值观体系和价值观偏好。随机选择了 330 名 B.Ed. 课程的在职前教师作为样本,并采用 Rokeach 价值观调查 (RVS) 进行研究。研究表明,未来的教师以自我为中心,关注他们存在的最终状态,表现出他们对自由、舒适和友谊的倾向。然而,研究发现,他们的行为方式更倾向于勤奋、有责任感和开放的心态。研究建议,课程与教学应为理论和实践工作提供必要的投入,使预备教师认识到平等、和平、自尊和诚实等价值观的重要性。
从演示中学习是用户教机器人的常见方法,但它很容易出现虚假的特征相关性。最近的工作构建了状态抽象,即具有与任务相关特征的视觉表示,从语言作为执行更具概括性学习的方式。但是,这些抽象还取决于用户对任务中重要的内容的偏好,而单独使用语言可能很难描述或不可证明。我们如何构建抽象来捕获这些潜在偏好?我们观察到人类的行为如何揭示了他们如何看待世界。我们的关键见解是,人类行为的变化告诉我们,人们对人类看待世界的偏好有所不同,即他们的状态抽象。在这项工作中,我们建议使用语言模型(LMS)查询直接知道行为发生变化的偏好。在我们的框架中,我们以两种方式使用LM:FRST,给定对任务的文字描述和状态之间行为变化的知识,我们向LM查询可能的隐藏偏好;其次,考虑到最可能的偏好,我们询问LM以构建状态抽象。在这个框架中,LM还可以直接询问人类自己的估计。我们证明了我们的框架在模拟实验,用户研究以及执行移动操作任务的实际点机器人中构建有效的偏好条件抽象的能力。