摘要 - 表达机器人行为对于在社交环境中广泛接受机器人至关重要。学习的腿部运动控制器的最新进展已实现了更具动态和多功能的机器人行为。,确定在各种情况下与不同用户互动的最佳行为仍然是一个挑战。当前方法要么依赖于自然语言输入,这是有效但低分辨率的,要么从人类的偏好中学习,尽管高分辨率却是效率低下的样本。本文介绍了一种新的方法,该方法利用了预先训练的LLMS产生的先验,并在偏好学习的精确度上。我们的方法称为语言引导的偏好学习(LGPL),使用LLMS生成初始行为样本,然后通过基于偏好的反馈来完善这些样本,以学习与人类期望紧密相符的行为。我们的核心见解是,LLM可以指导偏好学习的抽样过程,从而实现样本效率的实质性提高。我们证明,LGPL可以快速学习精确和表现力的行为,只有四个查询,既优于纯语言参数模型和传统的偏好学习方法。带有视频的网站:此HTTP URL。
在巨大的文本语料库中鉴定的大型语言模型(LLM)表现出了各种自然语言处理任务的非凡能力[Brown,2020]。但是,这些模型通常显示出偏见或有毒行为,以及如何使它们与人类价值观保持一致仍然是一个开放的问题。最近,通过将其作为加强学习(RL)问题来解决这个问题,目的是最大化人类偏好。这种方法,也称为人类反馈(RLHF)[Christiano等人,2017年,Stiennon等,2020],已成为使LLMS对齐的主要方式。将偏好学习作为RL问题,一个重要的问题是如何定义奖励功能。以前,这通常是使用成对比较模型(例如Bradley-Terry模型[Bradley and Terry,1952])建模的。但是,正如Munos等人指出的那样,这可能是有问题的。[2023],而解决此问题的一种更自然的方法是将其作为游戏进行。在目前的工作中,我们遵循这种方法,并将其与可以看待优势函数的想法结合使用以编码动作的因果效应[Pan等,2022],并证明这使我们能够量化代币在RLHF环境中的因果效应。
行业5.0旨在优先考虑人类运营商,专注于他们的福祉和能力,同时进行人类和机器人之间的合作,以提高效率和生产力。协作机器人的整合必须确保人类运营商的健康和福祉。的确,本文解决了以人类机器人协作(HRC)方案中基于偏好的优化算法提出以人体工程学评估来提高基于偏好的优化算法的必要性,以改善工作条件。HRC应用程序包括在对象处理任务期间优化协作机器人最终效果。以下方法(AMPL-RULA)利用了一种主动的多首选项学习(AMPL)算法,这是一种基于偏好的优化方法,在其中要求用户通过在几个候选人之间表达成对的偏好来迭代提供定性反馈。要解决身体健康,符合人体工程学的性能指数,快速上肢评估(RULA)与用户的成对偏好相结合,以便可以计算最佳设置。实验测试以验证该方法,涉及机器人执行的对象处理过程中的协作组装。结果表明,所提出的方法可以在简化协作任务时改善操作员的物理工作量。
有很多现实世界的黑框优化概率需要同时优化多个标准。然而,在多目标优化(MOO)问题中,确定整个帕累托阵线需要过度的搜索成本,而在许多实际情况下,决策者(DM)只需要在帕累托最佳解决方案集中的特定解决方案。我们提出了一种贝叶斯操作方法(BO)方法,以使用昂贵的目标功能识别MOO中最喜欢的解决方案,其中DM的贝叶斯偏好模型是根据两种称为成对偏好和改进请求的Supperions类型的交互方式自适应估算的。要探索最优选的解决方案,我们定义了一个采集函数,在该函数中,在观察函数和DM偏好中的不确定性都已合并。为了最大程度地减少与DM的相互作用成本,我们还为偏好估计提出了一种主动学习策略。我们通过基准功能优化和机器学习模型的高参数优化问题来证明我们提出的方法的有效性。
心智理论 (ToM) 是人类认知的关键组成部分,即人类心智将心理状态归因于他人的能力。为了理解他人的心理状态或观点,并在社交和职业环境中与他人成功互动,这种社会认知形式必不可少。同样的推断人类心理状态的能力是人工智能 (AI) 融入社会的先决条件,例如在医疗保健和汽车行业。自动驾驶汽车需要能够推断人类驾驶员和行人的心理状态,以预测他们的行为。在文献中,人们对 ToM 的理解越来越多,特别是随着对儿童和自闭症谱系障碍患者的认知科学研究的增加。同样,通过神经影像学研究,现在人们对 ToM 背后的神经机制有了更好的理解。此外,已经提出了用于推断人类心理状态的新 AI 算法,其应用更复杂,通用性更好。在这篇评论中,我们综合了认知和神经科学中对 ToM 的现有理解以及已提出的 AI 计算模型。我们重点关注偏好学习这一特别感兴趣的领域以及最新的神经认知和计算 ToM 模型。我们还讨论了现有模型的局限性,并暗示了允许 ToM 模型充分表达人类思维各个方面(包括价值观和偏好)的复杂性的潜在方法。