从人类反馈(RLHF)中学习的最新进展通常是通过最大程度地提高观察到的人类偏好的可能性来对重新功能进行建模。但是,由于个体的不同背景,这些偏好信号本质上是随机的。在奖励和政策更新过程中,首选项中的这种固有的不确定性可能会导致不稳定或不安全的行为。在这项工作中,我们通过学习分布式奖励模型和来自离线偏好数据集的风险敏感政策来介绍RLHF中不确定性的优先对齐。具体来说,我们提出了最大的后验(地图),以更新与轨迹相关的奖励。此更新过程在人类偏好中的不确定性之前包含了一份信息。利用此更新的奖励样本,我们开发了一个生成奖励模型来表示奖励分布。在奖励模型中固有的随机性驱动下,我们利用了离线分销钟声操作员和有条件的危险价值(CVAR)度量标准,从离线数据集中学习了对风险敏感的策略。实验结果表明,风险敏感的RLHF代理可以有效地识别并避免具有重大随机性的状态,从而在不同任务中实现规避风险的控制。
摘要尽管数据驱动的“定量”新闻的数量和可见性增加了,但对观众的感知和评估方式知之甚少。这项研究通过分析定量新闻的特征来帮助解决这一差距,这是31个新闻消费者的各种各样的群体关注他们偏好可能存在的那些特征,并在这些特征中。在八次小组访谈中,参与者阅读和讨论了被选为代表数据驱动新闻的形式和生产中存在的多样性的文章。我们的分析揭示了28个感知标准,我们将我们分为四个主要类别:感知,情感和认知影响的先例,文章统计以及新闻和编辑价值。在对定量新闻的感知的先前研究中尚未使用几个标准。我们的标准在未来的研究中有明显的应用,即观众如何感知不同类型的定量新闻,包括借助自动化的新闻业。对于研究受众的看法和对新闻的评估的研究人员来说,标准也将很感兴趣。对于记者和其他与数字交流的人,我们的发现表明受众可能从数据驱动的新闻业中想要什么,包括它具有建设性,简洁,提供分析,具有人体角度,并包括视觉元素。
摘要:该研究打算确定越南年轻旅行者在健康大流行期间和之后预订机器人服务酒店的重要前提。这项研究旨在利用背景,以确定宾客对健康危机显着的安全选择的喜好。采用了一种定量研究方法来收集合格的数据。使用扩展的TAM理论用于发展研究假设。SPSS和AMOS 24版用于分析数据并确认研究假设。这项研究发现,在健康大流行期间,客人对机器人服务酒店的预订意图在将社会疏远的关注点,主观威胁规范,感知的信任和消费者自我世界主义对健康大流行后的意图的影响联系在一起方面发挥了调解作用。这项研究对越南年轻旅行者对机器人服务酒店的偏好的决定因素提供了宝贵的理解。此外,该研究强调了情况在决定客人意图方面的重要性,因此强烈建议从业者在提高策略时考虑背景。关键字:机器人服务酒店,预订意图,社会疏远问题,主观威胁规范,感知信任,消费者世界主义
行业5.0旨在优先考虑人类运营商,专注于他们的福祉和能力,同时进行人类和机器人之间的合作,以提高效率和生产力。协作机器人的整合必须确保人类运营商的健康和福祉。的确,本文解决了以人类机器人协作(HRC)方案中基于偏好的优化算法提出以人体工程学评估来提高基于偏好的优化算法的必要性,以改善工作条件。HRC应用程序包括在对象处理任务期间优化协作机器人最终效果。以下方法(AMPL-RULA)利用了一种主动的多首选项学习(AMPL)算法,这是一种基于偏好的优化方法,在其中要求用户通过在几个候选人之间表达成对的偏好来迭代提供定性反馈。要解决身体健康,符合人体工程学的性能指数,快速上肢评估(RULA)与用户的成对偏好相结合,以便可以计算最佳设置。实验测试以验证该方法,涉及机器人执行的对象处理过程中的协作组装。结果表明,所提出的方法可以在简化协作任务时改善操作员的物理工作量。
结果:较短的睡眠饲养者占32.25±6.99岁的212名护士的61.8%。异常的社交喷气行。与正常的喷气lag组相比,经历异常社交喷气lag的群体表现出明显较低的早晨情感和更高的夜晚(EV)(分别为p = 0.003和p = 0.004)。dm风险占全体6.6%。在年龄较大,工作经验较长的人,较高的体重指数(BMI),男性性别和较低的EV评分中观察到DM的较高风险(P <0.001,P <0.001,P <0.001,P <0.001,P = 0.006和P = 0.042)。独特的得分与DM风险评分呈正相关(r = 0.168; p = 0.014),而它们与夜班计数成反比(r = -0.149; p = 0.022)。BMI的较高值(优势比= 1.255; 95%置信区间= 1.036-1.520; P = 0.020)和男性性别(优势比= 7.350; 95%置信区间= 1.265-42,161; p = 0.026)与DM的风险增加有关。
摘要 - 本研究旨在调查英语作为外语(EFL)学生对使用交互式学习应用的看法。研究方法是定量的,使用问卷收集有关学生对交互式学习应用程序及其在这方面的偏好的看法的数据。此外,还包括学术绩效数据。研究人群包括印度尼西亚北苏门答腊的教师培训和教育科学学院(Stkip)Al Maksum的所有学生。该样本由2021/2022学年的英语系学习计划中的20名学生组成。研究结果表明,学生对互动学习应用的看法会影响他们对学习应用的选择,最终影响他们的学习成果。根据学生对学习应用的看法的总分,学生更倾向于选择Kahoot供EFL使用。这是因为,在有效性,享受和感知到的学习方面,此应用程序在quizizz方面表现出色。
Laura Wagner,Michaela Obersriebnig,Romana Hochreiter,Julian Larcher-Senn,Timothy G. Murphy,
兴趣?什么对你来说很重要?你的饮食偏好、卫生习惯(洗澡/淋浴/剃须/理发/化妆)、睡眠(起床/睡觉的首选时间、开灯/关灯、开窗/关窗)是什么?有什么事情让你担心或害怕发生?你是否担心实际问题(谁来照顾你的孩子、宠物等)?
在未标记的蛋白质数据集上训练的生成模型表明,没有任何特定于任务的训练数据,可以预测某些生物学功能。但是,此功能并未扩展到所有相关功能,在许多情况下,无监督的模型仍然不足以特定于任务,监督的基线。我们假设这是由于基本的“一致性差距”所致,在该差距中,在无监督培训期间所学的规则不能保证与感兴趣的功能有关。在这里,我们演示了如何为蛋白质生成模型提供有用的特定任务信息,而不会失去训练期间学到的丰富的一般知识。使用称为直接偏好优化(DPO)的优化任务,我们通过鼓励模型希望稳定而不是稳定的变体,从而使结构调节的语言模型对齐,以生成稳定的蛋白质序列。我们所产生的模型ProteIndpo是第一个结构条件的语言模型偏好于实验数据。ProteIndpo实现了竞争性稳定性预测,并始终优于该模型的无监督和填充版本。值得注意的是,对齐模型在其训练数据之外的领域也表现良好,以实现大蛋白的绝对稳定性预测和多链复合物的结合亲和力预测,同时还可以实现多种骨干的单步稳定。这些结果表明,ProteIndpo从其生物物理对齐数据中学习了可推广的信息。
学分:[1] Christiano等。,《神经》 17中的深入强化从人类的偏好中学习。[2] Ziegler等。,来自人类偏好的微调语言模型,在Arxiv'19中。[3] Ouyang等。,培训语言模型在Neurips'22中按照人为反馈的指示进行指示。[4] Rafailov等。,直接偏好优化:您的语言模型是秘密的奖励模型,在Neurips'23中。[5] Hong等。,ORPO:Arxiv'24中的无参考模型的单片偏好优化。