摘要。推荐系统已证明是在各种应用程序域中进行过滤,排名和发现的有价值的工具,例如电子商务,媒体存储库或基于文档的信息,其中包括本书中讨论的各种社交信息访问的方案。此类系统成功的一个关键在于对用户偏好的精确获取或估计。虽然一般推荐系统研究通常依赖于个性化的明确偏好陈述,但在现实世界中,此类信息通常非常稀疏或不可用。信息使我们能够通过用户的行为和行为(隐式反馈)间接评估某些项目的相关性,而相比之下。在本章中,我们将不同类型的隐性反馈类型分类,并在推荐系统和社交信息访问应用程序的背景下查看它们的使用。然后,我们将分类方案扩展到适合最近的应用域。最后,我们提出了最先进的算法方法,讨论在使用隐式反馈信号方面,特别是关于受欢迎程度偏见的挑战,并讨论了文献中的最新作品。
luzilene alves lopes 1 silvana ferreira de sousa alves 2摘要:简介:注意力不足和多动障碍(ADHD)被理解为神经台词的延迟 - 与交互和交流技能直接相关的神经台阶 - 开发。近几十年来,一项名为Neurofefback(NF)的新技术出现并渗透了肯定的治疗结果。目的:描述该技术在ADHD治疗中的主要作用机理,以及该技术对患有该疾病的患者带来的影响。方法论:这是一种文献综述,其中使用了以下DEC:神经反馈,注意力缺陷障碍和治疗。结果:关于最常用的数据库,虚拟健康库(BVS)具有。因此,审查中使用的总研究的定量46.1%对应于从BVS基础中获得的材料,作为回报,Scielo的30.8%和23.1%的PubMed。结论:通过获得的结果,很明显,神经反馈是一种非药物治疗策略,以及无创的,即通过界面脑界面(ICC)接收和解释电体迹象并诱发自我调节,从而直接干扰对tdah的人的治疗,因此这种策略必须有目的。治疗性,被认为有效而有效地有效地指标。关键字:neurofeastback;注意缺陷障碍;治疗。
在自然视觉中,反馈连接支持多功能的视觉推理,例如使遮挡或嘈杂的自下而上的感觉信息或介导纯自上而下的过程,例如想象力。但是,反馈途径学会产生这些功能的机械主义尚不清楚。我们提出,自上而下的效果通过进料和反馈途径之间的对齐方式出现,每个效果都优化了自己的目标。为了实现这种合作化,我们引入了反馈馈线对齐(FFA),这是一种学习算法,将反馈和馈电路径作为相互信用分配计算图,从而使对齐。在我们的研究中,我们证明了FFA在广泛使用的MNIST和CIFAR10数据集上进行分类和重建任务的有效性。值得注意的是,FFA中的对准机制具有反馈连接,具有新兴的视觉推理功能,包括降解,解决阻塞,幻觉和想象力。此外,与传统的背面传播方法(BP)方法相比,FFA提供了生物学知识。通过将信用分配的计算图将其重新用于目标驱动的反馈途径,FFA减轻了BP中遇到的重量传输问题,从而增强了学习算法的生物学知识。我们的研究表明,FFA是对视觉皮层中反馈连接如何支持灵活视觉功能的机制的有希望的概念概念。这项工作还有助于更广泛的视觉推断潜在的感知现象,并有影响,对开发更具生物学启发的学习算法有影响。
大型语言模型(LLM)在为增强学习(RL)任务设计奖励功能方面显示出巨大的潜力。但是,获得高质量奖励代码通常涉及人类干预,大量LLM查询或重复的RL培训。为了解决这些问题,我们提出了卡片,即迭代生成和改进奖励功能代码的LLM驱动奖励设计框架。具体来说,卡包括生成和验证代码的编码器,而评估器则提供动态反馈,以指导编码器改进代码,从而消除了对人类反馈的需求。除了过程反馈和轨迹反馈外,我们还引入了轨迹偏好评估(TPE),该评估(TPE)基于轨迹偏好评估当前的奖励函数。如果代码失败了TPE,则评估器会提供偏好反馈,避免在每次迭代时进行RL培训,并使奖励功能与任务目标更好地保持一致。对Meta-World和Maniskill2的经验结果表明,我们的方法在任务性能和令牌效率之间取得了有效的平衡,在所有任务中都优于或匹配基线。在12个任务中的10个任务中,卡表现出与经过专家设计的奖励训练的政策更好或可比的性能,我们的方法甚至超过了3个任务的Oracle。
Harrison Lee,Samrat Phatale,Hassan Mansoor,Thomas Mesnard,Johan Ferret,Kellie Lu,Colton Bishop,Ethan Hall,VictorCărbune,Abhinav Rastogi,Sushant Prakash Prakash ICML 2024 div>Harrison Lee,Samrat Phatale,Hassan Mansoor,Thomas Mesnard,Johan Ferret,Kellie Lu,Colton Bishop,Ethan Hall,VictorCărbune,Abhinav Rastogi,Sushant Prakash Prakash ICML 2024 div>
反馈是学生学习的重要组成部分。随着技术的进步使得具有评估功能的数字学习环境得以采用,从教育评估中获得的反馈的频率、交付格式和及时性也逐渐发生了变化。由人工智能 (AI) 驱动的先进技术使教师能够生成支持学生学习的不同类型的反馈。尽管数字技术在教育领域的应用迅速发展,但之前对教育反馈的研究主要集中在反馈实践的理论基础方面,这些研究在基于人工智能的技术的覆盖范围方面有限。本文旨在向研究人员和从业者介绍人工智能在反馈实践中应用的现状和未来,确定和组织人工智能用于反馈目的的潜在领域,并为教育反馈中的人工智能研究和实践建立场所。此外,还讨论了人工智能的三个分支(即自然语言处理、教育数据挖掘和学习分析)在反馈实践中的作用及其未来发展的潜在领域。
神经反馈通常被称为训练而不是治疗,因为它与体能训练相似,包括针对特定疾病的非特异性干预策略,以及需要多次重复才能产生积极效果。临床医生可能会应用多种干预措施来缓解同一种疾病的症状。EEG-生物反馈已被证明对一系列心理和医学状况有用。人们已经使用了多种方案来实现这一结果。可以说,神经反馈并不治疗任何特定疾病,而是 EEG-生物反馈优化了中枢神经系统,从而改善了各种认知、情感和稳态领域的一般功能。它通过重复应用来调节脑电活动来完成这项任务,因此更恰当地称为训练。
越来越多的证据支持了这样一种观点:最终的生物反馈是实时奖励与期望表现(例如出色的记忆检索)相关的神经回路感官愉悦感(例如,增强的视觉清晰度)。神经反馈是一种生物反馈,它使用实时感官奖励来奖励与某种表现(例如,准确和快速回忆)相关的大脑活动。工作记忆是人类智力的重要组成部分。挑战在于我们目前对神经认知功能障碍的理解有限,以及真正实时闭环反馈的技术困难。在这里,我们回顾了实时神经反馈的最新进展,以改善健康年轻人和老年人的记忆训练。随着特定神经生理功能的神经标志物的新进展,神经反馈训练应该有更好的针对性,而不仅仅是单一频率方法,包括频率相互作用和事件相关电位。我们的回顾证实了神经反馈训练在大多数研究中主要对改善记忆和认知起到一定作用的积极趋势。然而,训练通常需要数周时间,每周 2-3 次。我们回顾了各种神经反馈奖励策略和结果测量。此类训练中一个众所周知的问题是,有些人根本不对神经反馈做出反应。因此,我们还回顾了心理因素的个体差异文献,例如安慰剂效应和所谓的“BCI 文盲”(脑机接口文盲)。我们建议在神经反馈文献中使用神经调节敏感性或 BCI 不敏感性。未来的方向包括对轻度认知障碍、非阿尔茨海默氏症痴呆症人群进行急需的研究,以及在休息和睡眠期间使用 EEG 特征进行神经反馈以增强记忆并作为敏感的结果测量。
大语言模型(LLM)通常会产生偏见的输出,其中包含令人反感,有毒或刻板印象的文本。现有的LLM对准方法,例如根据人类反馈(RLHF)学习的强化学习,从而根据当前模型输出的奖励信号来减轻偏见,而无需考虑偏见的来源。在这项工作中,为了探索偏见的形成,我们从因果的角度重新审视了LLMS的文本生成。我们确定了包含文本短语语义相关性的预训练数据和输入提示,因为LLMS和模型输出之间的两个混杂因素会导致偏见。受到因果观点的启发,我们利用RL对齐中的奖励模型作为一种仪器变量来对LLMS进行因果干预。利用初始LLM和Intervened LLM之间的奖励差异作为介入反馈来指导RL FINETUNT,我们提出了C ausality-a ausa a aus a Ware a Ware a Ware a strignment(CAA),用于LLM DEMIAS。在两个具有三个不同对齐目标的文本生成任务上的经验证明了我们在对齐LLMS时的方法,以产生较小的偏见和更安全的输出。