将大语言模型(LLM)与人类偏好保持一致,在建立现代生成模型中起着关键作用,可以通过从人类反馈(RLHF)学习来实现。尽管表现出色,但当前的RLHF方法通常需要大量的人类标记的偏好数据,这很昂贵。在本文中,受主动学习成功的启发,我们通过提出查询有效的RLHF方法来解决此问题。We first formalize the alignment problem as a contextual dueling bandit problem and design an active-query-based proximal policy optimization ( APPO ) algorithm with an e O ( d 2 / ∆) instance-dependent regret bound and an e O ( d 2 / ∆ 2 ) query complexity, where d is the dimension of feature space and ∆ is the sub-optimality gap over all the contexts.然后,我们提出了基于直接偏好优化(DPO)的算法的实用版本ADPO,并将其应用于微调LLMS。我们的实验表明,ADPO仅对人类偏好的查询进行了大约一半的查询,与最先进的DPO方法的性能相匹配。
背景:Otago计划(OP)是基于证据的,重点是预防老年人的秋季预防。在早期老年康复(EGR)中以OP原理为基础的短期数字计划的可行性和可用性尚不清楚。目的:本研究调查了EGR设置的其他基于技术的秋季预防计划(FPP)的可行性和可用性。方法:我们在EGR的环境中进行了可行性研究。在2024年3月至6月之间招募了30名患者的样本(至少由Walker迁移;微型精神状态测试评分> 17),并与回顾性队列进行了比较(n = 30,前EGR患者)。使用称为“ Pixformance”的基于技术的平台,干预组(IG)中的所有患者(IG)中的所有患者/周/周进行了20分钟的监督FPP。该设备是数字教练,可以实时更正。主要终点是可行性(当IG的80%在2周内参加6次培训时,给出了可行性)。次要结果是可用性(患者和促进者的观点;≥75%),跌倒风险(伯格平衡量表),流动性(定时和进行测试),功能独立性(功能独立性措施)和日常生活的活动(Barthel Intex)。分析了包括焦虑和抑郁症(四个项目患者健康问卷; PH-Q4)的几个进一步的探索性终点。在进入EGR时以及出院前2周后访问数据。用于分析验证前的结果,应用依赖的学生t检验和Wilcoxon检验。EGR的主要指示是中风(9/60,15%)。使用重复测量的混合方差分析用于时间,组和相互作用相关的变化的统计分析。结果:分析了60例患者的队列(平均80.2,SD 6.1 y; 58%女性,35/60)。将患者招募到前瞻性IG(n = 30)和回顾性对照组(n = 30)中。在前瞻性IG中的30名患者中,有11例(37%)在2周内完成了6次培训课程。参与者未完成6次培训课程的原因是诊断任命(33%),疼痛/不适(33%)或疲劳(17%)。EGR患者将FPP的可用性定为84%,促进因子为100%中的65%。 对标准评估的预测试分析显示,伯格平衡量表有显着的相互作用(<.01)。 在两组中,随着时间的推移和GO测试(<.01),Barthel索引(<.01)和功能独立性度量(<.01)都发现了显着改善。 同样,在IG中,pH-Q4分数(.02)得到了提高。EGR患者将FPP的可用性定为84%,促进因子为100%中的65%。对标准评估的预测试分析显示,伯格平衡量表有显着的相互作用(<.01)。在两组中,随着时间的推移和GO测试(<.01),Barthel索引(<.01)和功能独立性度量(<.01)都发现了显着改善。同样,在IG中,pH-Q4分数(.02)得到了提高。
运动皮层通过向下游神经回路发送时间模式来启动运动。运动执行过程中的模式被认为是由运动皮层网络内的内部动态产生的。然而,本体感受等外部输入也会影响运动皮层动态。为了研究内部动态和本体感受反馈对自愿运动执行的贡献,我们构建了几个运动皮层模型,从虚拟手臂接收不同组合的本体感受反馈来执行延迟到达任务。考虑到延迟、噪声和感觉反馈的来源,我们构建了一个感觉估计网络。我们发现抑制稳定网络接收的手部运动学和肌肉力量产生的模式与运动皮层神经元数据中观察到的模式最相似。此外,我们使用了一种破坏策略来剖析内部动态和本体感受反馈的贡献,发现内部动态占主导地位,而本体感受反馈可以微调运动命令。对消融实验的分析表明,本体感受反馈提高了对嘈杂初始条件的鲁棒性。我们的研究结果表明,内在结构和外部输入对于产生类似大脑的神经活动都至关重要。
管理计划修正案委员会在2月6日星期四会议的国家资本计划委员会(NCPC)会议上对Capital One Arena Revertements进行了更新,该委员会向国家公园服务局提供了反馈。位于马里兰州格伦Echo的0.9英亩公园的总体规划将指导艺术和文化节目,特殊活动和未来计划的能力提高。Glen Echo Park是国家注册国家历史区,约有35万名年度游客,由国家公园管理局和马里兰州蒙哥马利县共同管理。该计划提供了两种方法,以提高Glen Echo举办其他活动和活动的能力,这是需要的,因为公园具有托管它们的能力。替代方案1的建筑面积较小,更多的现有建筑物保留。,通过在周围的周围找到新的开发项目,在公园中心的开放空间有更多保留。替代品2提供了更大的建筑区域,对林地,较少的现有建筑物的保留率更少,恢复了一些历史悠久的集中发展,并包括公园与邻近的克拉拉·巴顿历史遗址停车场之间的新行人联系。专员提到了Glen Echo的伟大社区资产,并支持该计划的目标,以提高艺术和文化编程能力并改善访客的体验。Kenilworth Terrace Bridge跨越了Watts分支,Anacostia Avenue桥跨越了Anacostia河的出口。NCPC将在将来的日期审查此转移。他们建议对环境评估草案(将成为总体规划的一部分)评估建议对土地使用,交通和运输,游客经验,植被,水资源,野生动植物,文化和视觉资源以及累积影响的影响。潜在的计划用途没有提出,专员说,很难在不知道它们的情况下评估替代方案,并要求将潜在的程序使用精炼,并且在下一份提交中包括每个替代方案所需的预期开发类型。委员会批准了由国家公园管理局(National Park Service)代表交通运输部提交的最终场地开发计划,以重建位于华盛顿州东北部Anacostia Park的Kenilworth Terrace Bridge和Anacostia Avenue Bridge。与桥梁相邻的土地将从国家公园管理局转移到哥伦比亚特区进行该项目。
深层生成模型最近显示了解决复杂工程设计问题的成功,其中模型预测了解决指定为输入的设计要求的解决方案。ever,在对这些模型进行有效设计探索的对齐方面仍然存在挑战。对于许多设计问题,找到满足所有要求的解决方案是不可行的。在这种情况下,启动者更喜欢在这些要求方面获得一组最佳的帕累托最佳选择,但是生成模型的单程抽样可能不会产生有用的帕累托前沿。为了解决这一差距,我们将使用模拟微调生成模型来实现帕累托 - 前设计探索的新框架。首先,该框架采用了针对大型语言模型(LLM)开发的偏好一致性方法,并展示了用于微调工程设计生成模型时的第一个应用。这里的重要区别在于,我们使用模拟器代替人类来提供准确,可扩展的反馈。接下来,我们提出了Epsilon-Smplamping,灵感来自具有经典优化算法的帕托前期生成的Epsilon-约束方法,以使用精细的模型来构建高质量的Pareto前沿。我们的框架(称为e-Simft)被证明比现有的多目标比对方法产生更好的帕累托前沿。
摘要:肠道病原体在人类肠道中的传播在许多相互作用的因素上,包括病原体暴露,饮食,宿主肠道环境和宿主微生物群,但是这些因素如何共同影响感染结果的特征仍然很差。在这里,我们在肠道中开发了一种互助和致病分类单元之间的宿主介导的资源竞争模型,该模型旨在解释为什么暴露于相同病原体的类似宿主会产生如此不同的感染结果。我们的模型成功再现了与健康和感染状态之间过渡有关的经验观察到的现象,包括(1)病原体接种物的病原体之间的非线性关系与感染持续性,(2)与宽光谱抗生素治疗期间或与Bradys Bribiotics一起治疗期间或治疗期间的慢性感染风险升高, (4)益生菌赋予的潜在保护免受感染的潜在保护。然后,我们使用该模型来探索宿主介导的干预措施(即,电子供体供应率(例如饮食纤维)和呼吸电子受体(例如氧气)的供应率如何可能用于直接直接肠道群落组装。我们的研究表明,宿主和肠道菌群之间的资源竞争和生态反馈是如何成为人类健康结果的关键终止。我们确定了几个可测试的模型预测,准备进行实验验证。
感知虚拟对象的空间信息(例如,方向,距离)对于寻求不可思议的虚拟现实(VR)体验的盲人用户至关重要。为了促进盲人用户的VR访问权限,在本文中,我们研究了两种类型的触觉提示(多余的提示和皮肤伸展线索)在传达虚拟物体的空间信息时,当应用于盲人手的背侧时。我们与10个盲人用户进行了一项用户研究,以调查他们如何使用定制的触觉机构在VR中感知静态和移动对象。我们的结果表明,盲人用户可以在接收皮肤拉伸线索时更准确地理解对象的位置和移动,这是对纤维曲折提示的。我们讨论了两种类型的触觉提示的利弊,并以设计建议的设计建议,以实现VR可访问性的未来触觉解决方案。
定义奖励功能通常是系统设计师在增强学习中的一项具有挑战性但至关重要的任务,尤其是在指定复杂行为时。从人类反馈(RLHF)中学习的强化是一种承诺的方法来规避这一点。在RLHF中,代理通常通过使用轨迹段的成对比较来查询人类老师来学习奖励功能。这个领域中的一个关键问题是如何减少需要学习内容丰富的奖励功能的查询数量,因为要求人类老师太多的查询是不切实际且昂贵的。为了解决这个问题,大多数现有的方法主要集中于改进探索,引入数据增强或为RLHF设计复杂的培训目标,而查询生成和选择方案的潜力尚未得到充分利用。在本文中,我们提出了二人组,这是一种新颖的方法,用于RLHF中的多种,不确定的,上的查询生成和选择。我们的方法会产生(1)与政策培训更相关的查询(通过政策标准),(2)更有用的信息(通过认知不确定性的原则衡量)和(3)多样化(通过基于聚类的过滤器)。对各种运动和机器人操纵任务的实验结果表明,我们的方法可以超越最先进的RLHF方法,并给出相同的查询预算,同时对可能的非理性教师有力。