从人类反馈(RLHF)中学习的最新进展通常是通过最大程度地提高观察到的人类偏好的可能性来对重新功能进行建模。但是,由于个体的不同背景,这些偏好信号本质上是随机的。在奖励和政策更新过程中,首选项中的这种固有的不确定性可能会导致不稳定或不安全的行为。在这项工作中,我们通过学习分布式奖励模型和来自离线偏好数据集的风险敏感政策来介绍RLHF中不确定性的优先对齐。具体来说,我们提出了最大的后验(地图),以更新与轨迹相关的奖励。此更新过程在人类偏好中的不确定性之前包含了一份信息。利用此更新的奖励样本,我们开发了一个生成奖励模型来表示奖励分布。在奖励模型中固有的随机性驱动下,我们利用了离线分销钟声操作员和有条件的危险价值(CVAR)度量标准,从离线数据集中学习了对风险敏感的策略。实验结果表明,风险敏感的RLHF代理可以有效地识别并避免具有重大随机性的状态,从而在不同任务中实现规避风险的控制。
a 武汉大学遥感信息工程学院,武汉 430079,中国 b 中山大学地理空间信息工程与科学学院,珠海 519082,中国 * 通讯作者。1 两位作者对本文稿的贡献相同。电子邮件:zhangyj@whu.edu.cn (Y. Zhang)、zousiyuan3s@whu.edu.cn (S. Zou)、liuxy0319@whu.edu.cn (X. Liu)、huangx358@mail.sysu.edu.cn (X. Huang)、yi.wan@whu.edu.cn (Y. Wan)、yaoyongxiang@whu.edu.cn (Y. Yao)
环境变量与其他因素共同影响着资源和机会的获取。除了对社会科学研究项目的影响之外,对环境变量在人类社会事务中重要性的认识和评估也提出了关于组织建筑环境过程有效性的重要问题。本文的第二部分确定了环境决策的一些重大发展,从土著原始文化中发现的无意识过程,到工业化文化中理性的综合物理规划模式,再到后工业文化中出现的日益多元化的决策替代方案。物理规划、设计、生产和管理是旨在实现社会物理系统一致性的过程。不一致被认为是当代环境供需过程中固有问题的结果。我们确定了四个这样的问题,并主张一个生成模型,特别强调辩证程序,因为它有潜力为这些问题的解决做出贡献。应该强调的是,我们不会试图开发一个替代框架的所有细节。在本文的范围内,我们仅提出一些相关问题并概述解决这些问题所需的进一步研究的一些方向。
归因4.0国际(CC BY 4.0)此工作可根据创意共享归因4.0国际许可提供。通过使用这项工作,您可以接受该许可条款https://creativecommons.org/licenses/4.0/)。归因 - 您必须引用工作。翻译 - 您必须引用原始作品,确定对原始文本的更改,并添加以下文本:如果原始作品和翻译之间有任何差异,则仅应将原始作品的文本视为有效。改编 - 您必须引用原始作品并添加以下文本:这是经合组织对原始作品的改编。本适应中表达的意见和论点不应报告为代表经合组织或其成员国的官方观点。第三方材料 - 许可证不适用于工作中的第三方材料。如果使用这种材料,则负责获得第三方的许可以及任何侵权索赔。未经明确许可,您不得使用经合组织徽标,视觉标识或封面图像,也不得建议经合组织认可您对工作的使用。根据本许可引起的任何争议均应按仲裁根据2012年常任仲裁法院(PCA)仲裁规则解决。仲裁的所在地应为巴黎(法国)。仲裁员的数量应为一个。
•区域计划:2050年愿景,区域运输计划和区域经济策略•区域中心框架(2018年)和中心网页网页 - 访问中心 - 计划审核资源•计划审查网页网页网页和认证报告 - 有关审查和认证过程,访问信息和认证流程,按策略区域找到PSRC资源,并查看策略领域的PSRC资源,并查看2050年的VISISTION 2050•VILUTION 2050•VILUTION 2050 -20400 -0•VILUANCTION 2040 -20 -0 -0。矩阵 - 从2040年愿景到2050年愿景的多种计划政策和行动的比较
简介 通过分析癌症患者的生物样本(例如实体组织、体液和/或血液)来评估特定的驱动突变、多种基因变异和/或非基因组生物标记,精准医疗在抗击癌症方面得到了广泛的应用。然而,由于检测实践不完善,许多符合条件的患者未能从生物标记物指导的治疗中受益,部分原因是对检测目的、类型和相对于治疗开始时间的结果时间感到困惑。这种混乱普遍存在,部分原因是检测术语的差异。1 应对这一挑战并制定行动计划已被来自各种癌症类型的领先患者倡导组织确定为优先事项。研究表明,用于描述检测的术语之间的差异是患者认为导致混淆和患者缺乏与提供者就检测进行沟通的原因之一,导致癌症管理不善。2 制定一致的术语可以减少患者的困惑、改善沟通、促进共同决策、支持基于价值的护理并确保政策制定的一致性。为了实现这些目标,LUNGevity Foundation 聘请了专门研究各种癌症类型的各种利益相关者组成一个工作组,评估当前的术语状况,确定正在使用的大量术语,并利用他们的专业知识和患者的意见,推荐用于检测恶性肿瘤特征的一致、通俗易懂的术语。这包括检测体细胞(获得性)突变、蛋白质、功能测试、基因组特征和其他生物标志物 3 以及检测种系(遗传)突变 4 。该工作组包括来自 20 个代表实体/血液系统恶性肿瘤的患者权益团体、三个专业协会以及 18 家制药和诊断公司和实验室的领导人 5。在制定建议时,工作组确定了 33 个术语 6 与生物标志物、基因和基因组检测有关,这些术语被用于不同癌症社区和利益相关者的患者教育和临床护理。由于测试方式、样本来源的多样性、术语重叠以及目前可通过测试识别的基因突变的多样性,术语的变化变得复杂。
a 武汉大学遥感信息工程学院,武汉 430079,中国 b 中山大学地理空间信息工程与科学学院,珠海 519082,中国 * 通讯作者。1 两位作者对本文稿的贡献相同。电子邮件:zhangyj@whu.edu.cn (Y. Zhang)、zousiyuan3s@whu.edu.cn (S. Zou)、liuxy0319@whu.edu.cn (X. Liu)、huangx358@mail.sysu.edu.cn (X. Huang)、yi.wan@whu.edu.cn (Y. Wan)、yaoyongxiang@whu.edu.cn (Y. Yao)
a 武汉大学遥感信息工程学院,武汉 430079,中国 b 中山大学地理空间信息工程与科学学院,珠海 519082,中国 * 通讯作者。1 两位作者对本文稿的贡献相同。电子邮件:zhangyj@whu.edu.cn (Y. Zhang)、zousiyuan3s@whu.edu.cn (S. Zou)、liuxy0319@whu.edu.cn (X. Liu)、huangx358@mail.sysu.edu.cn (X. Huang)、yi.wan@whu.edu.cn (Y. Wan)、yaoyongxiang@whu.edu.cn (Y. Yao)
Ahmadi,M.,Arabi,M.,Ascough,J.C.,Fontane,D.G。和Engel,B。 A. (2014)。 朝着改进流域模型的校准:多站点多物镜信息。 环境建模与软件,59,135 - 145。https://doi.org/10.1016/j.envsoft.2014.05.012 Ala-Aho,P.,Soulsby,C.,Wang,H。,H。,&Tetzlaff,D。(2017)。 集成的表面表面模型研究地下水在源头流域径流产生中的作用:一种极简主义的参数化方法。 水文学杂志,547,664 - 677。https://doi.org/ 10.1016/j.jhydrol.2017.02.02.023 Arabi,M.,Govindaraju,R.S.,&Hantush,M.M。(2006)。 使用遗传算法对流域管理实践的具有成本效益的分配。 水资源研究,42,W10429。 https://doi.org/10.1029/ 2006wr004931 Bekele,E。G.和Nicklow,J。W.(2007)。 使用nsga-ii的特警自动量化。 水文学杂志,341,165 - 176。 Bieger,K.,Hormann,G。,&Fohrer,N。(2015)。 (2015):中国山流域中特警表面径流和沉积物产量的详细空间分析。 水文科学杂志,60(5),784 - 800。https://doi.org/10.10.1080/02626667.2014.965172 Chaubey,I.,Chiang,L. 最佳管理实践在提高牧场主导的流域中水质方面的有效性。 (2015)。 改善地球系统模型中水文过程的代表。 水资源研究,51,5929 - 5956。https://doi.org/10.1002/2015WR017096Ahmadi,M.,Arabi,M.,Ascough,J.C.,Fontane,D.G。和Engel,B。A.(2014)。朝着改进流域模型的校准:多站点多物镜信息。环境建模与软件,59,135 - 145。https://doi.org/10.1016/j.envsoft.2014.05.012 Ala-Aho,P.,Soulsby,C.,Wang,H。,H。,&Tetzlaff,D。(2017)。集成的表面表面模型研究地下水在源头流域径流产生中的作用:一种极简主义的参数化方法。水文学杂志,547,664 - 677。https://doi.org/ 10.1016/j.jhydrol.2017.02.02.023 Arabi,M.,Govindaraju,R.S.,&Hantush,M.M。(2006)。使用遗传算法对流域管理实践的具有成本效益的分配。水资源研究,42,W10429。https://doi.org/10.1029/ 2006wr004931 Bekele,E。G.和Nicklow,J。W.(2007)。 使用nsga-ii的特警自动量化。 水文学杂志,341,165 - 176。 Bieger,K.,Hormann,G。,&Fohrer,N。(2015)。 (2015):中国山流域中特警表面径流和沉积物产量的详细空间分析。 水文科学杂志,60(5),784 - 800。https://doi.org/10.10.1080/02626667.2014.965172 Chaubey,I.,Chiang,L. 最佳管理实践在提高牧场主导的流域中水质方面的有效性。 (2015)。 改善地球系统模型中水文过程的代表。 水资源研究,51,5929 - 5956。https://doi.org/10.1002/2015WR017096https://doi.org/10.1029/ 2006wr004931 Bekele,E。G.和Nicklow,J。W.(2007)。使用nsga-ii的特警自动量化。水文学杂志,341,165 - 176。Bieger,K.,Hormann,G。,&Fohrer,N。(2015)。 (2015):中国山流域中特警表面径流和沉积物产量的详细空间分析。 水文科学杂志,60(5),784 - 800。https://doi.org/10.10.1080/02626667.2014.965172 Chaubey,I.,Chiang,L. 最佳管理实践在提高牧场主导的流域中水质方面的有效性。 (2015)。 改善地球系统模型中水文过程的代表。 水资源研究,51,5929 - 5956。https://doi.org/10.1002/2015WR017096Bieger,K.,Hormann,G。,&Fohrer,N。(2015)。(2015):中国山流域中特警表面径流和沉积物产量的详细空间分析。水文科学杂志,60(5),784 - 800。https://doi.org/10.10.1080/02626667.2014.965172 Chaubey,I.,Chiang,L.最佳管理实践在提高牧场主导的流域中水质方面的有效性。(2015)。改善地球系统模型中水文过程的代表。水资源研究,51,5929 - 5956。https://doi.org/10.1002/2015WR017096土壤和水保护杂志,65,424 - 437。https://doi.org/10.2489/jswc.65.65.6.424 Clark,M.P.,Fan,Y.,Y.,Lawrence,D.M.,D.M.,D.M.麦克斯韦(R. M.
保留所有权利。未经许可不得重复使用。 (未经同行评审认证)是作者/资助者,他已授予 medRxiv 永久展示预印本的许可。
