与人类的偏好和/或意图保持一致是当代基础模型的重要要求。为了确保对准,诸如人类反馈(RLHF)等流行方法将任务分为三个阶段:(i)基于大型示范数据的监督微调(SFT)计算的模型,(ii)基于人类反馈数据和(III II)的估计,(ii)将使用(III)估算了(ii II),以进一步的模型(RL)进一步估算了该模型(RL)。演示和人类反馈数据以不同的方式反映了人类用户的偏好。结果,仅从人类反馈数据获得的奖励模型估计可能不如从演示和人类反馈数据获得的奖励模型估计值那么准确。一种优化从演示和人类反馈数据获得的奖励模型估计值的政策模型可能会表现出更好的对齐性能。我们引入了一种可访问的算法,以找到奖励和政策模型并提供有限的时间绩效保证。此外,我们通过广泛的实验(包括LLMS中的比对问题和Mujoco中的机器人控制问题)来证明所提出的解决方案的效率。我们观察到,所提出的解决方案的表现优于现有的对齐算法。
在巨大的文本语料库中鉴定的大型语言模型(LLM)表现出了各种自然语言处理任务的非凡能力[Brown,2020]。但是,这些模型通常显示出偏见或有毒行为,以及如何使它们与人类价值观保持一致仍然是一个开放的问题。最近,通过将其作为加强学习(RL)问题来解决这个问题,目的是最大化人类偏好。这种方法,也称为人类反馈(RLHF)[Christiano等人,2017年,Stiennon等,2020],已成为使LLMS对齐的主要方式。将偏好学习作为RL问题,一个重要的问题是如何定义奖励功能。以前,这通常是使用成对比较模型(例如Bradley-Terry模型[Bradley and Terry,1952])建模的。但是,正如Munos等人指出的那样,这可能是有问题的。[2023],而解决此问题的一种更自然的方法是将其作为游戏进行。在目前的工作中,我们遵循这种方法,并将其与可以看待优势函数的想法结合使用以编码动作的因果效应[Pan等,2022],并证明这使我们能够量化代币在RLHF环境中的因果效应。
方法,通过用于调查研究的在线平台Cint招募了美国国家代表性的老年人样本,以参加在线离散选择实验。为了符合条件,受访者必须自我报告一些癌症的经验 - 他们,他们自己,亲密的朋友或家人,以前或目前被诊断出患有癌症。在实验中,受访者选择了两种癌症药物,考虑了五个属性:功能状态,预期寿命,新药的生存益处的确定性,该药物对替代端点的影响以及美国食品和药物管理(FDA)批准时间的延迟。第一个主要结果是生存益处确定性的相对重要性和等待受访者的时间。第二个主要结果是愿意等待更大的生存益处,包括按癌症经验,年龄,教育状况,种族或种族和收入和收入进行亚组分析。次要结果是对确定性和等待时间的敏感性的变化,具体取决于药物对替代端点的影响,受访者的功能状况和预期寿命。研究计划已在ClinicalTrials.gov,NCT05936632中注册。
参考文献:1. Raine, T. 等人,Journal of Crohn's and Colitis,2022,2–17。2. Triantafillidis JK 等人,Drug Des Devel Ther。2011;5:185–210。3. Gonzalez J 等人,J Am Board Fam Pract。2005;18:87–96。4. Vlasnik JJ 等人,Case Manager。2005;16:47–51。5. Wilke T 等人,Value Health。2011;14(8):1092–100。6. Horne R. J Psychosom Res。1999;47(6):491–5。7. Conrad S 等人,Z Gastroenterol。 2012;50(04):364–72。 8.西格尔CA。炎症性肠病。 2010;16:2168–2172。9.西格尔CA。肠道。 2012;61:459–465。 10. Van Der Pol M 等人,Eur J Health Econ。 2017;18(3):373–86。
人工智能协调的主流实践假设 (1) 偏好是人类价值观的充分代表,(2) 人类理性可以从最大化偏好满足的角度来理解,(3) 人工智能系统应该与一个或多个人类的偏好保持一致,以确保它们的行为安全并符合我们的价值观。无论是隐含遵循还是明确认可,这些承诺都构成了我们所说的人工智能协调的偏好主义方法。在本文中,我们描述并挑战了偏好主义方法,描述了可供进一步研究的概念和技术替代方案。我们首先调查了理性选择理论作为描述性模型的局限性,解释了偏好如何无法捕捉人类价值观的深层语义内容,以及效用表示如何忽略了这些价值观可能存在的不可比性。然后,我们批评了预期效用理论 (EUT) 对人类和人工智能的规范性,借鉴了表明理性主体不必遵守 EUT 的论点,同时强调了 EUT 如何对哪些偏好在规范上是可接受的保持沉默。最后,我们认为这些限制促使我们重新定义人工智能协调的目标:人工智能系统不应与人类用户、开发者或人类的偏好保持一致,而应与适合其社会角色(例如通用助手的角色)的规范标准保持一致。此外,这些标准应由所有相关利益相关者协商并达成一致。根据这种替代的协调概念,多种人工智能系统将能够服务于不同的目的,与促进互利和限制伤害的规范标准保持一致,尽管我们的价值观多种多样。
实现有效且无缝的人类机器人合作需要两个关键的结果:增强团队绩效,并促进对机器人和协作的积极认识。本文通过将人类的领导/关注偏好和绩效整合到其任务分配和调度流程中,调查了提出的任务计划框架实现这些目标的能力。我们设计了一个协作场景,其中机器人自主与参与者的合作。用户研究的结果表明,主动任务计划框架成功实现了上述目标。我们还探讨了参与者的领导和追随者风格对他们的合作的影响。结果揭示了这些因素之间的有趣关系,这些因素需要在未来的研究中进一步研究。
指导意见,以便根据《打击欺诈和腐败政策》更广泛地思考欺诈问题,并加强管理计划数据和供应业务欺诈的方法。秘书处进一步更新了其关于财务、计划和供应业务保证的指导意见,以遵循基于风险的有针对性的保证方法,尽量减少各种监测和保证活动中的重复,利用国家或其他独立保证报告,并确保在赠款生命周期内提供全方位的关键保证。随着风险管理日益成熟,秘书处还推出了事件报告机制,一线团队立即报告所有禁止性做法,以引起二线团队和高级管理层的关注和跟进。秘书处还在监察长办公室和道德委员会的参与下,正式确定了秘书处投资组合绩效委员会(PPC)对欺诈风险进行半年一次的审查。
亚特兰大埃默里大学罗林斯公共卫生学院环境卫生部的加加罗萨;伦敦卫生与热带医学学院公共卫生,环境与社会部的B环境与健康建模(EHM)实验室,英国伦敦; C统计,计算机科学和应用部“ G。父母,”意大利佛罗伦萨佛罗伦萨大学;马萨诸塞州波士顿哈佛大学公共卫生学院; E瑞士伯尔尼大学社会与预防医学研究所;瑞士伯尔尼大学气候变化研究中心; G气候研究基金会(FIC),西班牙马德里;西班牙马德里的H ciber deepidemiologíay saludpública(Ciberesp);我是西班牙巴塞罗那西班牙科学研究理事会环境评估与水研究所;马萨诸塞州波士顿哈佛大学公共卫生学院; E瑞士伯尔尼大学社会与预防医学研究所;瑞士伯尔尼大学气候变化研究中心; G气候研究基金会(FIC),西班牙马德里;西班牙马德里的H ciber deepidemiologíay saludpública(Ciberesp);我是西班牙巴塞罗那西班牙科学研究理事会环境评估与水研究所;