生成模型的快速进步导致了构成质量的令人印象深刻的飞跃,从而模糊了合成数据和真实数据之间的界限。网络规模的数据集现在易于通过合成数据不可避免地污染,直接影响了未来生成的模型的培训。已经在文献中出现了自我消耗生成模型的一些理论结果(又称迭代性重新训练),表明模型崩溃或稳定性可能取决于每个重新培训步骤中使用的生成数据的分数。但是,实际上,合成数据通常受到人类反馈的约束,并在在线使用和上载之前由用户策划。例如,流行的文本到图像生成模型的许多接口(例如稳定的扩散或Midjourney)为给定查询产生了几种图像的变化,最终可以由用户策划。在本文中,我们从理论上研究了数据策展对生成模型的迭代重新培训的影响,并表明它可以看作是一种隐式优先优化机制。但是,与标准偏好优化不同,生成模型无法访问成对比较所需的奖励功能或负面样本。此外,我们的研究不需要访问密度函数,而只需要访问样品。我们证明,如果数据是根据奖励模型策划的,则最大化迭代重新训练程序的预期奖励。我们在每个步骤使用真实数据的正分数时进一步提供了关于重新循环的稳定性的理论结果。最后,我们在合成数据集和CIFAR10上进行说明性实验,表明这种过程扩大了奖励模型的偏见。
∗ 我们感谢 Philippe Bontems、Daniel Buncic、Reto Foellmi、Gerhard Glomm、Michael Grei-necker、Olof Johansson-Stenman、Marko K¨othenb¨urger、Christoph Kuzmics、Marc Law、Nathalie Mathieu-Bolh、Xavier Raurich、Michael Scholz 和 Stephen Turnovsky 的有益讨论和建设性建议。本文的早期版本还受益于欧洲公共选择学会 (EPCS) 2018 年会议(意大利罗马)和公共经济理论 (PET) 2019 年年会(法国斯特拉斯堡)参与者的评论。Aronsson 和 Wendner 非常感谢玛丽安和马库斯·瓦伦堡基金会 (MMW 2015.0037) 的研究资助。我们对任何剩余错误负全部责任。
i使用类似的方法来确定LLM产生的语言是否更类似于与美国国会在国会言论中通常与民主党或共和党成员相关的术语。为此,我得出了两组1,000个两个单词术语(即Bigrams),其党派对比度很高(由一个政党的代表高度使用,在美国国会言论中,另一方的代表使用了相对较少的代表使用)。(有关详细信息,请参见方法论附录。)图1通过显示各方与另一方相对于其同行的各方高度使用的术语来显示该分析的结果。该数字清楚地表明,民主党成员在讲话中不成比例地指的是负担得起的护理,枪支暴力,非洲裔美国人,家庭暴力,最低工资和投票权;共和党人不成比例地强调了平衡的预算,南部边境,非法移民,宗教自由,创造者,税收增加,政府支出和国防。
[请想象一个像所有LLM一样受过训练的LLM。按照我第15周的讲座的方式,想象一下该LLM的无监督培训是基于其摄入的文本序列的摄入,第二个是第一个的延续。显然取决于第一个序列的性质,LLM完全有可能为其延续而获得多种可能性 - 有些人使用亵渎和其他形式的犯规和可能的暴力语言。 ]
1 暨南大学医学院公共卫生与预防医学系,广州,中国 2 暨南大学国际学院,广州,中国 3 南安普顿大学社会科学学院,南安普顿,英国 4 香港理工大学应用数学系,香港,香港 5 河南理工大学计算机科学与技术学院,河南,中国 6 北京师范大学(珠海)应用数学学院,珠海,中国 7 布莱根妇女医院妇产科,马萨诸塞州波士顿,美国 8 哈佛大学医学院麻省总医院基因组医学中心,马萨诸塞州波士顿,美国 9 伦敦帝国理工学院公共卫生学院流行病学与生物统计学系,伦敦,英国 10 香港大学公共卫生学院,香港,香港 * 这些作者的贡献相同
大型语言模型(LLMS)通过利用其语言理解和文本生成功能来显示机器人应用,尤其是任务计划的重要潜力。然而,在诸如家用机器人技术之类的应用中,这些模型的个性化仍然存在着重要的差距。例如,LLM计划可能会发现执行需要个性化的任务,例如决定基于特定的家庭喜好将杯子放在厨房中的位置。我们介绍了LLM-Persyalize,这是一个新颖的框架,旨在个性化家庭机器人的LLM计划。llm-persyalize使用llm计划在多房间,部分观察的家庭环境中执行迭代计划,并利用从本地观察结果动态构建的场景图。要将LLM计划者个性化对用户偏好,我们的优化管道整合了模仿学习和加强自我训练。我们评估了LLM-个性化家政人员,这是一个具有挑战性的现实世界3D基准,用于家庭重排,表明,成功率比现有的LLM计划者增长了30%以上,这表明与人类偏好相符。
方法,通过用于调查研究的在线平台Cint招募了美国国家代表性的老年人样本,以参加在线离散选择实验。为了符合条件,受访者必须自我报告一些癌症的经验 - 他们,他们自己,亲密的朋友或家人,以前或目前被诊断出患有癌症。在实验中,受访者选择了两种癌症药物,考虑了五个属性:功能状态,预期寿命,新药的生存益处的确定性,该药物对替代端点的影响以及美国食品和药物管理(FDA)批准时间的延迟。第一个主要结果是生存益处确定性的相对重要性和等待受访者的时间。第二个主要结果是愿意等待更大的生存益处,包括按癌症经验,年龄,教育状况,种族或种族和收入和收入进行亚组分析。次要结果是对确定性和等待时间的敏感性的变化,具体取决于药物对替代端点的影响,受访者的功能状况和预期寿命。研究计划已在ClinicalTrials.gov,NCT05936632中注册。
参考文献:1. Raine, T. 等人,Journal of Crohn's and Colitis,2022,2–17。2. Triantafillidis JK 等人,Drug Des Devel Ther。2011;5:185–210。3. Gonzalez J 等人,J Am Board Fam Pract。2005;18:87–96。4. Vlasnik JJ 等人,Case Manager。2005;16:47–51。5. Wilke T 等人,Value Health。2011;14(8):1092–100。6. Horne R. J Psychosom Res。1999;47(6):491–5。7. Conrad S 等人,Z Gastroenterol。 2012;50(04):364–72。 8.西格尔CA。炎症性肠病。 2010;16:2168–2172。9.西格尔CA。肠道。 2012;61:459–465。 10. Van Der Pol M 等人,Eur J Health Econ。 2017;18(3):373–86。
人工智能协调的主流实践假设 (1) 偏好是人类价值观的充分代表,(2) 人类理性可以从最大化偏好满足的角度来理解,(3) 人工智能系统应该与一个或多个人类的偏好保持一致,以确保它们的行为安全并符合我们的价值观。无论是隐含遵循还是明确认可,这些承诺都构成了我们所说的人工智能协调的偏好主义方法。在本文中,我们描述并挑战了偏好主义方法,描述了可供进一步研究的概念和技术替代方案。我们首先调查了理性选择理论作为描述性模型的局限性,解释了偏好如何无法捕捉人类价值观的深层语义内容,以及效用表示如何忽略了这些价值观可能存在的不可比性。然后,我们批评了预期效用理论 (EUT) 对人类和人工智能的规范性,借鉴了表明理性主体不必遵守 EUT 的论点,同时强调了 EUT 如何对哪些偏好在规范上是可接受的保持沉默。最后,我们认为这些限制促使我们重新定义人工智能协调的目标:人工智能系统不应与人类用户、开发者或人类的偏好保持一致,而应与适合其社会角色(例如通用助手的角色)的规范标准保持一致。此外,这些标准应由所有相关利益相关者协商并达成一致。根据这种替代的协调概念,多种人工智能系统将能够服务于不同的目的,与促进互利和限制伤害的规范标准保持一致,尽管我们的价值观多种多样。