价值类别生产率[3]机器效率效率[9]可靠性[9,21]机器自主权[14]实用程序[6]隐私[1-3,6,8,9,9,14,21]可保护性(Schwartz安全性)安全性[3,14]安全性[9 9]责任心[18,21]可解释性[14]可解释性[14]清晰度透明度[1. 1,2] 6. 1,211,2,2,211] 21] Self-determination (Schwartz Self-direction) Self-knowledge [3] Security of supply [5] Stakeholders welfare (Schwartz Benevolence) Affordability [5] Well-being [21] Privacy [6] Diversity, non-discrimination and fairness [1, 2, 4, 6, 9, 14, 21] Equity (Schwartz Benevolence-Universalism) Inclusiveness [5] Respect for law and public interest [2]全球福利(施瓦茨普遍主义)环境可持续性[5,9,21]信任[21]表1。与智能电网上下文相关的25个最终值及其各自的类别。从文献分析中提取了每个值。
摘要本文从行为经济学的观察开始,即偏好是内源性的,即它们是不稳定的,上下文依赖的,并且对适应过程开放。然后,它询问在具有内源性偏好的人们中,福利分析和规范经济学是否仍然是可能的。尤其是Viktor Vanberg和Carl Christian VonWeizsäcker的最新建议。在强调制度的观点时,两者都可以看作是派生自由主义的支持者,并且都声称他们的方法可以比保留在传统福利经济学的思维框架内的方法更连贯的方式处理内源性偏好问题。本文认为,主要强调信息提供对个人自治的重要性时,Vanberg的宪法政治经济学方法(CPE)低估了偏好内生性的综合性。虽然vonWeizsäcker的方法是对CPE框架的改进,但本文认为,它过于关注外部结构条件(即,人际影响之间的竞争),并忽略了对个人自动机构必要的内部代理能力的讨论。本文认为,对决策自主权的更为复杂的讨论导致了对规范经济学结果和过程自由的双重关注。结果自由使个人能够满足他们不断发展的偏好和过程自由,使他们能够批判性地反思自己的偏好和周围环境。
为所有欧洲人提供了参与该过程的机会,使用相同的问卷(在本报告中称为“欧洲央行在线调查”)的在线公开调查与坎塔尔公共调查一起启动了。在2023年7月10日至8月31日之间收到了大约376,000个对这项调查的有效回复。应该指出的是,欧洲央行在线调查的结果不能代表欧元区人口。例如,在响应欧洲央行在线调查的人中,对某些国家和年轻,受过良好教育的男性受访者有很大的偏见。尽管已加权结果以纠正某些偏见,但欧洲央行在线调查的发现不能可靠地推断出来代表欧元区人民的观点。欧洲央行在线调查仍然提供了有用的额外观点,并进一步了解了公众偏好。这也是与欧洲公民互动的好机会,并大大提高了人们对重新设计过程的认识。
我们展示了在人机协作任务中适应人类偏好对信任的影响。团队执行一项任务,其中机器人充当人类的动作推荐者。假设人类和机器人的行为基于他们试图优化的某种奖励函数。我们使用一种新的人类信任行为模型,该模型使机器人能够在与人类互动的过程中使用贝叶斯逆强化学习实时学习并适应人类的偏好。我们提出了三种机器人与人类互动的策略:非学习者策略,其中机器人假设人类的奖励函数与机器人的相同;非自适应学习者策略,学习人类的奖励函数以进行性能评估,但仍优化自己的奖励函数;自适应学习者策略,学习人类的奖励函数以进行性能评估,并优化这个学过的奖励函数。结果表明,适应人类的奖励函数会使机器人获得最高的信任。
从人类反馈(RLHF)中学习的最新进展通常是通过最大程度地提高观察到的人类偏好的可能性来对重新功能进行建模。但是,由于个体的不同背景,这些偏好信号本质上是随机的。在奖励和政策更新过程中,首选项中的这种固有的不确定性可能会导致不稳定或不安全的行为。在这项工作中,我们通过学习分布式奖励模型和来自离线偏好数据集的风险敏感政策来介绍RLHF中不确定性的优先对齐。具体来说,我们提出了最大的后验(地图),以更新与轨迹相关的奖励。此更新过程在人类偏好中的不确定性之前包含了一份信息。利用此更新的奖励样本,我们开发了一个生成奖励模型来表示奖励分布。在奖励模型中固有的随机性驱动下,我们利用了离线分销钟声操作员和有条件的危险价值(CVAR)度量标准,从离线数据集中学习了对风险敏感的策略。实验结果表明,风险敏感的RLHF代理可以有效地识别并避免具有重大随机性的状态,从而在不同任务中实现规避风险的控制。
传统的公共行政决策由公务员与公民 1 互动组成,以确定对公民来说正确的合法行动方针。然而,最近人们开始推动使用人工智能 (AI) 和算法 2 来帮助促进公共决策和服务提供。这是一项始于 20 世纪 90 年代初和 21 世纪的举措,公共组织使用先进的信息技术帮助他们在公共服务提供方面做出更好的决策,例如预测交通拥堵和 COMPSTAT(Tong & Wong,2000 年;Walsh,2001 年)。作为推动自动化程度提高的一部分,学者们认为人工智能驱动的自动化可以进一步提高组织在行政决策方面的绩效和效率(Zekić-Sušac 等人,2021 年)。此外,学者们认为,数字技术的使用将有助于管理者提供“更好的公共服务”,同时继续使公共服务专业化(Lindgren 等人,2019 年)。其中一个例子是使用机器学习,机器学习是人工智能的一个分支,专注于通过数据和算法来模拟人类学习,提供图像或手写识别(IBM Cloud Education,2020 年),然后用于创建简单任务的自动化链(Veale & Brass,2019 年)。第二个在公共服务中越来越普遍的例子是使用自动呼叫中心,其中人工智能用于搜索文档并帮助代理解决客户查询(Mehr,2017 年)。
简介现代社会中数据收集可能性的增加意味着统计人工智能 (AI) 或机器学习 (ML) 通常用于了解用户的偏好,以便更好地(有时是为了用户,有时是为了系统所有者)为他们提供某些服务。偏好可以通过直接询问受试者(陈述偏好)来直接了解,也可以通过称为显示偏好理论 (RPT) (Varian 2006) 的过程推断出来。这两种方法都存在一系列局限性,这些局限性已被实验经济学家和心理学家随着时间的推移所证明。一组限制大致属于“非理性”行为或信念的范畴。例如,Gui、Shanahan 和 Tsay-Vogel (2021) 讨论了用户在平衡相互冲突的短期和长期偏好时行为不一致的现象。偏好在不同情境之间可能不是静态的;群体内人士的社会规范(Cialdini 和 Trost 1998)可能与他们通过数字行为显露的个人偏好相悖。不同情况下的多种偏好的存在提出了一个问题:决策者应该选择行为中“显露”的哪种偏好作为“真实”偏好或“规范”偏好(Beshears 等人 2008)。决策者也可能会犯错误(Nishimura 2018),容易受到各种环境影响,如框架(Tversky 和
三维(3D)特定细胞种群,蛋白质表达模式或整个大脑水平的病理标记物的可视化代表了神经科学中的宝贵工具。光学投影断层扫描(OPT)和光板荧光显微镜(LSFM)是高分辨率的光学3D成像技术,可以在介质尺寸(MM-CM范围)透明标本中特异性标记的目标可视化(Sharpe等,2002; Dodt et al。,2007年)。因此,这些光学技术非常适合于体内整个啮齿动物脑成像,从而在完整大脑的细胞分辨率下提供信息(Alanentalo等,2007; Hansen等,2020)。与其他功能成像方式一致,OPT和LSFM对其目标表现出很高的灵敏度和特异性,但仅提供非常有限的解剖信息。考虑到大脑的高度分室解剖结构以及这些区域履行的特定作用,至关重要的是能够将OPT或LSFM获得的荧光信号映射到注释的大脑区域。在解剖学上绘制蛋白质表达谱并在这些图像上执行3D定量和统计的可能性将极大地使光学中学成像在神经科学中的应用有益。
为什么近几十年来,受教育程度较低的选民放弃了富裕民主国家的中左翼政党?虽然最近的许多文献都强调了文化问题的作用,但我们认为,至少在美国,民主党在经济问题上的演变发挥了重要作用。我们表明,较低的教育水平预示着对“预分配”政策(例如,有保障的就业、公共工程、更高的最低工资、保护主义和支持工会组织)的强烈支持,远远超过对再分配政策(税收和转移支付)的支持。自 1940 年代以来,受教育程度较低的人对预分配的强烈支持基本没有变化。然后我们转向经济政策的“供给侧”:国会唱名表决显示,民主党执政期间,预分配立法有所下降,而与再分配相关的立法则保持稳定。我们还记录了民主党政客供给的变化。如今,民主党政客比共和党政客更有可能来自精英教育背景,而 1990 年代之前的情况正好相反,这或许有助于解释为什么他们不再提出受教育程度较低的人所青睐的预分配政策。然后,我们通过展示今天受教育程度较低的人更有可能认为共和党是将保持国家繁荣的政党,而从 1948 年到 1990 年代,情况正好相反,来研究经济政策需求方和供应方的交集。
。CC-BY-NC-ND 4.0 国际许可 它是根据作者/资助者提供的,他已授予 medRxiv 永久展示预印本的许可。(未经同行评审认证)