学分:[1] Christiano等。,《神经》 17中的深入强化从人类的偏好中学习。[2] Ziegler等。,来自人类偏好的微调语言模型,在Arxiv'19中。[3] Ouyang等。,培训语言模型在Neurips'22中按照人为反馈的指示进行指示。[4] Rafailov等。,直接偏好优化:您的语言模型是秘密的奖励模型,在Neurips'23中。[5] Hong等。,ORPO:Arxiv'24中的无参考模型的单片偏好优化。
∗ 我们感谢我们的讨论者 Edouard Challe、Fabrice Collard、Alisdair McKay 和 Carolin Pflueger 提出的极其有用的建议。我们还感谢 George-Marios Angeletos、Larry Christiano、Cosmin Ilut、Nir Jaimovich、Ana Lariau、Stephen Terry 以及许多研讨会和会议的参与者提出的许多有益评论。† 波士顿学院经济学系,马萨诸塞州 Chestnut Hill 02467。电话:617-552-2182。电子邮件:susanto.basu@bc.edu。‡ 应用经济学系,3000, Chemin de la Cˆote-Sainte-Catherine,蒙特利尔 QC,H3T 2A7 加拿大。电话:514-340-6810。电子邮件:giacomo.candian@hec.ca。 § 康奈尔大学经济学系,纽约州伊萨卡 14853。电话:607-255-4254。电子邮件:ryan.chahrour@cornell.edu。¶ 波士顿学院经济学系,马萨诸塞州栗树山 02467。电话:617-552-8704。电子邮件:rosen.valchev@bc.edu。
最近,Brakerski、Christiano、Mahadev、Vazirani 和 Vidick (FOCS 2018) 展示了如何基于带错学习 (LWE) 假设构建量子性测试:该测试可以由量子计算机有效解决,但在 LWE 假设下无法由经典多项式时间计算机解决。该测试已导致多种加密应用。具体而言,它已应用于从单个不受信任的量子设备产生可证明的随机性、对单个量子设备进行自我测试以及独立于设备的量子密钥分发。在本文中,我们表明,这种量子性测试以及基本上所有上述应用实际上都可以通过一类非常弱的量子电路来实现:恒定深度量子电路与对数深度经典计算相结合。这揭示了这种基本量子性测试的新颖复杂性理论特性,并为小深度量子电路优于经典计算提供了新的具体证据。
我们证明了3台计算量子量子交互协议与有效的挑战者和有效对手之间的紧密平行重复定理。我们还证明,在合理的假设下,在并行重复下,4台式计算协议的安全性通常不会降低。这些反映了Bellare,Impagliazzo和Naor的经典结果[BIN97]。最后,我们证明所有量子参数系统都可以一致地编译到等效的3-序列参数系统,从而反映了量子证明系统的转换[KW00,KKMV07]。As immediate applications, we show how to derive hardness amplification theorems for quantum bit commitment schemes (answering a question of Yan [ Yan22 ]), EFI pairs (answering a question of Brakerski, Canetti, and Qian [ BCQ23 ]), public-key quantum money schemes (answering a question of Aaronson and Christiano [ AC13 ]), and quantum零知识参数系统。我们还为量子谓词推导了XOR引理[YAO82]作为推论。
在巨大的文本语料库中鉴定的大型语言模型(LLM)表现出了各种自然语言处理任务的非凡能力[Brown,2020]。但是,这些模型通常显示出偏见或有毒行为,以及如何使它们与人类价值观保持一致仍然是一个开放的问题。最近,通过将其作为加强学习(RL)问题来解决这个问题,目的是最大化人类偏好。这种方法,也称为人类反馈(RLHF)[Christiano等人,2017年,Stiennon等,2020],已成为使LLMS对齐的主要方式。将偏好学习作为RL问题,一个重要的问题是如何定义奖励功能。以前,这通常是使用成对比较模型(例如Bradley-Terry模型[Bradley and Terry,1952])建模的。但是,正如Munos等人指出的那样,这可能是有问题的。[2023],而解决此问题的一种更自然的方法是将其作为游戏进行。在目前的工作中,我们遵循这种方法,并将其与可以看待优势函数的想法结合使用以编码动作的因果效应[Pan等,2022],并证明这使我们能够量化代币在RLHF环境中的因果效应。
1。引言有广泛的证据表明,一个国家的储蓄率首次上升,然后随着经济的增长而下降。换句话说,储蓄率随着时间的流逝而表现出驼峰形的形状(请参阅Antràs,2001年)。为解释这一风格化的事实,文献已经修改了新古典主义模型,以包括非所有人的优惠,调整成本和结构性变化(例如Christiano,1989年; King and Rebelo,1993年; Laitner,2000年; Chen等,2006)。 最近,Buera和Shin(2013)修改了新古典模型,以包括异质的代理商和信用限制,以表明一个国家的储蓄率遵循驼峰形的过渡性动态,在改革后,消除了税收和补贴资源分配的资源分配。 本文有助于文献如下。 首先,我们通过大型面板数据分析来验证国家的驼峰储蓄率和信用限制的作用。 第二,我们建立了一个具有信用限制的理论模型,以解释企业家的数量及其储蓄行为如何引起国家储蓄率和人均GDP之间的驼峰形状关系。 最后,我们通过利用注册新业务数量和公司储蓄率的越野时间序列数据提供了这种机制的支持证据。 我们通过估计每年GDP人均增长与国家储蓄率的每年增长率之间的关系,使用涵盖1960 - 2006年期间的130个国家的每年增长率之间的关系。 但是,富裕国家恰恰相反。 说明Christiano,1989年; King and Rebelo,1993年; Laitner,2000年; Chen等,2006)。最近,Buera和Shin(2013)修改了新古典模型,以包括异质的代理商和信用限制,以表明一个国家的储蓄率遵循驼峰形的过渡性动态,在改革后,消除了税收和补贴资源分配的资源分配。本文有助于文献如下。首先,我们通过大型面板数据分析来验证国家的驼峰储蓄率和信用限制的作用。第二,我们建立了一个具有信用限制的理论模型,以解释企业家的数量及其储蓄行为如何引起国家储蓄率和人均GDP之间的驼峰形状关系。最后,我们通过利用注册新业务数量和公司储蓄率的越野时间序列数据提供了这种机制的支持证据。我们通过估计每年GDP人均增长与国家储蓄率的每年增长率之间的关系,使用涵盖1960 - 2006年期间的130个国家的每年增长率之间的关系。但是,富裕国家恰恰相反。说明1小组模型估计表明,人均GDP的增长显着提高了贫困国家国家储蓄率的增长率。估计的效果在定量上很大。
* Angeletos:西北大学和NBER; angeletos@northwestern.edu; Lian:UC Berkeley和Nber; chen_lian@berkeley.edu;沃尔夫:麻省理工学院和nber; ckwolf@mit.edu。我们感谢Marco Bassetto和Morten Ravn的宝贵会议讨论。For helpful comments and suggestions, we thank Manuel Amador, Francesco Bianchi, Larry Christiano, John Cochrane, Jordí Gali, Joao Guerreiro, Joel Flynn, Mikhail Golosov, Greg Kaplan, Hanno Lustig, Emi Nakamura, Matthew Rognlie, Jón Steinsson, Ludwig Straub, Iván Werning,Mike Woodford和研讨会的参与者:欧洲央行,秘鲁的期望,价格和货币政策会议,亚特兰大的联邦储备银行,费城,费城和明尼阿波利斯,Hydra hydra hydra动态宏观经济学研讨会,NBER Summer Institute,MacRo-Summer Institute,MacRo-eco-seritosition,Macroecal Spition,fistan cigford cigford,Stan cig Forder,Stan stan cig,Stan stan stan cig,Stan理论与政策,加州大学伯克利分校,UCL和芝加哥大学。Chen Lian感谢Alfred P. Sloan基金会的财政支持,而Christian Wolf承认,该材料基于NSF在Grant#2314736下支持的工作。
量子力学的不可克隆原理断言量子信息不能被一般复制。这一原理对量子密码学有着深远的影响,因为它从根本上限制了恶意方可以实施的策略。其中一个影响是,量子信息可以实现经典加密无法实现的加密任务,最著名的例子就是信息论安全的密钥分发 [BB84]。除此之外,不可克隆原理还开辟了一条令人兴奋的途径来实现具有某种不可克隆性的加密任务,例如量子货币 [Wie83、AC12、FGH+12、Zha19a、Kan18]、用于数字签名的量子令牌 [BS16]、程序的复制保护 [Aar09、ALL+20、CMP20],以及最近的不可克隆加密 [Got02、BL19] 和解密 [GZ20]。在这项工作中,我们重新审视了 Aaronson 和 Christiano 提出的隐藏子空间思想,该思想已用于上述几个应用。我们提出了这一思想的概括,其中涉及隐藏陪集(仿射子空间),并展示了该思想在签名令牌、不可克隆解密和复制保护中的应用。给定一个子空间 𝐴 ⊆ 𝔽 𝑛 2 ,相应的子空间状态定义为子空间 𝐴 中所有字符串的均匀叠加,即
我们研究了三种公钥量子货币方案背后的安全假设。2012 年,Aaronson 和 Christiano 提出了一种基于向量空间 F n 2 的隐藏子空间的方案。2015 年,Pena 等人推测该方案背后的难题可以在准多项式时间内解决。我们通过给出底层问题的多项式时间量子算法来证实这一猜想。我们的算法基于计算隐藏子空间中随机点的 Zariski 切线空间。2017 年,Zhandry 提出了一种基于多元哈希函数的方案。我们给出了一种多项式时间量子算法,用于以高概率克隆货币状态。我们的算法使用该方案的验证电路根据给定的序列号生成钞票。2018 年,Kane 提出了一种基于模形式的方案。Kane 方案中背后的难题是克隆一个表示一组 Hecke 算子的特征向量的量子态。我们给出了一个多项式时间量子化方法,将这个难题简化为线性代数问题。后者更容易理解,我们希望我们的简化方法能为未来对该方案的密码分析开辟新的途径。
技术进步通常体现在资本投入中。本文建立了一个模型,其中资本创新发生在两个边缘:(1)垂直方向,即资本投入在给定任务中变得更有生产力;(2)水平方向,即资本投入在给定任务中取代劳动力。当资本和劳动力的替代弹性小于单位替代弹性时,这两种形式的技术进步会引发宏观经济“拉锯战”,由此产生的框架可以满足许多宏观经济规律。首先,它可以产生平衡的增长路径并满足 Uzawa 增长定理——即使所有技术进步都发生在资本投入中。其次,它可以产生直观的宏观经济动态,增加对明显生产率放缓和劳动收入份额下降的看法。第三,它可以产生丰富的行业动态并为结构性变化提供信息,包括农业和制造业占 GDP 份额的下降、部门瓶颈、通用技术的作用以及计算有限的宏观经济影响。总体而言,这个易于理解的框架有助于解决技术进步的微观观察与经济增长的宏观经济特征之间令人费解的矛盾。作者感谢 Daron Acemoglu、Lawrence Christiano、Chad Jones、Kiminori Matsuyama、Ezra Oberfield、西北大学和普林斯顿大学的研讨会参与者以及 NBER 的会议参与者提出的许多有益评论。