信贷限制和疏忽在高回报技术未得到广泛采用中扮演了什么角色?我们以内罗毕的节能炉灶为例研究了这个问题。通过对 1,000 户家庭进行随机实地试验,我们估计投资这项技术的平均年回报率为 300%,即每年节省 120 美元燃料费用,约相当于一个月的收入。尽管如此,采用率仍然很低:使用激励兼容的 Becker-DeGroot-Marschak 机制引出偏好,我们发现平均支付意愿 (WTP) 仅为 12 美元。为了调查导致这种令人费解的模式的原因,我们交叉随机化了信贷获取渠道,并采取了两项干预措施,旨在提高人们对采用成本和收益的关注。我们的第一个主要发现是,信贷使 WTP 翻倍,并在贷款期间缩小了能源效率差距。其次,信贷在一定程度上通过心理机制发挥作用:信贷总影响的约三分之一是由对贷款偿还的疏忽造成的。我们没有发现对节能不重视的证据。私人利益和避免的环境损害平均为每台炉子带来 600 美元的收益,每台炉子采用并使用两年。
本文研究了日本近年来的经济表现,揭示了一个挑战传统观点的叙述。尽管生产率增长缓慢,但由于其复杂的出口组合,日本仍保持着全球最高的经济复杂性。研究显示,虽然日本的商品出口市场份额一直在下降,但服务出口却在增长,特别是在研发许可方面。此外,日本大幅增加了其净海外资产和海外直接投资,从而获得了异常高的回报。这些结果表明,日本企业——或许是为了应对国内劳动力的停滞——正在通过在国际上投资和重新部署资源来利用其广泛的知识资本,从而产生更高的回报。我们发现,海外创造的财富不断增加导致生产率较低的非贸易活动的扩张,从而拉低了总生产率的增长。本文还强调了对创新质量下降的担忧,这对日本未来的经济表现及其重新部署积累的知识以享受其海外投资异常高回报的能力构成风险。研究结果强调,需要进行政策改革,提高创新质量,以维持日本非贸易活动的生产力,并采取移民政策来改变劳动力供应下降的趋势。
颠倒的强化学习(UDRL)是解决强化学习问题的有前途的框架,该问题着重于学习命令条件条件政策。在这项工作中,我们将UDRL扩展到学习深神经网络策略的命令条件发生器的任务。我们使用HyperNeTworks完成了这一点,这是一系列快速权重程序员,该程序学会解码输入命令,代表所需的预期返回到特定于命令的权重矩阵。我们的方法是通过策略生成器(UDRLPG)被称为颠倒的增强学习,通过消除评估者或评论家以更新生成器的权重来简化可比较的技术。为了抵消由于没有评估者而引起的最后回报的增加的差异,我们将缓冲液的采样概率与其中的绝对策略数量解脱出来,该策略与简单的权重策略一起改善了算法的经验收敛。与现有算法相比,UDRLPG实现了竞争性能和高回报,有时表现出色的架构更为复杂。我们的实验表明,受过训练的发电机可以概括以创建可实现零射击返回的策略。所提出的方法似乎有效缓解与学习高度模式功能相关的一些挑战。总的来说,我们认为UDRLPG代表了在RL中实现更高的经验样本效率方面迈出的前进一步。https://github.com/jacopod/udrlpg全面实现UDRLPG
前进 目的:DARPA 的使命是维持美国军方的技术优势,并通过资助革命性的高回报研究来弥补基础发现与军事用途之间的差距,防止技术突袭损害美国国家安全。本文件简要概述了 2003 财年和 2004 财年选定的 DARPA 项目,旨在为对 DARPA 研究组合感兴趣的人提供参考。为了更好地说明这些项目的目标,DARPA 将这些项目分为《战略计划》中所述的八个战略重点和三个持久基础,每个项目又包含不同的子领域:DARPA 的战略重点:反恐;确保空间使用;网络化有人驾驶和无人系统;强大的自形成网络;检测、识别、跟踪和摧毁难以捉摸的地面目标;地下结构的特性描述;生物革命;认知计算;DARPA 的持久基础;材料微系统;信息技术;文件后面的索引有助于查找单个项目;索引后面是总统 2004 财年预算中项目要素的交叉引用表。本文件旨在与 DARPA 的战略计划(2003 年 2 月)† 以及 2004 财年 - 2005 财年两年期预算估计中的描述性摘要(2003 年 2 月)∗ 结合使用。战略计划从广义上描述了 DARPA 当前的顶层
如果你经营通用电气或持有通用电气的股票,你只能相信一件事:持续的盈利和现金流增长,加上不断扩大的回报率,会增加股东价值。这是一项长期投资,没有什么短期花招。我们带领公司实现盈利和现金流增长,并获得高回报。我们持续投资和交付。如果剔除非现金养老金的影响,过去五年里,通用电气的利润几乎翻了一番,从 2001 年的 110 亿美元增至 210 亿美元。经营现金流也取得了类似的进展,增至 246 亿美元。我们的回报率为 18.4%,在过去两年里增加了 220 个基点,接近我们的目标。我们努力成为一家可靠的增长型公司。我们的盈利增长率在一年内为 11%,五年内为 10%,十年内为 11%,十五年内为 12%,二十年内为 11%。过去 20 年,标普 500 指数的盈利增长率平均为 8%。问题是:可靠的增长是否已经过时?对冲基金等另类投资如今非常受欢迎。尽管 GE 业绩强劲,但其市盈率仅略高于标普 500 指数。我们不认为可靠的增长已经过时。我们知道,可靠的增长对长期投资者来说始终是时尚。他们像我一样,从长远角度看待公司。他们受益于一家能够预测环境变化并积极执行的公司。这就是您的 GE。
摘要 - 强化学习为机器人控制提供了一个吸引人的框架,因为它仅通过现实世界的互动才能纯粹学习表达政策。但是,这需要解决现实世界的约束并避免在训练过程中造成灾难性失败,这可能会严重阻碍学习进步和最终政策的表现。在许多机器人设置中,这相当于避免某些“不安全”状态。高速越野驾驶任务代表了对此问题的特别挑战性的实例化:高回报策略应尽可能积极地驱动驱动力,通常需要接近“安全”状态集的边缘,因此在该方法上承担特定的负担,以避免频繁失败。既学习高表现的政策,又避免过度失败,我们提出了一个增强学习框架,将对风险敏感的控制与自适应动作空间课程相结合。此外,我们表明我们的风险敏感目标会自动避免配备认知不确定性的估计量。我们在小规模的拉力赛上实施了算法,并表明它能够为现实世界中的越野驾驶任务学习高速政策。我们表明,我们的方法大大减少了培训过程中的安全违规数量,实际上导致在驾驶和非驾驶模拟环境中都具有类似挑战的驾驶和非驾驶模拟环境中的绩效策略。
基于模型的增强学习(MBRL)是一种获得控制策略的样本有效技术,但不可避免的建模误差通常会导致性能恶化。MBRL中的模型通常仅用于重建动态,尤其是状态观察,而模型误差对策略的影响并未由培训目标捕获。这导致MBRL的目标目标之间的不匹配,实现良好的政策和价值学习,以及实践中采用的损失函数的目标,未来的国家预测。天真的直觉表明,价值感知的模型学习将解决这个问题,实际上,已经基于理论分析提出了针对该客观不匹配问题的第二种解决方案。但是,在实践中,它们往往不如通常使用的最大可能性(MLE)方法。在本文中,我们提出了价值梯度加权模型损失(VAGRAM),这是一种新颖的价值模型学习方法,可改善MBRL在具有挑战性的环境中的性能,例如小型模型容量和分散注意力的状态尺寸。我们分析了MLE和值感知的方法,并演示了他们如何在学习价值吸引模型时无法解释样本覆盖范围和功能近似的行为。fom,我们强调了在深度学习环境中稳定优化的其他目标。为了实现这一目标,我们利用经验值函数的梯度作为对RL算法对模型误差的敏感性的量度。我们通过表明我们的损失函数能够在Mujoco基准套件上获得高回报来验证我们的分析,同时比基于最大似然的方法更健壮。
石头:一般的做法是先用石头填满玻璃罐。每天围绕最重要的任务来计划,这些任务将推动你实现目标。这些任务代表了你优先级最高的项目和截止日期,具有最大的价值,通常很重要,但并不紧急,可以推动你实现目标。鹅卵石:接下来,用鹅卵石填满石头之间的空间。这些任务既紧急又重要,但对重要目标的贡献较小。如果没有适当的计划,这些任务往往是意料之外的,如果不加以管理,很快就会占满你的一天。努力减少这些任务将为你提供更多时间来实现目标。沙子:现在用沙子填满你的罐子。换句话说,只在重要任务之后安排紧急但不重要的任务。这些活动通常是例行或维护任务,不会直接有助于实现你的目标。水:最后,将水倒入你的罐子里。这些琐碎的浪费时间的事情既不重要也不紧急,会让你远离高回报活动和目标。如果你坚持用这种方法来规划你的日程,你会发现随着时间的推移,你能够在更短的时间内完成更多的事情。你不必为了赶在最后期限前完成任务而疯狂地匆忙完成,而是每天都会井然有序,变得更加高效和有利可图。你还会发现自己花在那些价值不大甚至毫无价值的活动上的时间更少了。而且,因为你对处理相互竞争的优先事项有了清晰的愿景,你生活中的压力水平就会降低,这将使你变得更加专注和高效。
标准普尔 500 指数在 2024 年第四季度上涨了 2.41%(总回报,美元)。美国总统大选后,市场出现了本季度最大涨幅,因为市场波动性降低,加上企业减税预期带来的积极势头,有助于改善情绪并提高回报。虽然第三季度的企业盈利受到市场的欢迎,但由于大型科技股的强劲表现,标准普尔 500 指数跑赢等权重指数,因此跑赢率有所收窄。相比之下,以罗素 2000 指数为代表的小盘股表现不佳,尽管受到以国内为重点的政府的推动和小企业主重新燃起的乐观情绪的推动,反映出人们对新政府可能导致财政政策发生重大转变以刺激经济增长的信心增强。然而,小盘股的乐观情绪受到对信贷条件收紧和持续通胀压力的担忧的抑制,这打压了更具周期性和杠杆率的小盘股成分股的情绪。联邦公开市场委员会 (FOMC) 实施了两次 25 个基点的降息,但暗示未来降息的节奏将放缓,这对市场信心产生了负面影响。一系列停滞的消费者物价指数 (CPI) 报告和坚挺的劳动力市场数据进一步加强了 FOMC 的防御性立场。标普 500 指数中表现最好的板块是非必需消费品、通信服务和金融,而表现最差的板块是材料、医疗保健和房地产。
摘要:新能源汽车产业的快速发展是减少交通运输领域CO 2 排放、实现碳达峰和碳中和目标的重要组成部分。新能源汽车产业的蓬勃发展产生了许多无法回收再利用的报废动力电池,给环境带来了严重的后果。为解决报废动力电池带来的负外部性问题,政府如何介入市场发展,引导多方合作回收报废动力电池是一个值得深入思考的问题。本文认为政府先于回收公司和消费者行动,回收公司和消费者根据政策再次行动。首先,我们考察了在政府缺位的情况下回收公司和消费者的演化博弈模型,并探讨了他们在各种情景下的选择策略。其次,我们考察了政府对回收公司和消费者的补贴在不同情况下如何改变正向回收的趋势。本文比较了政府政策对回收公司补贴、消费者补贴以及对回收公司和消费者补贴的影响。最后,本文从政府、回收企业和消费者三个角度提出了政策建议。结论表明,在没有政府补贴的情况下,市场并不能保证双方都有高回报。回收企业和消费者很难在废旧动力电池回收方面主动合作。因此,政府对回收企业和消费者的补贴可以以最小的政府成本实现社会福利的最大化。尽管目前政府补贴主要针对回收企业,但随着行业的发展,政府补贴应该逐渐扩展到消费者。