我们从多智能体强化学习 (MARL) 的角度研究了一个双层经济系统,我们称之为马尔可夫交换经济 (MEE)。MEE 涉及一个中央计划者和一组自利的智能体。智能体的目标是形成竞争均衡 (CE),其中每个智能体在每一步都短视地最大化自己的效用。中央计划者的目标是操纵系统以最大化社会福利,社会福利被定义为所有智能体效用的总和。在效用函数和系统动态都未知的环境中,我们建议通过 MARL 的在线和离线变体从数据中找到社会最优策略和 CE。具体而言,我们首先设计一个专门针对 MEE 的新型次优度量,这样最小化这样的度量就可以为计划者和智能体证明全局最优策略。其次,在线设置中,我们提出了一种称为 MOLM 的算法,该算法将探索的乐观原则与子博弈 CE 寻求相结合。我们的算法可以轻松结合用于处理大状态空间的一般函数逼近工具,并实现次线性遗憾。最后,我们根据悲观原则将算法调整为离线设置,并建立次优性的上限。
马尔可夫决策过程 (MDP) 为在不确定的情况下对顺序决策进行建模提供了一个广泛的框架。MDP 有两种类型的变量:状态变量 st 和控制变量 dr,它们都按时间 t = 0、1、2、3 .... , T 进行索引,其中时间范围 T 可能是无穷大。决策者或代理可以用一组原语 (u, p, ~) 表示,其中 u(st, dr) 是代表代理在时间 t 的偏好的效用函数,p(st+ 1Is, d,) 是代表代理对不确定未来状态的主观信念的马尔可夫转移概率,fit(0, 1) 是代理在未来时期内折现效用的比率。假设代理是理性的:它们的行为遵循最优决策规则 d t = (~(St),该规则求解 vr(s) - max~ Eo { E r o fltu(s,, d,)l So = s},其中 Ea 表示对由决策规则 6 引起的受控随机过程 {s,,dt} 的期望。动态规划方法 min9 提供了一种建设性的过程,用于计算 6,使用价值函数 V r 作为“影子价格”,将复杂的随机/多周期优化问题分散为一系列更简单的确定性/静态优化问题。
马尔可夫决策过程 (MDP) 为在不确定的情况下对顺序决策进行建模提供了一个广泛的框架。MDP 有两种类型的变量:状态变量 st 和控制变量 dr,它们都按时间 t = 0、1、2、3 .... , T 进行索引,其中时间范围 T 可能是无穷大。决策者或代理可以用一组原语 (u, p, ~) 表示,其中 u(st, dr) 是代表代理在时间 t 的偏好的效用函数,p(st+ 1Is, d,) 是代表代理对不确定未来状态的主观信念的马尔可夫转移概率,fit(0, 1) 是代理在未来时期内折现效用的比率。假设代理是理性的:它们的行为遵循最优决策规则 d t = (~(St),该规则求解 vr(s) - max~ Eo { E r o fltu(s,, d,)l So = s},其中 Ea 表示对由决策规则 6 引起的受控随机过程 {s,,dt} 的期望。动态规划方法 min9 提供了一种建设性的过程,用于计算 6,使用价值函数 V r 作为“影子价格”,将复杂的随机/多周期优化问题分散为一系列更简单的确定性/静态优化问题。
提出了一种结合贝叶斯推断的贝叶斯强化学习可靠性方法,以实现故障概率估计和增强学习指导的顺序实验设计。以可靠性为导向的顺序实验设计被构架为有限的马尔可夫决策过程(MDP),其相关的效用函数由对克里格估计的失败概率的认知不确定性度量定义,称为综合的错误分类概率(IPM)。在此Ba-sis上,定义了一个步骤的贝叶斯最佳学习函数,称为错误分类减少的综合概率(IPMR)以及兼容的收敛标准。采取了三种有效的策略来加速IPMR信息的顺序实验设计:(i)IPMR中内部期望的分析推导,将其简化为单个期望。(ii)替换IPMR替换其上限IPMR U,以避免对其集成的元素计算。(iii)IPMR U中正交集合和候选池的合理修剪以减轻计算机内存约束。在两个基准示例和两个数值示例中证明了所提出的APACH的功效。结果表明,与其他现有学习功能相比,IPMR U促进IPM的快速减少,同时所需的计算时间比IPMR本身要少得多。因此,提出的可靠性方法在计算效率和准确性方面都具有很大的优势,尤其是在复杂的动态可靠性问题中。
无线和移动通信技术的进步促进了移动医疗 (m-health) 系统的发展,以寻找获取、处理、传输和保护医疗数据的新方法。移动医疗系统提供了应对日益增多的需要持续监测的老年人和慢性病患者所需的可扩展性。然而,设计和运行带有体域传感器网络 (BASN) 的此类系统面临双重挑战。首先,传感器节点的能量、计算和存储资源有限。其次,需要保证应用级服务质量 (QoS)。在本文中,我们整合了无线网络组件和应用层特性,为移动医疗系统提供可持续、节能和高质量的服务。特别是,我们提出了一种能量成本扭曲 (ECD) 解决方案,它利用网络内处理和医疗数据自适应的优势来优化传输能耗和使用网络服务的成本。此外,我们提出了一种分布式跨层解决方案,适用于网络规模可变的异构无线移动医疗系统。我们的方案利用拉格朗日对偶理论,在能源消耗、网络成本和生命体征失真之间找到有效的平衡,以实现对延迟敏感的医疗数据传输。仿真结果表明,与基于均等带宽分配的解决方案相比,所提出的方案实现了能源效率和 QoS 要求之间的最佳平衡,同时在目标函数(即 ECD 效用函数)中节省了 15%。
自动驾驶汽车(AV)的控制设计主要集中于实现单独控制的AV或一群合作控制的AV的预定目标。然而,自主驾驶对人类驱动车辆(HV)的影响在很大程度上被忽略了,这可能会导致对乘客和周围交通的安全性有害的利己主义的AV行为。在这项研究中,我们开发了一个具有有用的社会心理学指标,称为社会价值取向(SVO),为AVS的社会符合社会控制设计设计开发了一般框架,以利用AVS来利用其对以下HVS行为的影响。这是至关重要的,因为以社会符合社会的方式行事的AV使人类的驾驶员能够理解其行为并做出适当的反应。在拟议的框架内,我们定义了受控AV的实用程序及其以下车辆,以由AV的SVO确定的加权方式最大化。鉴于AV的目标以及由社会符合社会兼容的AV控件提供的以下HV的好处,公用事业最大化涵盖了一系列设计目标。然后制定出最佳的控制问题,以最大化效用函数定义,该功能使用Pontryagin的最低原理在数值上求解,并提供最佳保证。开发的方法适用于合成社会符合社会符合AV的生态驾驶的控制。提出了一组数值结果,以使用在明尼苏达州55号公路上收集的现实世界实验数据显示拟议方法的机制和有效性。
摘要:新一轮电改政策的出台使得售电公司交易环境日趋复杂,在中长期市场和现货市场中,遵循新政策导向的交易决策优化是售电公司关注的重点。本研究的主要目标是考虑我国当前电改最新政策对电力交易各主体的影响,提出售电公司在中长期和现货市场对可再生能源电力与常规能源电力混合电力交易进行优化决策的方法,以提高电力市场交易效率,促进可再生能源消纳,助力电力市场与可交易绿色证书市场协同发展。本文首先探讨了新电改政策对电力市场各主体交易的影响,构建了消费者效用函数模型、售电公司利润模型、含储能发电厂利润模型。考虑电力市场各主体之间复杂的电力供需关系,以售电公司综合购电成本最小化为目标,建立中长期市场、现货市场和可交易绿证市场混合交易决策博弈模型。为降低现货价格不确定性带来的决策风险,采用先知模型对现货价格进行预测;最后,通过对售电公司决策模型分析,求解出不同交易时段、不同场景下售电公司的最优交易决策。测试结果表明,所提模型可显著提高售电公司的盈利能力,为售电公司参与中长期市场和现货市场提供决策参考。
自柏拉图及其学生亚里士多德以来,人类就被描述为理性动物(Keil and Kreft,2019)。这一假设对于人类自我认知方式至关重要,甚至成为整个法律和经济体系的基础(Blasi and Jost,2006)。18 世纪数学家丹尼尔·伯努利提出的圣彼得堡悖论等决策规范理论规定了决策的最佳方法(Bernoulli,1954)。伯努利的解释主要基于潜在货币收益的客观价值(即预期效用)和主观价值(即预期收益)之间的区别。由于缺乏与人类相关的材料,因此需要进行上述区分,以便充分合理地解释这种悖论。 20 世纪中叶,数学家约翰·冯·诺依曼和经济学家奥斯卡·摩根斯坦建立了预期效用理论(Von Neumann and Morgenstern,1944 年)的基本假设,并断言如果满足某些条件,个人的财务决策可以通过效用函数建模(Peasgood 等,2014 年)。然而,虽然这些理论框架很有价值,但它们在解释人类在假设和现实生活中如何做出决策方面却存在局限性。近两千年后,随着行为科学和认知科学的出现,人类理性的问题开始成为学者们争论的主题。随着前景理论(Kahneman and Tversky,1979 年)的普及,对完全理性行为的前提提出了挑战,通过列举框架、主观参照点、损失规避和孤立效应等人类偏见的例子,对阻碍人类理性行事的机制进行了研究。关于启发式、认知偏差和可能引发非理性行为的情况的实证研究也迅速增加(De Martino 等人,2006 年),科学界对金融决策过程的神经基础的兴趣也随之增加。
尽管深度神经网络 (DNN) 越来越多地应用于选择分析并显示出很高的预测能力,但研究人员能在多大程度上解读来自 DNN 的经济信息尚不清楚。本文表明,DNN 可以提供与传统离散选择模型 (DCM) 一样完整的经济信息。经济信息包括选择预测、选择概率、市场份额、替代品的替代模式、社会福利、概率导数、弹性、边际替代率和异质时间值。与 DCM 不同,DNN 可以自动学习效用函数并揭示领域专家未预先指定的行为模式,尤其是在样本量较大的情况下。然而,当样本量较小时,从 DNN 获得的经济信息可能不可靠,因为自动学习能力面临三大挑战:对超参数的高度敏感性、模型不可识别和局部不规则性。第一个挑战与平衡 DNN 近似值和估计误差的统计挑战有关,第二个挑战与确定 DNN 训练中的全局最优值的优化挑战有关,第三个挑战与缓解估计函数的局部不规则模式的稳健性挑战有关。为了展示优势和挑战,我们使用来自新加坡的陈述偏好调查和来自伦敦的显示偏好数据来估计 DNN,从 DNN 中提取完整的经济信息列表,并将其与来自 DCM 的信息进行比较。我们发现,通过训练或人口汇总的经济信息比单个观察或训练的分解信息更可靠,并且更大的样本量、超参数搜索、模型集成和有效的正则化可以显著提高从 DNN 中提取的经济信息的可靠性。未来的研究应研究样本量的要求、更好的集成机制、其他正则化和 DNN 架构、更好的优化算法以及稳健的 DNN 训练方法,以解决 DNN 的三大挑战,为基于 DNN 的选择模型提供更可靠的经济信息。关键词:深度神经网络;机器学习;选择分析;可解释性。
人工智能与合作 计算社区联盟 (CCC) 四年一次的论文 Elisa Bertino(普渡大学)、Finale Doshi-Velez(哈佛大学)、Maria Gini(明尼苏达大学)、Daniel Lopresti(理海大学)和 David Parkes(哈佛大学) 人工智能 (AI) 的兴起将使人们越来越愿意将决策权交给机器。但我们不应该仅仅让机器做出影响我们的决策,还需要找到与人工智能系统合作的方式。我们迫切需要开展“人工智能与合作”方面的研究,以了解人工智能系统和人工智能与人类的系统如何产生合作行为。对人工智能的信任也很关键:信任是内在的,而且只有随着时间的推移才能获得。这里我们使用“AI”一词的最广义,正如最近的《AI 研究 20 年社区路线图》(Gil and Selman,2019 年)所用,其中包括但不限于深度学习的最新进展。如果成功,人类与 AI 之间的合作可以像人与人之间的合作一样构建社会。无论是出于内在的乐于助人的意愿,还是出于自身利益的驱动,人类社会都已经变得强大,人类物种也通过合作取得了成功。我们在“小”范围内合作——以家庭为单位、与邻居、与同事、与陌生人——并在“大”范围内作为一个全球社区寻求在商业、气候变化和裁军问题上达成合作成果。自然界中也进化出了合作,在细胞和动物之间。虽然许多涉及人类与 AI 合作的情况是不对称的,最终由人类控制,但 AI 系统变得如此复杂,以至于即使在今天,当人类只是作为被动观察者时,人类也不可能完全理解它们的推理、建议和行动。研究议程必然很广泛,涉及计算机科学、经济学、心理学、语言学、法律和哲学。事实上,合作可以意味着很多不同的事情。早期的分布式人工智能文献研究了所有共享相同效用函数并且都想要相同东西的人工智能系统。但我们也可以考虑自利、理性的代理人的经济模型,即寻求对他们个人最有利的代理人。合作也可以在这里产生。正如博弈论中经典的囚徒困境所熟知的那样,合作也可以在自利代理人之间的反复互动中产生。为了使人与人工智能系统成功合作,我们需要能够理解人类偏好、能够模拟他人行为、能够响应规范和道德结构的人工智能系统。我们需要在现行法律、制度和协调机制内运作的人工智能系统,并了解新类型的“相遇规则”在促进合作方面将发挥什么作用