逐点集中是计算每个状态-动作对的置信区间的标准技术 [Azar 等人,2017 年;Liu 等人,2021 年;Xie 等人,2021b 年;Cui 和 Du,2022 年]。然而,由于 NE 可以是混合策略,因此对 MARL 的直接扩展会受到多智能体诅咒的影响。与逐点集中技术不同,策略集中直接估计每个策略,这允许更严格的置信区间,从而避免对联合动作空间的依赖。我们在第 1.2 节中给出了技术概述。此外,我们表明策略置信界限始终是一个凸函数,因此经验最佳响应策略始终可以是确定性策略,这对计算效率至关重要。
印度理工学院鲁尔基分校 系别:应用数学与科学计算系 科目代码:AMC-501 课程名称:应用优化技术 LTP:3-0-0 学分:3 学科领域:PCC 课程大纲:优化简介、凸集、凸函数、数学建模、线性规划:图解法、单纯形法、线性规划中的对偶性、灵敏度分析、对偶单纯形法、整数规划问题、混合整数规划问题、无约束优化 - 牛顿-拉夫逊法、拟牛顿法、共轭梯度法、最速下降法、约束优化 - 拉格朗日法、广义递减梯度法、罚函数法、多目标优化 - 多目标优化问题、帕累托前沿、支配和非支配解、经典多目标优化方法(如加权和方法、e-约束方法)。
贡献。在本文中,我们系统地研究了近似凸函数优化的量子算法,并将其应用于零阶随机凸老虎机。量子计算是一项快速发展的技术,量子计算机的能力正在急剧提升,最近谷歌 [ 6 ] 和中国科学技术大学 [ 42 ] 已经达到了“量子至上”。在优化理论中,半定规划 [ 3 , 4 , 11 , 12 ]、一般凸优化 [ 5 , 15 ]、优化中的脱离鞍点问题 [ 41 ] 等问题的量子优势已被证明。然而,据我们所知,近似凸优化和随机凸优化的量子算法是广泛开放的。在本文中,我们使用量子零阶评估预言机 OF 来考虑这些问题,这是先前量子计算文献中使用的标准模型 [ 5 , 14 , 15 , 41 ]:
这项工作考虑在线投资组合选择(OPS)和在线学习量子状态,并具有对数损失。在遗憾和效率上设计最佳OPS算法的问题已经开放了30多年(Cover,1991; Cover and Ordentlich,1996; Helmbold等人。,1998; Nesterov,2011年; Orseau等。,2017年; Luo等。,2018年;范·埃文(Van Erven)等。,2020年; Mhammedi和Rakhlin,2022年; Zimmert等。,2022)。在线学习量子状态是对量子设置的OPS的概括(Lin等人,2021; Zimmert等。,2022)。量子状态的维度随量子数的数量而成倍增长,因此相对于维度的可扩展性成为量子设置中的关键问题。我们将这两个问题提出为在线凸优化,其中损失函数是自我一致的障碍,并且相对于凸函数h而平滑。我们用H作为正规器分析了在线镜像的遗憾。然后,根据分析,我们以统一的方式证明了以下内容。用t表示时间范围和d参数维度。
推导出一种新型的完全分布式联合核学习和聚类框架,该框架能够以无监督的方式确定聚类配置。利用半定规划来量化候选核相似矩阵与特定秩的块对角线结构的接近程度。利用凸函数差和块坐标下降,推导出一种递归算法,该算法联合确定适当的核相似矩阵和聚类因子。以可分离的方式重新表述所涉及的半定程序,我们基于交替方向乘数法,构建一个完全分布式方案,通过协作的相邻代理在自组织网络中实现联合核学习和聚类。收敛声明表明,所提出的算法框架返回有界相似核更新,促进块对角线结构。利用合成数据和真实数据的详细数值示例表明,分布式新方法可以实现接近甚至超过现有集中式替代方案所实现的聚类性能。关键词:分布式学习、内核、聚类、无监督学习、优化
Brunn-Minkowski的不平等是众多几何不平等的一部分,例如等距不平等,Pr´ekopa-Leindler不平等和Borell-Borell-Brascamb-lieb不平等。著名的等法不等式,该不平等是在给定的体积中最小化其表面积的身体是Brunn-Minkowski的球,这是从Brunn-Minkowski接球并让T趋向于零的。pr´ekopa-leindler不等式断言,对于t∈(0,1)和功能f,g,h:r n→r≥0,与H(tx +(1-t)y≥f t(x)≥f t(x)g 1-t(y)的属性相对于所有x,y∈Rn和r f = r g,r g,r g,r g,r h g,r g,f = r h h h所有−x 0)是某些a∈R> 0和x0∈Rn的对数凸函数。pr´ekopa-leindler不平等意味着Brunn-Minkowski将F和G作为A和B的指示函数。borell-brascamb-lieb的不平等现成的pr'ekopa-leindler不平等现象。对这些不平等现象及其稳定性的研究引发了近年来的富有成果的研究领域。Brunn-Minkowski不平等的稳定性说,如果我们接近平等,则这些集合接近凸面和平等(要翻译),目的是量化两个亲密关系(请参见例如[fig14])。关于Brunn-Minkowski不平等的稳定性的主要民俗猜想是,如果我们与平等的因子1+δ属于1+δ,那么从A和B到公共凸组的距离为O n(t-1/2δ1 / 2)。
物理学学位课程 2007/2008 学年课程和计划 线性代数 教师: Prof. CATENACCI Roberto 电子邮箱: roberto.catenacci@mfn.unipmn.it CFU 数: 6 年: 1 教学期: 2 学科代码: S0140 课程计划和推荐教材: 计划 考试方式:笔试和口试。实数和复数向量空间、生成器和基、子空间及其之间的运算、平面和空间中的平面和线、标量积和厄米积。线性应用和相关矩阵、行列式、秩和迹、核和图像、基的变化。线性系统理论。一些值得注意的矩阵类及其性质:特征值和特征向量、对称和 Hermitian 矩阵的对角化、特征多项式、凯莱-汉密尔顿定理及其应用。欧几里得几何:双线性形式和二次形式。二次形式的对角化。标量积。推荐文本 文本将在课堂上注明 教师笔记 数学分析 I 教师:GASTALDI Fabio 教授 电子邮件:fabio.gastaldi@mfn.unipmn.it CFU 数量:8 年:1 教学期:1 学科代码:S0136 计划 该课程由理论课和实践练习组成。考试包括笔试和口试。涵盖的主题:实变量的实函数:术语、运算及其对图形、组成的影响;反函数和相关例子。实变量的实函数的极限;左右限位。极限和代数运算;符号永久性定理和两名宪兵永久性定理。显著的局限性;无限的限制;单调函数的极限。连续函数;连续性和代数运算、符号的持久性。连续性和组成性;变量在限度内的变化。衍生物;右和左导数。可微函数的例子;可微函数的连续性。导数和代数运算;复合函数的导数。零点与中间值定理;反函数的连续性和可微性。反函数的例子及其导数的计算。相对的高点和低点;必要条件。罗尔、柯西、拉格朗日定理;零导数定理。单调性和派生性;不确定形式。洛必达定理及其后果。无限与无穷小;应用于不确定形式。带有皮亚诺和拉格朗日余项的泰勒公式。凸函数及其性质;拐点。基元及其多重性;不定积分;通过分部和替换进行不定积分。黎曼积分;几何解释。积分的线性和单调性。积分中值定理。连续或单调函数的可积性。关于区间的可加性。积分函数。积分学基本定理;通过替换和分部积分公式。推荐文本 Bramanti、Pagani、Salsa:数学、无穷小微积分和线性代数。 Ed. Zanichelli Marcellini,Sbordone:数学练习(2 卷)。 Ed. Liguori 老师将提供与特定主题相关的补充材料。