部分监测(Rustichini,1999)是无状态顺序决策的灵活框架。部分监视模型捕获了标准的多臂和线性匪徒的设置,半信息反馈模型,动态定价和决斗匪徒的变体,仅举几例。部分监视被形式化为学习者和环境之间的基于圆形的游戏。在每回合中,学习者选择一个动作,环境提供了反馈。此外,与每个动作相关的(未知)奖励,但与强盗模型不同,不一定直接观察到奖励。相反,为学习者提供了奖励和反馈如何相关的描述。为了最大程度地提高累积奖励,学习者需要在导致信息反馈和高奖励的行动之间取得仔细的平衡,这是探索 - 开发难题的本质。更具体地,学习者需要收集数据,使其能够识别最佳动作,同时最大程度地减少相对于最佳动作(称为遗憾)的次优最佳动作的成本。
涉及实体中资源竞争的情况可以由竞争性的多军强盗(CMAB)问题来建立,该问题与社会问题有关,例如最大化总成果并实现个人之间最公平的资源回音。在这些方面,量子状态的固有随机性和全局特性为获得最佳解决方案提供了理想的工具。基于先前对双臂案例中的CMAB问题的研究,本文介绍了找到极化 - 纠结的N-Photon状态所需的理论原则,这些原理可以优化总资源输出,同时确保玩家之间的平等。通过使用数值模拟来重现现实配置,并找到了克服玩家的极化测量系统之间潜在的未对准的最佳策略,将这些原理应用于两,三,四和五人情况。尽管此处未介绍N-玩家情况的一般公式,但提出了一般推导规则和验证算法。本报告以有限的概率资源来证明量子状态在集体决策中的潜在可用性,这可以作为迈向基于量子的资源分配系统的第一步。
传统的多臂老虎机 (MAB) 算法是为平稳环境设计的,其中与臂相关的奖励分布不会随时间而变化。然而,在许多应用中,环境被更准确地建模为非平稳的。在这项工作中,研究了分段平稳 MAB (PS-MAB) 环境,其中与一部分臂相关的奖励分布在某些变化点发生变化,而在变化点之间保持平稳。我们的重点是 PS-MAB 的渐近分析,之前已经为其提出了基于变化检测 (CD) 的实用算法。我们的目标是模块化此类基于 CD 的老虎机 (CDB) 程序的设计和分析。为此,我们确定了模块化所需的平稳老虎机算法和 CDB 程序中变化检测器的要求。我们假设奖励是亚高斯的。在此假设和变化点分离的条件下,我们表明 CDB 程序的分析确实可以模块化,因此可以以统一的方式获得各种变化检测器和强盗算法组合的遗憾界限。通过这种分析,我们开发了新的模块化 CDB 程序,这些程序是顺序最优的。我们在模拟中将我们的模块化 CDB 程序的性能与其他各种方法进行了比较。
传统的多臂老虎机 (MAB) 算法是为平稳环境设计的,其中与臂相关的奖励分布不会随时间而变化。然而,在许多应用中,环境被更准确地建模为非平稳的。在这项工作中,研究了分段平稳 MAB (PS-MAB) 环境,其中与一部分臂相关的奖励分布在某些变化点发生变化,而在变化点之间保持平稳。我们的重点是 PS-MAB 的渐近分析,之前已经为其提出了基于变化检测 (CD) 的实用算法。我们的目标是模块化此类基于 CD 的老虎机 (CDB) 程序的设计和分析。为此,我们确定了模块化所需的平稳老虎机算法和 CDB 程序中变化检测器的要求。我们假设奖励是亚高斯的。在此假设和变化点分离的条件下,我们表明 CDB 程序的分析确实可以模块化,因此可以以统一的方式获得各种变化检测器和强盗算法组合的遗憾界限。通过这种分析,我们开发了新的模块化 CDB 程序,这些程序是顺序最优的。我们在模拟中将我们的模块化 CDB 程序的性能与其他各种方法进行了比较。
在统计和人工智能的交集中,这是突破理论和应用界限的深刻机会。在本演讲中,我将分享我的研究旅程,以推进AI的统计基础,该基础结构为三个相互联系的部分,每个部分都解决了预测性AI和生成性AI中的关键挑战。第1部分探讨了我在动态定价方面的工作,这是预测AI的基石。通过开发基于强盗的框架,始终有效的推理和高维正规化的自适应定价模型,我解决了动态决策固有的探索 - 探索探索权衡。这些模型可以在电子商务和广告等行业中统计严格,隐私感知和实时应用程序,以证明统计方法如何在复杂市场中取得影响力。第2部分的重点是隐私审核,桥接预测性AI和生成AI的领域。本研究利用统计假设测试来设计数据驱动的框架,以量化和减轻隐私风险,包括成员推理攻击和生成模型中的数据复制。通过将理论保证(例如差异隐私)与实际评估相结合,我旨在提供可行的工具,以将隐私保存与分析效用保持一致,从而解决现代AI中最紧迫的问题之一。
与分布式计算范式一起出现了5G,称为边缘计算范围,通过减少网络潜伏期和能源消耗并提供可扩展性的机会,促使行业发生了巨大变化。边缘计算通过将数据中心放置在网络边缘来扩展用户资源受限设备的功能。计算卸载通过允许用户任务的迁移到边缘服务器来启用边缘计算。确定移动设备可以卸载任务以及在哪个服务器上卸载是否有益,而环境变量(例如可用性,加载,网络质量等)是有益的。,正在动态变化,是一个具有挑战性的问题,需要仔细考虑才能实现更好的绩效。该项目着重于提出轻巧和效率的算法,以从移动设备的角度进行卸载决策,以使用户受益。随后,启发式技术被研究为找到快速但优化解决方案的一种方式。这些技术已与多臂强盗算法结合使用,称为折扣上限置信度(DUCB),以迅速做出最佳决策。调查结果表明,这些启发式方法无法处理问题的动态性,并且DUCB提供了适应不断变化的情况而不必继续添加额外参数的能力。总体而言,DUCB算法在本地能源消耗方面的性能更好,并且可以改善大多数时间的服务时间。
但是,什么是机器学习?当然,这是一个流行语,在过去的几年中,它在广受欢迎。文献中有无数的定义,最有良好的定义是来自人工智能先驱阿瑟·塞缪尔(Arthur L. Samuel),后者将ML定义为“使计算机的学习领域,使计算机能够学习而无需明确编程。” 2我们更喜欢一个不太模糊的定义,其中ML是自动化计算机算法与有力的统计方法的组合,可以在丰富的数据集中学习(发现)HID-DEN模式。从这个意义上讲,统计学习理论为ML的统计基础提供了统计基础。因此,本文是关于统计学习的发展,而不是ML,因为我们将重点关注统计模型。ML方法可以分为三个主要群体:受监督,无监督和强化学习。本调查是关于监督学习的,该任务是学习将输入(解释变量)映射到输出(因变量)的函数,该函数基于组织为输入输出对的数据。回归模型属于此类。另一方面,无监督的学习是一类ML方法,它在没有预先存在的标签的数据集中发现未发现的模式,例如群集分析或数据压缩算法。最后,在强化学习中,代理商学会在环境中执行某些行动,从而使其获得最大的奖励。它通过探索和剥削知识来做到这一点,它通过重复提高奖励的重复试验而学习。这是几个人工智能游戏玩家(例如Alfago)以及顺序治疗(例如强盗问题)的核心。
摘要。试图使算法公平,机器学习文献主要集中在跨种族或性别群体之间的决策,结果或错误率平等。要说明,请考虑一个假设的政府乘车计划,该计划为即将到来的法院日期提供的低收入人士提供运输援助。遵循这些文献,可以将游乐设施分配给每美元估计效果最高的治疗效果的人,同时将支出限制为在种族群体之间相等。然而,这种方法忽略了这种约束的下游后果,因此会造成意外伤害。例如,如果一个人群群体居住在远离法院的情况下,则执行平等的支出必然意味着提供的总乘车总数较少,并且可能会因失踪法院而受到更多惩罚的人。在这里,我们提出了设计公平算法的替代框架,该算法预示了决策的后果。在我们的方法中,首先引起了利益相关者在可能的决策和由此产生的结果的方面的偏好,例如平衡支出平价与法院出庭率的偏好。然后,我们在决策政策的空间中进行了优化,以最大化引起的公用事业的方式进行权衡。为此,我们开发了一种算法,以从数据中从数据中有效地学习这些最佳策略的算法,以提供大量表达效用功能。尤其是,我们使用上下文的强盗算法来探索poli cies的空间,同时在每个步骤求解凸优化问题,以根据可用信息估算最佳策略。这种后果主义范式促进了公平决策的更霍利斯的方法。
摘要。试图使算法公平,机器学习文献主要集中在跨种族或性别群体之间的决策,结果或错误率平等。要说明,请考虑一个假设的政府乘车计划,该计划为即将到来的法院日期提供的低收入人士提供运输援助。遵循这些文献,可以将游乐设施分配给每美元估计效果最高的治疗效果的人,同时将支出限制为在种族群体之间相等。然而,这种方法忽略了这种约束的下游后果,因此会造成意外伤害。例如,如果一个人群群体居住在远离法院的情况下,则执行平等的支出必然意味着提供的总乘车量更少,并且可能会因失踪法院而受到更多罚款。在这里,我们提出了设计公平算法的替代框架,该算法预示了决策的后果。在我们的方法中,第一个在可能的决定和由此产生的结果的空间中引起了利益相关者的偏好,例如平衡支出平价与法院出庭率的偏好。然后,我们在决策政策的空间中进行了优化,以最大化引起的公用事业的方式进行权衡。为此,我们开发了一种算法,以从大型表达效用函数的数据中从数据中效率地学习这些最佳策略。尤其是,我们使用上下文的强盗算法来探索政治空间,同时在每个步骤求解凸优化问题,以根据可用信息估算最佳策略。这种后果主义范式促进了公平决策的更加友好的方法。
什么是角色扮演游戏?角色扮演游戏让您假装自己是故事中的角色,就像在戏剧中一样。每个玩家都扮演故事中的角色,做出决定并说出角色在沿途发生的情况下会说的话。一名玩家,游戏管理员 (GM) 充当戏剧的作者或导演;他“设置舞台”,告诉玩家他们在哪里,发生了什么,以及故事中的其他角色(称为非玩家角色或 NPC)在说什么和做什么。GM 指导行动,但不控制行动;游戏的结果取决于玩家和 GM。更简单地说,角色扮演就像你小时候玩的“警察和强盗”或“过家家”游戏,只是这次有规则来帮助指导你,情况也更复杂、更有趣。我怎么玩?在 Fuzion 游戏中,一个玩家成为 GM,并决定冒险的背景、要使用的规则、角色的起点以及 Fuzion 规则中提出的所有选择和选项。其他玩家根据 GM 告诉他们的规则准备好他们的角色。GM 可以给你一个角色,让你选择一个已经写好的角色,或者让你创建一个角色。裁判/GM 还做什么?GM 准备一个故事(或使用已在预先出版的冒险书中为他写好的故事),并开始告诉玩家他们的角色看到和听到的内容,并开始询问玩家他们的角色接下来会做什么。当出现结果不明显的情况时(例如您是否击中某人或是否可以撬锁),他还会根据您现在正在阅读的规则判断结果是什么。我如何担任 GM?最好的方法是亲自尝试。通读规则,并通读提供的战役设置。我们还始终包含角色扮演会话的示例和一些有关如何创建良好冒险的提示。最重要的是要成为一名优秀的讲故事者——尝试生动地描述你引导人们经历的世界,并提出问题或情况来挑战你的玩家做到最好。同样重要的是,GM 需要公正地判断游戏规则和游戏对玩家的影响。记住;如果你不有趣,不公平,没有人会想在你的“电影”中担任主角。祝你好运!