最近,有关国家赞助的威胁参与者对美国关键基础设施的网络攻击的警报和警告激增。2024年2月7日,联邦调查局(FBI)以及网络安全性和基础设施安全局(CISA)与国家安全局一起向政府组织发出了咨询警告,以警告政府组织,该组织有望颠覆关键基础设施,例如运输系统,石油和天然天然气管道,水和电气处理工厂,水平处理工厂,以及电力处理工厂,以及电力处理工厂,以及电气处理,且gress gre gress,gret greg and grets,GREN。这补充了TSA为确保机场,飞机运营商和铁路,最近的DOE网络安全基线以及CIP-015-1的最终最终更新的类似行动。
摘要 - 班迪斯作为序列学习的理论基础,也是现代收获系统的算法基础。但是,推荐系统通常依赖于用户敏感的数据,从而使隐私成为关键问题。本文有助于理解具有可信赖的集中决策者的土匪的差异隐私(DP),尤其是确保零集中差异隐私(ZCDP)的含义。首先,我们根据考虑的输入和相互作用协议进行形式化和比较DP的不同适应性。然后,我们提出了三种私人算法,即ADAC-UCB,ADAC-GOPE和ADAC-OFUL,用于三个土匪设置,即有限的武装匪徒,线性匪徒和线性上下文匪徒。三种算法共享一个通用算法蓝图,即高斯机制和自适应发作,以确保良好的隐私 - 实用性权衡。我们分析并限制了这三种算法的遗憾。我们的分析表明,在所有这些环境中,与遗憾的遗憾相比,强加了ZCDP的价格(渐近)可以忽略不计。接下来,我们将遗憾的上限与第一个Minimax下界补充了与ZCDP的匪徒的遗憾。为了证明下限,我们阐述了一种基于耦合和最佳运输的新证明技术。我们通过实验验证三种不同的匪徒设置的理论结果来得出结论。索引术语 - 差异隐私,多军匪徒,重新分析,下限
强化学习(RL)研究代理如何在未知环境中以奖励反馈来表现。环境通常被建模为马尔可夫决策过程(MDP)。在标准设置中,假定MDP是静态的,即,随着时间的推移,状态过渡内核和瞬时奖励函数仍保持固定。在这个假设下,具有强大理论保证的众多综合和统计上有效的算法已得到发展(Jaksch等人。,2010年; Lattimore和Hutter,2012年; Dann and Brunskill,2015年; Azar等。,2017年; Jin等。,2018,2020b)。但是,即使腐败仅限于一小部分回合,这些保证也可能会完全破裂。为了模拟MDP中的对抗性损坏,已经对一个称为对抗MDP的框架进行了敏锐的研究。在对抗性MDP中,允许对手在每回合中任意选择奖励功能,同时保持过渡内核固定(Neu等人。,2010b,a; Dick等。,2014年; Rosenberg and Mansour,2019年,2021年; Jin等。,2020a; Neu和Olkhovskaya,2020年; Lee等。,2020年; Chen and Luo,2021年;他等人。,2021; Luo等。,2021)。在此框架下,可以建立强大的次线性遗憾界限,这几乎与固定的奖励案例相匹配。值得注意的是,Jin和Luo(2020); Jin等。(2021b)开发了在对抗奖励案例中实现近距离限制的算法,同时在静态案例中保留了依赖实例依赖的界限,这表明几乎可以在没有价格的情况下处理对抗奖励。