•伊曼纽尔·特沃尔德(Emanuel Tewolde),布莱恩·胡(Brian Hu Zhang),卡斯帕(Caspar Oesterheld),图马斯·桑德霍尔姆(Tuomas Sandholm)和文森特·科尼特(Vincent Conitzer)。尊重它们的计算游戏对称性和平衡。促进人工智能(AAAI)的协会,口语,2025年。•Ratip Emin Berker,Emanuel Tewolde,Ioannis Anagnostides,Tuomas Sandholm,Vincent Conitzer。在广泛的游戏中召回的价值。促进人工智能(AAAI)的协会,口语,2025年。•伊曼纽尔·特沃尔德(Emanuel Tewolde),布莱恩·胡(Brian Hu Zhang),卡斯帕(Caspar Oesterheld),马诺利斯·扎佩塔基斯(Manolis Zampetakis),Tuomas Sandholm,Paul W. Goldberg和Vincent Conitzer。不完美的回顾游戏:平衡概念及其复杂性。在国际艺术情报联合会议(IJCAI)中,2024年。•Emanuel Tewolde和Vincent Conitzer。可以保留NASH平衡或最佳响应集的游戏转换。在国际艺术情报联合会议(IJCAI)中,2024年。•(αβ)Vincent Conitzer,Rachel Freedman,Jobs Heitzig,Wesley H. Holliday,Bob M. Jacobs,Nathan Lambert,MilanMossé,Eric Pacuit,Stuart Russell,Hailey Schoelkopf,Hailey Schoelkopf,Emanuel Tewolde和William S. Zwicker。社会选择应指导AI的一致性来处理各种人类反馈。在国际机器学习会议(ICML)中 - 位置纸条曲目,2024。•Emanuel Tewolde,Caspar Oesterheld,Vincent Conitzer和Paul Goldberg。单人游戏不完美的回顾游戏的计算复杂性。在国际人工智能联合会议(IJCAI)中,2023年。
J7 N. Haghtalab,T。Roughgarden,A。Shetty。具有自适应对手的平滑分析。ACM期刊,即将出版。J6 N. Haghtalab,M.O。 Jackson,A.D。Procaccia。 在复杂世界中的信念两极分化:学习理论的观点。 proc。 国家科学院,118(19)E2010144118,2021。 J5 A. Torrico,M。Singh,S。Pokutta,S。Naor,N。Haghtalab,N。Anari。 结构化稳健的supdodular最大化:离线和在线。 通知杂志有关计算的期刊,33(4):1590–1607,2021。 J4 M. Dud´ık,N。Haghtalab,H。Luo,R.E。 Schapire,V。Syrgkanis和J. Wortman Vaughan。 Oracle效率学习和拍卖设计。 ACM 67(5):1-57,2020。 J3 M.F. Balcan,N。Haghtalab和C. White。 k-扰动弹性下的中心聚类。 算法上的ACM交易,16(2):1–30,2020。 J2 A. Blum,J.P。Dickerson,N。Haghtalab,A.D。Procaccia,T。Sandholm和A. Sharma。 无知几乎是幸福:几乎最佳的随机匹配与几个查询。 操作研究,68(1):16–34,2020。 J1 N. Haghtalab,A。Laszka,A.D。Procaccia,Y。Vorobeychik和Xenofon Koutsoukos。 监视隐形扩散。 知识和信息系统,52(3):1-29,2017。J6 N. Haghtalab,M.O。Jackson,A.D。Procaccia。 在复杂世界中的信念两极分化:学习理论的观点。 proc。 国家科学院,118(19)E2010144118,2021。 J5 A. Torrico,M。Singh,S。Pokutta,S。Naor,N。Haghtalab,N。Anari。 结构化稳健的supdodular最大化:离线和在线。 通知杂志有关计算的期刊,33(4):1590–1607,2021。 J4 M. Dud´ık,N。Haghtalab,H。Luo,R.E。 Schapire,V。Syrgkanis和J. Wortman Vaughan。 Oracle效率学习和拍卖设计。 ACM 67(5):1-57,2020。 J3 M.F. Balcan,N。Haghtalab和C. White。 k-扰动弹性下的中心聚类。 算法上的ACM交易,16(2):1–30,2020。 J2 A. Blum,J.P。Dickerson,N。Haghtalab,A.D。Procaccia,T。Sandholm和A. Sharma。 无知几乎是幸福:几乎最佳的随机匹配与几个查询。 操作研究,68(1):16–34,2020。 J1 N. Haghtalab,A。Laszka,A.D。Procaccia,Y。Vorobeychik和Xenofon Koutsoukos。 监视隐形扩散。 知识和信息系统,52(3):1-29,2017。Jackson,A.D。Procaccia。在复杂世界中的信念两极分化:学习理论的观点。proc。国家科学院,118(19)E2010144118,2021。 J5 A. Torrico,M。Singh,S。Pokutta,S。Naor,N。Haghtalab,N。Anari。 结构化稳健的supdodular最大化:离线和在线。 通知杂志有关计算的期刊,33(4):1590–1607,2021。 J4 M. Dud´ık,N。Haghtalab,H。Luo,R.E。 Schapire,V。Syrgkanis和J. Wortman Vaughan。 Oracle效率学习和拍卖设计。 ACM 67(5):1-57,2020。 J3 M.F. Balcan,N。Haghtalab和C. White。 k-扰动弹性下的中心聚类。 算法上的ACM交易,16(2):1–30,2020。 J2 A. Blum,J.P。Dickerson,N。Haghtalab,A.D。Procaccia,T。Sandholm和A. Sharma。 无知几乎是幸福:几乎最佳的随机匹配与几个查询。 操作研究,68(1):16–34,2020。 J1 N. Haghtalab,A。Laszka,A.D。Procaccia,Y。Vorobeychik和Xenofon Koutsoukos。 监视隐形扩散。 知识和信息系统,52(3):1-29,2017。国家科学院,118(19)E2010144118,2021。J5 A. Torrico,M。Singh,S。Pokutta,S。Naor,N。Haghtalab,N。Anari。结构化稳健的supdodular最大化:离线和在线。通知杂志有关计算的期刊,33(4):1590–1607,2021。J4 M. Dud´ık,N。Haghtalab,H。Luo,R.E。 Schapire,V。Syrgkanis和J. Wortman Vaughan。 Oracle效率学习和拍卖设计。 ACM 67(5):1-57,2020。 J3 M.F. Balcan,N。Haghtalab和C. White。 k-扰动弹性下的中心聚类。 算法上的ACM交易,16(2):1–30,2020。 J2 A. Blum,J.P。Dickerson,N。Haghtalab,A.D。Procaccia,T。Sandholm和A. Sharma。 无知几乎是幸福:几乎最佳的随机匹配与几个查询。 操作研究,68(1):16–34,2020。 J1 N. Haghtalab,A。Laszka,A.D。Procaccia,Y。Vorobeychik和Xenofon Koutsoukos。 监视隐形扩散。 知识和信息系统,52(3):1-29,2017。J4 M. Dud´ık,N。Haghtalab,H。Luo,R.E。Schapire,V。Syrgkanis和J. Wortman Vaughan。Oracle效率学习和拍卖设计。 ACM 67(5):1-57,2020。 J3 M.F. Balcan,N。Haghtalab和C. White。 k-扰动弹性下的中心聚类。 算法上的ACM交易,16(2):1–30,2020。 J2 A. Blum,J.P。Dickerson,N。Haghtalab,A.D。Procaccia,T。Sandholm和A. Sharma。 无知几乎是幸福:几乎最佳的随机匹配与几个查询。 操作研究,68(1):16–34,2020。 J1 N. Haghtalab,A。Laszka,A.D。Procaccia,Y。Vorobeychik和Xenofon Koutsoukos。 监视隐形扩散。 知识和信息系统,52(3):1-29,2017。Oracle效率学习和拍卖设计。ACM 67(5):1-57,2020。J3 M.F. Balcan,N。Haghtalab和C. White。 k-扰动弹性下的中心聚类。 算法上的ACM交易,16(2):1–30,2020。 J2 A. Blum,J.P。Dickerson,N。Haghtalab,A.D。Procaccia,T。Sandholm和A. Sharma。 无知几乎是幸福:几乎最佳的随机匹配与几个查询。 操作研究,68(1):16–34,2020。 J1 N. Haghtalab,A。Laszka,A.D。Procaccia,Y。Vorobeychik和Xenofon Koutsoukos。 监视隐形扩散。 知识和信息系统,52(3):1-29,2017。J3 M.F.Balcan,N。Haghtalab和C. White。k-扰动弹性下的中心聚类。算法上的ACM交易,16(2):1–30,2020。J2 A. Blum,J.P。Dickerson,N。Haghtalab,A.D。Procaccia,T。Sandholm和A. Sharma。无知几乎是幸福:几乎最佳的随机匹配与几个查询。操作研究,68(1):16–34,2020。J1 N. Haghtalab,A。Laszka,A.D。Procaccia,Y。Vorobeychik和Xenofon Koutsoukos。监视隐形扩散。知识和信息系统,52(3):1-29,2017。
2020; Jin等。,2020b; Ayoub等。,2020年; Kakade等。,2020年; Du等。,2021)。特别是,对于有限的状态空间,神经功能近似值取得了显着的成功(Mnih等人。,2015年; Berner等。,2019年; Arulkumaran等。,2019年),而线性函数近似器理论上变得更好地理解(Yang和Wang,2020; Jin等人。,2020b; Ayoub等。,2020年; Kakade等。,2020年; Du等。,2021)。相比之下,尽管在实践中普遍存在,但在部分观察到的马尔可夫决策过程中的强化学习(POMDPS)较少地研究(Cassandra等人,1996; Hauskrecht和Fraser,2000年; Brown and Sandholm,2018年; Ra i Qerty等。,2011年)。更具体地,部分可观察性构成了统计和计算。从统计的角度来看,由于缺乏马尔可夫财产,预测未来的奖励,观察或国家是一项挑战。尤其是,预测未来通常涉及推断国家的分布(也称为信仰状态)或其功能作为历史的摘要,即使假设(observation)发射和(状态)过渡内核也已知(Vlassis etal。 ,2012年; Golowich等。 ,2022)。 同时,学习发射和过渡内核面临因果推理通常遇到的各种问题(Zhang and Bareinboim,2016年)。 ,2021)。 ,2020a)。,2012年; Golowich等。,2022)。同时,学习发射和过渡内核面临因果推理通常遇到的各种问题(Zhang and Bareinboim,2016年)。,2021)。,2020a)。例如,它们通常是不可实现的(Kallus等人。即使假设它们是能够识别的,它们的估计可能需要一个样本量,该样本量在地平线和维度上成倍缩小(Jin等人。即使在评估政策方面,这种统计挑战也已经令人难以置信(Nair和Jiang,2021; Kallus等人。,2021; Bennett和Kallus,2021),构成了政策优化的基础。从计算角度来看,众所周知,策略优化通常是棘手的(Vlassis et al。,2012年; Golowich等。,2022)。此外,有限的观察和状态空间扩大了统计和计算挑战。另一方面,大多数现有结果仅限于表格设置(Azizzadenesheli等人。,2016年; Guo等。,2016年; Jin等。,2020a; Xiong等。,2021),其中观察和状态空间是有限的。在本文中,我们研究了POMDP中的线性函数近似,以解决有限观察和状态空间所扩增的实力挑战。尤其是我们的贡献是四倍。首先,我们定义了具有线性结构的一类POMDP,并确定了针对样品良好的增强学习的不良调节措施。这样的不良调节措施对应于表格设置中的重复(Jin等人,2020a)。第二,我们提出了一种增强学习算法(OP-TENET),该算法适用于任何POMDP承认上述线性结构。此外,我们在操作装置中使用最小值优化公式,以便即使数据集较大,也可以在计算功能庄园中实现算法。第三,从理论上讲,我们证明了Op -Tenet在o(1 /ǫ2)情节中达到了最佳政策。尤其是样品复杂性在线性结构的固有维度上缩放,并且是观测和状态空间大小的独立性。第四,我们的算法和分析基于新工具。 特别是,op-tenet的样本效率是由se- 启用的第四,我们的算法和分析基于新工具。特别是,op-tenet的样本效率是由se-