强化学习(RL)研究代理如何在未知环境中以奖励反馈来表现。环境通常被建模为马尔可夫决策过程(MDP)。在标准设置中,假定MDP是静态的,即,随着时间的推移,状态过渡内核和瞬时奖励函数仍保持固定。在这个假设下,具有强大理论保证的众多综合和统计上有效的算法已得到发展(Jaksch等人。,2010年; Lattimore和Hutter,2012年; Dann and Brunskill,2015年; Azar等。,2017年; Jin等。,2018,2020b)。但是,即使腐败仅限于一小部分回合,这些保证也可能会完全破裂。为了模拟MDP中的对抗性损坏,已经对一个称为对抗MDP的框架进行了敏锐的研究。在对抗性MDP中,允许对手在每回合中任意选择奖励功能,同时保持过渡内核固定(Neu等人。,2010b,a; Dick等。,2014年; Rosenberg and Mansour,2019年,2021年; Jin等。,2020a; Neu和Olkhovskaya,2020年; Lee等。,2020年; Chen and Luo,2021年;他等人。,2021; Luo等。,2021)。在此框架下,可以建立强大的次线性遗憾界限,这几乎与固定的奖励案例相匹配。值得注意的是,Jin和Luo(2020); Jin等。(2021b)开发了在对抗奖励案例中实现近距离限制的算法,同时在静态案例中保留了依赖实例依赖的界限,这表明几乎可以在没有价格的情况下处理对抗奖励。
作者Cornelis M. Van Tilburg 1.2.3.4.5 *,Elke Pfaff 1,3,4,5,6 *,Kristian W. Pajtler 1.3.4.5.7 *,Karin P.S.Langenberg 8 *,Petra Fiesel 4.5.9.10,Barbara C. 1.3.4.5.6,Gnana Prakash Balasubramanian 1.4.5.7,Sebastian Stark 1.3.4.5.6,Pascal D. Johann D. Johann 1.3.4.7.7.7.7.7.11,Mirjam Blattner-Johnson-Johnson-Johnson-Johnson-Johnson-Johnson-Johnson-Johnson-Johnson 1.4.5.6,Kathrin Schrams Schrams Schrams 1.5.6,Nick dik。 1,12,克里斯蒂安·萨特(Christian Sutter)12,克斯汀·格伦德(Kerstin Grund)12,阿伦德·冯·斯塔克尔伯格(Arend von Stackelberg)4.5.13,安德烈亚斯·E·库洛兹克(Andreas E. Tippelt 4.5.17,Dietrich von Schweinitz 4.19,Irene Schmid 20,Christof M. Kramm 21,AndréO。von Bueren 22,Gabriele Calaminus 23,Peter Vorwerk,Peter Vorwerk 24,Norbert Graf 25,Frank Westermann 4.5.26,Matthias Fischer 5.26 Michaela Nathrath 4.30,31,Stefanie Hecker-Nolting 5.32,MichaelC.Frühwald5.11,Dominik T. Schneider 33,Ines B. B. Brecht 4.5.34,Petra Ketteler 4.5.17,Simone Fulda 4.35 Matthias Schwab 4.37.38,Roman Tremmel 37,Ingridøra39,Caroline Hutter 40,Nicolas U. Gerber 41,Olli Lohi 42,Bernarda Kazanowska 43,Antonis Kattamis 44,Antonis Kattamis 44 1,2,3,4、5,NatalieJäger1.4.5.7,Stephan Wolf 4.5.9.10,Felix Sahm 4.5.9.10,Andreas von Deimling 4.5.9.10,UTA Dirksen 4.5.17,Angelika Freitag 47Jones 1.50.5.6,Jan J. Painta **,David Caps 3.5.5.5.5.5。,5,5,5,5,4,5。,4,4,5,4,4,5 **隶属关系
本出版物得益于欧洲电池工作组 5 应用和集成:移动工作的支持,该工作组由欧洲能源署 (CEA) 主席 Simon Perraud 以及宝马公司 (BMW) 联合主席 Franz Geyer、EGVIA 联合主席 Josef Affenzeller 和 Lucie Beaumel 共同指导。以下写作团队参与了不同路线图章节的编写: • 公路运输: ° 写作团队负责人:Denise Tapler (AVL) ° 贡献者:Aitor Apraiz (Mondragon Assembly)、Thilo Bein (Fraunhofer LBF)、Jeroen Buscher (VITO)、Daniela Chrenko (Femto-ST)、Pierre-Olivier Cimon (Rimac Automobili)、David Francken (Accumalux)、Franz Geyer (BMW)、Stéphane Henriot (IFPEN)、Vincenzo Mulone (罗马大学)、Roberto Pacios (CIC energiGUNE)、Marlena Volck (AVL) • 航空运输: ° 写作团队负责人:Michele De Gennaro (AIT) ° 贡献者:Francesco Salvato (Leonardo)、Tine Tomažič (Pipistrel)、Blaž Močan (Pipistrel)、Jure Tomažič (Pipistrel)、Guillaume Cherouvrier (Safran)、Jean-Marc Thevenoud (Saft)、Helmut Kühnelt (AIT)、Andreas Hutter (CSEM)、Ana Maria Madrigal (CSEM)、Aitor Apraiz (Mondragon Assembly)、Thilo Bein (Fraunhofer LBF) • 水运(章节由 Waterborne TP 编写): ° 写作团队负责人:Paolo Guglia (Fincantieri)、Sara Braida (Fincantieri)、Chiara Notaro (Cetena) ° 贡献者:Alessandro Boveri (Cetena)、Ashish Kamat (ABB)、Inkeri Huttu (ABB)、Hermann-Josef Mammes (Meyer Werft) • 铁路运输: ° 写作团队负责人:Pierre Prenleloup (Saft) 和 Bogdan Vulturescu (SNCF) ° 贡献者:Aitor Apraiz (Mondragon Assembly)、Bernhard Fäßler(Stadler Rail)、Juyeon Park(英国国家物理实验室)、 PINTA3 成员(Shift²Rail 项目由 Pascal Mannevy 领导) • 非道路移动机械: ° 写作团队负责人:Mikko Pihlatie (VTT) ° 贡献者:Jenni Pippuri-Mäkeläinen (VTT)、Marius Baranauskas (VTT)、Ari Hentunen (VTT)
[1] Jimmy Lei BA,Jamie Ryan Kiros和Geoffrey E. Hinton。层归一化。2016。Arxiv:1607.06450 [Stat.ml]。[2] Nanxin Chen等。Wavegrad:估计波形产生的梯度。2020。Arxiv:2009.00713 [Eess.as]。[3]凯瑟琳·克罗森(Katherine Crowson)。在CIFAR-10上训练扩散模型。在线。2024。URL:https://colab.research.google.com/drive/1ijkrrv-d7bosclvkhi7t5docryqortm3。[4]凯瑟琳·克罗森(Katherine Crowson)。v-diffusion。在线。2024。URL:https: / / github。com/crowsonkb/v-diffusion-pytorch/blob/master/diffusion/utils.py。[5] Ekin D. Cubuk等。randaugment:实用的自动化数据增强,并减少了搜索空间。2019。Arxiv:1909.13719 [CS.CV]。 [6] Yann N. Dauphin等。 通过封闭式卷积网络进行语言建模。 2017。Arxiv:1612.08083 [CS.CL]。 [7] Mostafa Dehghani等。 通用变压器。 2019。Arxiv:1807.03819 [CS.CL]。 [8] Yilun Du和Igor Mordatch。 基于能量的模型中的隐性产生和概括。 2020。Arxiv:1903.08689 [CS.LG]。 [9] Ian J. Goodfellow等。 生成对抗网络。 2014。Arxiv:1406.2661 [Stat.ml]。 [10] Dan Hendrycks和Kevin Gimpel。 高斯错误线性单元(Gelus)。 2023。Arxiv:1606.08415 [CS.LG]。 [11] Jonathan Ho,Ajay Jain和Pieter Abbeel。 剥离扩散概率模型。 2020。Arxiv:2006.11239 [CS.LG]。2019。Arxiv:1909.13719 [CS.CV]。[6] Yann N. Dauphin等。通过封闭式卷积网络进行语言建模。2017。Arxiv:1612.08083 [CS.CL]。[7] Mostafa Dehghani等。通用变压器。2019。Arxiv:1807.03819 [CS.CL]。 [8] Yilun Du和Igor Mordatch。 基于能量的模型中的隐性产生和概括。 2020。Arxiv:1903.08689 [CS.LG]。 [9] Ian J. Goodfellow等。 生成对抗网络。 2014。Arxiv:1406.2661 [Stat.ml]。 [10] Dan Hendrycks和Kevin Gimpel。 高斯错误线性单元(Gelus)。 2023。Arxiv:1606.08415 [CS.LG]。 [11] Jonathan Ho,Ajay Jain和Pieter Abbeel。 剥离扩散概率模型。 2020。Arxiv:2006.11239 [CS.LG]。2019。Arxiv:1807.03819 [CS.CL]。[8] Yilun Du和Igor Mordatch。基于能量的模型中的隐性产生和概括。2020。Arxiv:1903.08689 [CS.LG]。[9] Ian J. Goodfellow等。生成对抗网络。2014。Arxiv:1406.2661 [Stat.ml]。[10] Dan Hendrycks和Kevin Gimpel。高斯错误线性单元(Gelus)。2023。Arxiv:1606.08415 [CS.LG]。[11] Jonathan Ho,Ajay Jain和Pieter Abbeel。剥离扩散概率模型。2020。Arxiv:2006.11239 [CS.LG]。[12] Jonathan Ho和Tim Salimans。无分类器扩散指南。2022。ARXIV:2207.12598 [CS.LG]。[13]安德鲁·霍华德(Andrew Howard)等人。搜索MobilenetV3。2019。Arxiv:1905.02244 [CS.CV]。[14] Andrew G. Howard等。 Mobilenets:用于移动视觉应用的有效卷积神经网络。 2017。Arxiv:1704.04861 [CS.CV]。 [15] Forrest N. Iandola等。 squeezenet:较小的参数和€0.5MB型号的Alexnet级准确性。 2016。Arxiv:1602.07360 [CS.CV]。 [16] Imagenet 64x64基准(图像生成)。 用代码的论文,2024。URL:https://paperswithcode.com/sota/image-generation-generation-en-on-imagenet-64x64。 [17] Sergey Ioffe和Christian Szegedy。 批次归一化:通过减少内部协变性转移来加速深层网络训练。 2015。Arxiv:1502.03167 [CS.LG]。 [18] Diederik P. Kingma和Jimmy Ba。 亚当:一种随机优化的方法。 2017。Arxiv:1412.6980 [CS.LG]。 [19] Diederik P. Kingma和Ruiqi Gao。 将扩散目标理解为具有简单数据增强的ELBO。 2023。Arxiv:2303.00848 [CS.LG]。 [20] Diederik P. Kingma等。 变化扩散模型。 2023。Arxiv:2107.00630 [CS.LG]。 [21] Zhenzhong Lan等。 albert:一个精简版的语言表示学习。 2020。Arxiv:1909.11942 [CS.CL]。 [22] Ilya Loshchilov和Frank Hutter。 重量衰减正则化。[14] Andrew G. Howard等。Mobilenets:用于移动视觉应用的有效卷积神经网络。2017。Arxiv:1704.04861 [CS.CV]。 [15] Forrest N. Iandola等。 squeezenet:较小的参数和€0.5MB型号的Alexnet级准确性。 2016。Arxiv:1602.07360 [CS.CV]。 [16] Imagenet 64x64基准(图像生成)。 用代码的论文,2024。URL:https://paperswithcode.com/sota/image-generation-generation-en-on-imagenet-64x64。 [17] Sergey Ioffe和Christian Szegedy。 批次归一化:通过减少内部协变性转移来加速深层网络训练。 2015。Arxiv:1502.03167 [CS.LG]。 [18] Diederik P. Kingma和Jimmy Ba。 亚当:一种随机优化的方法。 2017。Arxiv:1412.6980 [CS.LG]。 [19] Diederik P. Kingma和Ruiqi Gao。 将扩散目标理解为具有简单数据增强的ELBO。 2023。Arxiv:2303.00848 [CS.LG]。 [20] Diederik P. Kingma等。 变化扩散模型。 2023。Arxiv:2107.00630 [CS.LG]。 [21] Zhenzhong Lan等。 albert:一个精简版的语言表示学习。 2020。Arxiv:1909.11942 [CS.CL]。 [22] Ilya Loshchilov和Frank Hutter。 重量衰减正则化。2017。Arxiv:1704.04861 [CS.CV]。[15] Forrest N. Iandola等。squeezenet:较小的参数和€0.5MB型号的Alexnet级准确性。2016。Arxiv:1602.07360 [CS.CV]。[16] Imagenet 64x64基准(图像生成)。用代码的论文,2024。URL:https://paperswithcode.com/sota/image-generation-generation-en-on-imagenet-64x64。[17] Sergey Ioffe和Christian Szegedy。批次归一化:通过减少内部协变性转移来加速深层网络训练。2015。Arxiv:1502.03167 [CS.LG]。[18] Diederik P. Kingma和Jimmy Ba。亚当:一种随机优化的方法。2017。Arxiv:1412.6980 [CS.LG]。[19] Diederik P. Kingma和Ruiqi Gao。将扩散目标理解为具有简单数据增强的ELBO。2023。Arxiv:2303.00848 [CS.LG]。[20] Diederik P. Kingma等。变化扩散模型。2023。Arxiv:2107.00630 [CS.LG]。[21] Zhenzhong Lan等。albert:一个精简版的语言表示学习。2020。Arxiv:1909.11942 [CS.CL]。[22] Ilya Loshchilov和Frank Hutter。重量衰减正则化。2019。Arxiv:1711.05101 [CS.LG]。[23] Preetum Nakkiran等。深度下降:更大的模型和更多数据损害。2019。Arxiv:1912.02292 [CS.LG]。[24] Alex Nichol和Prafulla Dhariwal。改进了扩散概率模型。2021。Arxiv:2102.09672 [CS.LG]。[25] Aaron van den Oord,Nal Kalchbrenner和Koray Kavukcuoglu。像素复发性神经网络。2016。Arxiv:1601.06759 [CS.CV]。[26] Prajit Ramachandran,Barret Zoph和Quoc V. Le。搜索激活功能。2017。Arxiv:1710.05941 [CS.NE]。 [27] Danilo Jimenez Rezende和Shakir Mohamed。 差异推断与归一化流量。 2016。Arxiv:1505.05770 [Stat.ml]。2017。Arxiv:1710.05941 [CS.NE]。[27] Danilo Jimenez Rezende和Shakir Mohamed。差异推断与归一化流量。2016。Arxiv:1505.05770 [Stat.ml]。
Armstrong, S. (2014)。比我们更聪明。MIRI。Bostrom, N. (2002)。生存风险:分析人类灭绝情景和相关危害。《进化与技术杂志》,9,1-30。Bostrom, N. (2012)。超级智能意志:高级人工智能中的动机和工具理性。《思维与机器》,22(2 - 特别版“人工智能哲学”编辑。Vincent C. Müller),71-85。Bostrom, N. (2013)。生存风险预防是全球优先事项。全球政策,4 (1),15–31。https://doi。org/10.1111/1758-5899.12002 Bostrom, N. (2014)。超级智能:路径、危险、策略。牛津大学出版社。Bostrom, N.,& Ćirković, M. M.(Eds.)。(2011)。全球灾难性风险。牛津大学出版社。Cave, S. (2020)。智能问题:其价值历史和人工智能的未来。在 AIES '20:AAAI/ACM 人工智能、伦理和社会会议论文集(第29–35 页)。ACM。Chalmers,D. J.(2010)。奇点:哲学分析。《意识研究杂志》,17 (9–10),7–65。Drexler,E. K. (2019)。重新定义超级智能:综合人工智能服务作为通用智能。FHI 技术报告,2019-1, 1-210。https://www.fhi.ox.ac.uk/wp-content/uploads/Reframming_Superintelligence_FHI-TR-2019- 1.1-1.pdf Eden, A.、Moor, J. H.、Søraker, J. H. 和 Steinhart, E.(Eds.)。(2012)。奇点假设:科学与哲学评估 (The Frontiers Collection)。Springer。Fischer, J. M., & Ravizza, M. (2000)。责任与控制:道德责任理论。剑桥大学出版社。Fox, J., & Shulman, C. (2010)。超级智能并不意味着仁慈。在 K. Mainzer (Ed.中,ECAP10:第八届欧洲计算与哲学会议 (pp.1–7)。Dr Hut。Good, I. J.(1965)。关于第一台超智能机器的推测。在 F. L. Alt & M. Ruminoff (Eds.) 中,计算机的发展 (Vol.6 ,页31–88)。Academic Press。Häggström, O.(2016)。这里有龙:科学、技术和人类的未来。牛津大学出版社。Häggström, O.(2019)。对 Omohundro-Bostrom 人工智能动机框架的挑战。Foresight ,21 (1),153–166。https://doi.org/10.1108/FS-04-2018-0039 Häggström, O., & Rhodes, C.(Eds.)。(2019)。对人类的生存风险 (Foresight,Vol.21/1 )。Hofstadter, D. R. (1979)。哥德尔、埃舍尔、巴赫:永恒的金色辫子。基础书籍。康德,I.(1786)。道德形而上学的基础。牛津大学出版社。Kurzweil,R. (1999)。精神机器的时代:当计算机超越人类智能时。企鹅。Kurzweil, R. (2005)。奇点临近:当人类超越生物学时。维京人。Legg, S., & Hutter, M. (2007)。通用智能:机器智能的定义。心智与机器,17 (4),391–
前言,我们希望您参加第27届攀岩和步行机器人国际会议 - Clawar 2024!成立于1997年,Clawar会议已成为国际机器人社区中盛大的年度活动。今年,Clawar 2024是由RPTU KAISERSLAUTERN-LANDAU和信息技术研究中心的RPTU KAISERSLAUTERN-LANDAU和FZI的机器人研究实验室组织的。我们很荣幸欢迎您参加Kaiserslautern市今年的会议。Kaiserslautern是德国西南部莱茵兰 - 帕宁特州的工业和大学城。我们的城市直接附着在德国最大的连续森林的西北边缘。因此,Kaiserslautern在南部和东部被树木繁茂的高度(如Humberg或Kahlenberg)精美。Clawar 2024位于国际知名的研究所弗劳恩霍夫·Zentrum Kaiserslautern中。Clawar 2024涵盖了步行和攀登机器人研究,开发和创新的所有主要领域。除其他外,提出了新的应用和当前趋势,基于AI的感知和控制解决方案,创新的设计概念,康复和专业系统以及双皮亚和四足动物的步行机。,我们为三位著名的全体演讲者以及在其主要研究领域的未来创新提供的创新感到非常自豪。这些是Marco Hutter(27年攀登和步行机器人 - 我们在那里吗?),Alin Albu-Schäffer(扭矩控制或本质上符合?dlr在稳健,有效的双头和四倍的机车上的观点)和navinda kottege(两个,四个或六个?腿部机器人用于现实世界中的探索和检查)。对我们来说,拥有另外两个主题演讲者 - 本杰明·莫蒂斯(Benjamin Mottis)(创建自主机器人的工作)和katja mombaur(人形机器人机器人和外骨骨骼中的双皮亚动力学 - 从基准测试框架中,从基准测试框架中进行了高效控制者),要求对会议的高质量审查,以备受质量的质量,以备受质量的质量。审查过程导致接受了49篇定期论文和14张海报的贡献,中有75份原始提交。在整个会议期间都提出了所有公认的贡献,在14个技术会议上组织,将来自15个国家的领先的机器人研究人员汇总在一起。所有作者的出色工作以及所有审稿人的专业和详细反馈给作者的特殊认可。在学术会谈外,还组织了几项技术和社交活动,以支持整个会议的友好,合作和创新的精神。除其他外,其中包括技术展览,游览和导游。尤其要感谢参展商MAB机器人,Mybot Shop,DFKI机器人创新中心不来梅,DLR机器人和机电机器人学院,ETH的机器人系统实验室,服务机器人实验室,FZI的Service Robotics Lab,FZI,机器Intelligence and Machine Intelligence and Robotics在Kit和Robotics the Robotics for Robots for rptutu kaiesland for rptutu kaiasera for rptutu kaiasera intuutututututututu kaaisera-机器。组织这次会议需要大量工作,我们要感谢所有参与人员的时间和精力。衷心感谢您向我们的主要赞助商,Deutsche Forschungsgemeinschaft(DFG)和Hübner基金会。此外,我们要感谢Fraunhofer中心Kaiserslautern提供的会议地点。我们的真诚感谢也感谢Clawar协会,国际科学委员会,会议的顾问委员会以及国家和地方组织委员会的宝贵支持。