环境,建立内部世界模型表示,做出决策并采取措施[9,50]。,尽管数十年来在学术界和工业上做出了巨大的努力,但他们的部署仍限于某些杂物或场景,并且不能在世界上无缝地应用。一个关键原因是在结构化自主驾驶系统中学习模型的概括能力有限。通常,感知模型会面临概括到不同环境的挑战,随着地理位置,传感器配置,天气条件,开放式对象等的变化。;预测和计划模型无法推广到具有罕见的sce narios和不同驾驶意图的非确定性期货[2,16,54]。是由人类学习如何感知和刺激世界的动机[27,28,49],我们主张采用驾驶视频作为通用界面,将其推广到具有动态期货的各种环境。基于此,首选驱动视频预测模型以完全捕获有关驾驶场景的世界知识(图1)。通过预测未来,视频预测因子本质上了解了自主驾驶的两个重要方面:世界如何运作以及如何在野外安全地操纵。最近,社区已开始采用视频作为代表各种机器人任务的观察行为和行动的接口[11]。对于诸如经典视频预测和机器人技术等领域,视频背景大多是静态的,机器人的运动很慢,并且视频的分解很低。相比之下,对于驾驶场景 - iOS,它与室外环境高度斗争,代理人涵盖了更大的动作,以及涵盖众多视图的感觉分辨率。这些区别导致了自主驾驶应用的重大挑战。幸运的是,在驾驶领域中开发视频预测模型[4、15、19、23、23、25、33、38、45、47]。尽管在预测质量方面取得了令人鼓舞的进展,但这些尝试并未像经典的机器人任务(例如,操作)那样实现概括能力,仅限于有限的场景,例如流量密度低[4]的高速公路[4]和小型数据集[15,23,33,33,33,45,45,47],或者在环境方面进行不同的条件,以使38个条件(33,45,47)的差异(33,45,47),以使3个条件(33,45,47)的差异(33,45,47),以使3个条件(33,45,47)的差异[3](33,45,47),以下情况下的情况[3](33,33,45,47),这是3次差异。如何揭示视频预测模型的驾驶潜力仍然很少探索。以上面的讨论为动机,我们旨在构建一个自动驾驶的视频预测模型,能够概括为新的条件和环境。为此,我们必须回答以下问题:(1)可以以可行且可扩展的方式获得哪些数据?(2)我们如何制定一个预测模型来捕获动态场景的复杂演化?(3)我们如何将(基础)模型应用于下游任务?
实习飞行软件、计算机视觉和人工智能瑞士苏黎世公司:Daedalean 是一家总部位于苏黎世的初创公司,由前谷歌和 SpaceX 工程师创立,他们希望在未来十年内彻底改变城市航空旅行。我们结合计算机视觉、深度学习和机器人技术,为飞机开发最高级别的自主性(5 级),特别是您可能在媒体上看到的电动垂直起降飞机。如果您加入我们的实习,您将有机会与经验丰富的工程师一起工作,他们来自 CERN、NVIDIA、伦敦帝国理工学院或……自治系统实验室本身。您将构建塑造我们未来的尖端技术。最重要的是,我们还提供在瑞士阿尔卑斯山试飞期间加入我们飞行员的机会。项目:不同团队提供机会。我们想更多地了解您,以及如何让您的实习成为双方宝贵的经历。告诉我们你一直在做什么,以及你想在我们的团队中从事什么工作。它与深度学习有关吗?状态估计?运动规划?计算机视觉?或者别的什么?向我们展示你的热情所在。如果我们可以在你想从事的领域提供指导和有趣的机会,我们将一起敲定细节。资格: 强大的动手 C++ 证明解决问题的能力 如何申请: 将您的简历/履历发送至 careers@daedalean.ai 。请告诉我们一些关于您自己的信息,为什么您认为自己适合我们以及为什么我们适合您。
自主驾驶是一项复杂而具有挑战性的任务,旨在通过场景和推理来实现安全的运动计划。最近,通过增强的场景理解,几个关键问题,包括缺乏推理,低概括性能和长尾场景,但仍需要戴着几个关键问题,但仍需要进行一些关键问题。在本文中,我们提出了VLP,这是一个新颖的视力 - 语言规划框架,利用语言模式来弥合语言理解与自动驾驶之间的差距。VLP通过加强源内存基础和自动驾驶汽车的上下文理解来增强自主驾驶系统。vlp通过与先前的最佳方法相比,分别在平均L2错误和碰撞率方面,分别在平均L2错误和碰撞率方面实现了35.9%和60.5%的端到端规划表演。此外,在面对新的城市环境时,VLP在挑战性的长尾方案和强大的概括能力方面表现出改善的性能。
[草稿] Joseph B. Lyons,Kerianne Hobbs,Steve“ Cap” Rogers,Scott H. Clouse,“负责(使用)AI的负责人”,了解人类在社会技术生态系统中负责任地部署人类在智能技术中的作用[在草案中] Kerianne Hobbs,Bernard Li,“航空航天控制中的人类AI团队的安全,信任和道德考虑”,AIAA Scitech,2024年1月8日至124日,佛罗里达州奥兰多。
扩散模型在建模复合物和多模态轨迹分布方面表现出色,以进行决策和控制。最近提出了奖励级别指导的denoising,以生成轨迹,从而最大程度地提高了可差异的奖励函数,又是扩散模型捕获的数据分布下的可能性。奖励级别指导的denoisising需要适合清洁和噪声样本的可区分奖励功能,从而限制了其作为一般轨迹优化器的应用。在本文中,我们提出了扩散-ES,一种将无梯度优化与轨迹deNoising结合起来的方法,以优化黑框非差异性目标,同时留在数据管理中。扩散-ES样品在进化过程中的轨迹 - 从扩散模型中搜索,并使用黑框奖励函数得分。它使用截断的扩散过程突变高得分轨迹,该过程应用了少量的no弱和降解步骤,从而可以更有效地探索解决方案空间。我们表明,扩散-ES在Nuplan上实现了最先进的表现,Nuplan是一个已建立的闭环计划基准,用于自动驾驶。扩散-ES的表现优于现有的基于抽样的计划者,反应性确定性或基于扩散的策略以及奖励梯度指导。此外,我们表明,与先前的指导方法不同,我们的方法可以优化由少数弹药LLM提示产生的非差异性语言形状奖励功能。这使我们能够解决最困难的NUPLAN场景,这些方案超出了现有的传统优化方法和驾驶策略的能力。在以遵循指示的人类老师的指导下,我们的方法可以产生新颖的,高度复杂的行为,例如训练数据中不存在的积极的车道编织。1
©编辑(如果适用)和作者,根据Springer Nature Switzerland AG 2024的独家许可,这项工作将获得版权。所有权利都是由出版商唯一的,仅由材料的全部或一部分授权的,尤其是翻译,重新使用,插图,朗诵,广播,在微胶片上或以任何其他物理方式复制,以任何其他物理方式复制,以及以任何其他物理方式复制,以及传输或检索,传输和检索,电子适应性,计算机软件,或通过类似的方法,或者是类似的方法,或者现在是相似的方法,或者现在是这些方法。使用一般描述性名称,注册名称,商标,服务标记等。在本出版物中,即使在没有具体陈述的情况下,这种名称也不意味着免于相关的保护法律和法规,因此可以免费使用。出版商,作者和编辑可以肯定地假设本书中的建议和信息在出版之日被认为是真实而准确的。就本文包含的材料或可能已犯的任何错误或遗漏而言,出版商,作者或编辑都没有提供任何明示或暗示的保修。出版商在已发表的地图和机构隶属关系中的管辖权索赔方面保持中立。
摘要关于实验方法的辩论,其作用,限制以及其可能的应用程序最近在自主机器人技术中引起了人们的关注。,如果从一方面,诸如可重复性和重复性的经典实验原理,它是发展该研究领域良好实验实践的灵感,另一方面,一些最新的分析证明了严格的实验方法尚未完全是该社区研究习惯的全部。在本文中,为了给出一部分自主机器人技术中当前的体验实践的理由,这些实践在传统的受控实验概念下无法令人满意地容纳,我们将不再进行探索实验。在这种情况下进行的探索性实验应作为在没有适当理论或理论背景的情况下进行的一种调查形式,在这种情况下,从一开始就无法完全管理对实验因素的控制。我们表明,这一概念源于(并得到)对大量论文样本中报道的实验活动的分析,这些论文已在两个最大,最重要的机器人研究会议上获得了奖励。
我们被媒体大肆宣传,谈论智能复杂系统、大数据分析 [附录中的第 1 项] 和机器学习、机器人和人工智能 [附录中的第 2 项]、超级自动化以及人机之争 [附录中的第 3 项] 的希望和危害。然而,严肃的研究,尤其是来自工程和信息通信技术 (ICT) 背景的研究,以及伦理学家和最终用户的研究,却严重缺乏。炒作可能预示着我们所知道的世界末日 [附录中的第 4 项],“因为自主系统会决定不加区别地派遣无人机”,而其他人则预示着一种增强的人类生存的愿景,其中可持续性存在于生活的各个方面,所有个人的“繁重工作”都将被消除,世界和平将通过集体意识专注于所有正确的事情 [附录中的第 5 项]。中间派观点承认一种既不是乌托邦也不是反乌托邦的中间道路,其中所有事情都是可能的,但不一定会发生,人类可能在某些时候做对,但并非总是如此 [附录中的第 6 项]。AI/AS 领域的谨慎乐观主义者对机器(硬件或软件)的未来充满信心,但即使不期待,他们也要做好准备,因为在此过程中会遇到困难、失败,甚至侵犯人权 [附录中的第 7 项]。尽管围绕机器伦理的话题有很多讨论和猜测,从“机器没有认知能力,怎么会有伦理?”一直到“人工智能拥有灵魂意味着什么”,[附录中的第 8 项] 我们脑海中最重要的应该是“人工智能”这个词,它位于“智能”之前。我们不是带着拟人化的希望深入研究机器,好像它以某种方式获得了“生命之气”,而是将它理解为一个由人类精心设计和实现的实体,使用
虽然行为克隆最近已成为自主驾驶的非常成功的范式,但Humans很少学会通过单独的模仿或行为克隆来执行复杂的任务,例如驱动或行为。相比之下,人类的学习通常涉及在整个交互式学习过程中的其他详细指导,即通常通过语言的反馈提供详细的信息,以详细信息,以进行审判的哪一部分进行,不正确或次要地进行。以这种观察的启发,我们引入了一个有效的基于反馈的框架,用于改善基于行为克隆的传感驱动剂培训。我们的关键见解是利用大语模型(LLM)的重新进步,以提供有关驾驶预测失败背后的理由的纠正良好的反馈。更重要的是,我们引入的网络体系结构是有效的,是第一个基于LLM的驾驶模型的第一个感觉运动端到端培训和评估。最终的代理在Nuscenes上的开环评估中实现了最新的性能,在准确性和碰撞率上的表现优于先前的最新时间超过8.1%和57.1%。在卡拉(Carla)中,我们的基于相机的代理在以前的基于激光雷达的AP摄入率上提高了16.6%的驾驶得分。