许多决策问题涉及通过与环境互动并观察这些相互作用产生的奖励来学习。在机器学习领域,这一研究属于所谓的增强学习(RL)和训练与环境相互作用的人工剂的算法(Sutton和Barto,2018; Kaelbling et et and; Kaelbling等人。,1996; Bertsekas和Tsitsiklis,1996)。我们在这里对匪徒家族问题的最佳手臂识别(BAI)问题感兴趣,这与RL问题集有关,其中与环境的互动会产生立即奖励以及不必要的长期计划(请参阅Lattimore和Szepesvári,2020年的长期计划)。更确切地说,我们对BAI问题的量子版本感兴趣,为此我们设计了能够解决该问题的量子算法。Quantum机器学习是量子计算和机器学习界面上的一项研究场,目的是使用量子计算范式和技术来提高学习算法的速度和性能(Wittek,2014; Biamonte等人。 ,2017年; Ciliberto等。 ,2018年; Schuld和Petruccione,2018年)。 量子计算中的一个基本概念是量子叠加,这是量子算法(1996年)之类的量子算法(最受欢迎的量子算法之一)成功地解决了从n个项目的无结构数据库中删除一个项目的问题,否,2017年; Ciliberto等。,2018年; Schuld和Petruccione,2018年)。量子计算中的一个基本概念是量子叠加,这是量子算法(1996年)之类的量子算法(最受欢迎的量子算法之一)成功地解决了从n个项目的无结构数据库中删除一个项目的问题,否
截至 2024 年 6 月 30 日的年度报告,麻省理工学院智能探索项目 麻省理工学院智能探索项目 (The Quest) 致力于从工程角度理解智能。我们的教师、员工和学生专注于自然智能 (NI) 和人工智能 (AI) 接口的研究和应用。在过去的一年里,我们看到了工作中的重大进展;这一进展部分归功于稳定的团队、工程团队构建的研究工具的进步以及来自学院内外的更多支持。我们已向我们的任务发放了另一轮资金——跨学科研究团队,每个团队都涵盖科学和工程,每个团队都专注于特定的智能领域。最近的重大变化和里程碑包括启动感知智能任务、采取措施建立智能观测站,以及看到社区采用 Brain-Score 平台作为研究工具。已经完成了几项正在进行的招聘搜索,工作量得到了平衡。随着施瓦茨曼计算机学院 (SCC) 45 号楼的开放,我们的办公室已达到预期位置,让我们能够方便频繁地与 46 号楼和史塔特中心的同事和实验室联系。领导层和附属研究人员 James DiCarlo,Peter de Florez 系统和计算神经科学教授,是 Quest 主任;Nicholas Roy,航空航天学教授,是 MIT Quest 系统工程主任;Joshua Tenenbaum 教授是科学主任;Leslie Pack Kaelbling,电子工程和计算机科学系松下教授是研究主任;Vikash Mansinghka,首席研究科学家是建模和推理主任;Erik M. Vogan 是执行主任。大脑、心智与机器中心由 Eugene McDermoP 教授 Tomaso Poggio 共同领导。来自研究所各个实验室、中心和学术部门的研究人员参与了 Quest 赞助的研究:• 施瓦茨曼计算机学院 (SCC)、电气工程与计算机科学系 (EECS):副教授 Jacob Andreas;William Freeman,Thomas 和 Gerd Perkins 电气工程与计算机科学教授;Tomas Lozano-Perez,工程学院教学卓越教授;Mar?n Rinard 教授;Russ Tedrake,丰田教授;Leslie Kaelbling。• 计算机科学与人工智能实验室 (CSAIL):主任 Daniela Rus 以及电气工程与计算机科学 Andrew (1956) 和 Erna Viterbi 教授。• 大脑与认知科学系 (BCS):Middleton 神经科学职业发展教授 Ev Fedorenko;Ila Fiete 教授; Nancy Kanwisher,Walter A. Rosenblith 教授;Rebecca Saxe,John W. Jarve (1978) 教授,科学学院副院长;Laura Schulz,认知科学教授;副教授
1。引入人工智能(AI)是现代技术进步不可或缺的一部分,许多人已将其应用于无人机导航系统。特别是这些分支之一,强化学习(RL)涉及一个代理商通过与环境互动来做出决策的代理。使用RL,对代理进行训练的环境通常是一个模拟器,它允许在不产生高成本的情况下进行大量培训实例。通过优化用于无人机导航的RL模型,用于监视,追捕和其他培训的无人机可以通过传统方法无法实现的准确性来执行复杂的任务。但是,RL的挑战之一是代理商用来改善其决策顺序的奖励功能的制作。在此项目中,正在探索大型语言模型(LLM)的使用,以帮助改善通常手动手动制作的RL模型的奖励功能。总而言之,该项目旨在调查在RL无人机模型中使用LLMS进行简单导航的潜力。2。文献综述2.1无人机导航中的自主权在近年来在AI和无人机开发领域取得了许多进步,其中包括使用深度学习来优化无人机导航。通过使用AI,无人机通过检测对象清楚地绘制其环境来解释其周围环境。这在其他实现中很重要,例如自动封闭空间中的导航(即(Kaelbling,1996年)。这个无需人工参与),避免碰撞和自动起飞和着陆。无人机中AI的其他用途包括在外国环境中优化轨迹和路径,根据地理特征区分环境,并计划三维非平面运动(Lee等,2021)。With drones increasing in popularity over the past decade, firms have invested efforts into AI implementations, with a notable example of Near-Earth Autonomy and National Aeronautics and Space Administration's (NASA) breakthroughs in self-piloted unmanned drones and autonomous systems, that have largely reduced the reliance on Global Positioning Systems (GPS) for drone navigation (NASA, 2020).2.2强化学习(RL)RL是深度学习的一个分支,涉及一系列基于代理商的探索和剥削的决策,其中“正确的”行动使代理人更接近实现其目标,得到了回报,并“不正确”的行动,这使代理商进一步实现了目标,以实现其目标,受到惩罚。通过与给定环境进行互动,代理可以通过从奖励功能中获得的奖励来识别“正确”和“不正确”的行动,此后继续选择采取行动序列,以提供最大的总体奖励并最大程度地减少整体罚款。这种奖励将是代理人达到最佳行为的加强。为了加快RL模型培训,使用了情节学习模型,在这些模型中,代理利用了过去的观察和动作来进一步学习,而不是每次从头开始。