人工智能系统的形式和规模各有不同,有高度专业化的系统可以解决人类思维无法解决的复杂问题,比如预测蛋白质的构象 [ 21 ],也有可以根据文本提示生成逼真的高分辨率图像或视频的系统 [ 40 ]。然而,人类智能超越机器智能的最大优势是多功能性:能够解决不同物理环境中的不同任务,同时对环境约束、语言命令和意外干扰做出智能响应。人工智能在实现这种多功能性方面最实质性的进展或许体现在大型语言和视觉语言模型 [ 1, 48 ] 中:这些系统先在网络上的大量且非常多样化的图像和文本语料库上进行预训练,然后使用更精心策划的数据集进行微调(“对齐”),以诱导所需的行为和响应模式。虽然这些模型已被证明具有广泛的指令遵循和解决问题的能力 [ 53 , 27 ],但它们并不像人类那样真正地存在于物理世界中,它们对物理交互的理解完全基于抽象描述。如果这些方法要在人工智能系统方面取得切实进展,使其表现出人类所拥有的那种物理情境多功能性,我们将需要使用物理情境数据(即来自具身机器人代理的数据)对它们进行训练。灵活的通用模型可以执行各种机器人行为,具有巨大的实际意义,但它们也可能为当今机器人学习面临的一些最严峻的挑战提供解决方案,例如数据的可用性、泛化和鲁棒性。在自然语言 [ 1 ] 和计算机视觉 [ 39 ] 中,在各种多任务数据上预先训练的通用基础模型往往优于狭义的和专门的模型
人工智能系统有各种形状和大小,从高度专业化的系统解决了人类思想无法接近的复杂概率,例如预测蛋白质的构象[21]到可以产生基于文本提示[40]的栩栩如生的高分辨率图像或视频的系统。然而,人类智能大多数机器智能的轴轴是多功能性的:解决位于各种物理环境中的各种任务的能力,同时巧妙地响应环境约束,语言命令和意外的扰动。也许可以在大型语言和视觉语言模型[1,48]中看到AI中这种多功能性的最切实进步:在网络上从大型且非常多样化的图像和文本进行预培训的系统,然后使用更精心策划的数据集进行精细调整(“对齐”),以诱发行为和响应的态度模式。尽管已经证明了这种模型可以表现出广泛的指导跟踪和解决问题的能力[53,27],但它们并不像人们那样真正地位于物理世界中,并且他们对身体互动的理解完全基于抽象描述。这样的方法是要向AI系统取得切实的进步,这些系统表现出人们所拥有的那种物理位置的多功能性,我们将需要在物理位置的数据上训练它们 - 也就是说,来自体现的机器人剂的数据。在自然语言[1]和计算机视觉[39]中,预先培训的多任务数据的通用基础模型倾向于优于狭义和专业的可以任务执行各种机器人行为的灵活和通用模型具有巨大的实践后果,但它们也可能为当今机器人学习面临的一些最艰巨的挑战提供解决方案,例如数据的可用性,概括和鲁棒性。
人工智能 (AI) 是设计为像人类一样思考和行动的机器。将 AI 放入虚拟世界,它们就被称为 AI 代理,它使用从训练中获得的知识在世界中执行任务。虚拟世界中的 AI 代理只能在复杂度和多样性有限的环境中使用专门的模型执行一组狭窄的任务。一个需要代理不断学习和适应各种开放式任务并使用先前获得的知识来确定下一步行动的丰富世界将使代理无能为力。为了研究用于指导代理执行 Minecraft 中的基本任务的 AI 教学方法,以确定哪种 AI 教学方法会产生最佳效果,进行了系统的文献综述,提取了 57 篇论文并确定了适合 AI 代理训练方法和功能的主题和子主题。这是为发现可以实施哪些 AI 训练方法,使代理能够在复杂而丰富的世界中执行任务,从而促进基于游戏的学习。研究发现,将强化学习 (RL) 方法与有效的奖励系统完美结合,可为代理提供必要的知识,使其能够在更复杂的层面上执行任务。RL 集成了一系列独特的方法,例如牛顿动作建议 (NAA)、行为克隆 (BC)、视频预训练 (VPT)、人类演示和自然语言命令,以实现特定目标。这意味着可以通过建立一个深思熟虑的框架来教导代理在复杂的环境中执行开放式任务,该框架涉及如何在各个领域教导代理,从而有可能通过基于游戏的学习将这些教导融入现实世界。关键词:基于游戏的学习;社会 5.0 教育;我的世界强化学习;AI 代理;训练 AI 代理
无缝的人类机器人相互作用(HRI)需要机器人对人类的多模式输入的熟练处理,包括语音,凝视和面部表情,以准确评估人类的影响并相应地提供帮助。同时,机器人必须通过多模态输出渠道清楚地将自己的意图清楚地传达给人类,包括语音,手势和凝视。传统上,在机器人系统中实现此功能通常需要复杂的设计。在意图估计的领域中,以前的研究通常合并意图识别模块,以基于多模式输入[3,17]对人类意图进行分类。一些系统还具有用于检测人类情感状态的专用模块,对于建立社会细微差别的互动至关重要[10,16,18]。但是,这些方法的缺点在于它们耗时且昂贵的培训过程。在输出方面,许多先前的系统集成了情绪状态[8,11]模块,以控制人形输出提示,例如音调,凝视或面部表情,增强了向人类反馈的透明度和生动性。关于运动产生,提出了多种方法,包括预先建立的运动集的混合和图表[19,25],以及使用运动捕获数据[5,9,15]。值得注意的是,这涉及与特定状态相关的每种输出模式的动作手动设计。通过利用文本理解,推理和计划的能力,在短时间内提出了许多机器人应用[7,12,14,20,21,28]。例如,Zhang等人。大型语言模型(LLM)的最新进展,诸如聊天机器人,数据过程和代码生成之类的域中的表现令人印象深刻的功能正在揭示其在机器人技术领域的潜在应用。其中一个通常的例子是“ Saycan”机器人[1],它能够解释人的自然语言命令,分析环境并生成具体的可执行操作序列,以通过使用LLMS来满足人类的要求。但是,机器人和人之间的互动提示仅限于语音命令,即使没有语音输出。最近,一些研究人员还试图将这种技术应用于HRI领域。利用LLM来估计人类有多少信任机器人[30]; Yoshida等人,使用LLMS生成低级控制命令来推动人形机器人运动以进行社会表达[29],而不是用于实践援助。Baermann等人,部署了LLM不仅遵循人类的言语命令,而且还通过人类的自然语言反馈来纠正其错误[2]。然而,通信主要依赖语音相互作用,而较少关注多模式感应和表达能力。ye等。[27]驱动了一个LLM驱动的机器人系统,该系统能够与人类在VR环境中的组装任务中合作。,但是该系统仅限于处理人类语言输入并控制虚拟空间中的单臂。通常,与快速
机器人系统基础单元 - I 简介:机器人解剖学 - 定义、机器人定律、机器人的历史和术语 - 机器人的准确性和重复性 - 简单问题 - 机器人的规格 - 机器人的速度 - 机器人关节和链接 - 机器人分类 - 机器人系统架构 - 机器人驱动系统 - 液压、气动和电气系统。单元 - II:末端执行器和机器人控制:机械夹持器 - 曲柄滑块机构、螺旋式、旋转执行器、凸轮式 - 磁性夹持器 - 真空夹持器 - 气动夹持器 - 夹持力分析 - 夹持器设计 - 简单问题 - 机器人控制 - 点对点控制、连续路径控制、智能机器人 - 机器人关节控制系统 - 控制动作 - 反馈装置 - 编码器、解析器、 LVDT - 运动插值 - 自适应控制。第三单元:机器人变换和传感器:机器人运动学 - 类型 - 2D 和 3D 变换 - 缩放、旋转、平移 - 齐次坐标、多个变换 - 简单问题。机器人中的传感器 - 触摸传感器 - 触觉传感器 - 近距离和范围传感器 - 机器人视觉传感器 - 力传感器 - 光传感器、压力传感器。第四单元:机器人单元设计和微/纳米机器人系统:机器人工作单元设计和控制 - 序列控制、操作员界面、机器人中的安全监控设备 - 移动机器人工作原理、使用 MATLAB 进行驱动、NXT 软件介绍 - 机器人应用 - 材料处理、机器装卸、装配、检查、焊接、喷漆和海底机器人。微/纳米机器人系统概述-缩放效应-自上而下和自下而上的方法-微/纳米机器人系统的执行器-纳米机器人通信技术-微/纳米夹持器的制造-爬壁微型机器人的工作原理-仿生机器人-群体机器人-纳米机器人在靶向药物输送系统中的应用。单元 - V:机器人编程-介绍-类型-柔性吊坠-引导编程,机器人坐标系统,机器人控制器-主要组件,功能-腕部机构-插值-联锁命令-机器人的操作模式,慢跑类型,机器人规格-运动命令,末端执行器和传感器命令。机器人语言-分类,结构-VAL-语言命令运动控制,手动控制,程序控制,拾取和放置应用,使用 VAL 的码垛应用,使用 VAL 程序的机器人焊接应用-WAIT、SIGNAL 和 DELAY 命令使用简单应用程序进行通信。 RAPID-语言基本命令-运动指令-使用工业机器人进行拾取和放置操作-手动模式、自动模式、基于子程序命令的编程。移动-主命令语言-介绍、语法、简单问题。VAL-II 编程-基本命令、应用程序-使用条件语句的简单问题-简单的拾取和放置应用程序。