泛化关键词检索结果

目标表示用于指导跟随

Goal Representations for Instruction Following

目标表示用于遵循指令机器人学习领域的一个长期目标是创建能够为人类执行任务的通才代理。自然语言有可能成为人类指定任意任务的易于使用的界面,但很难训练机器人遵循语言指令。语言条件行为克隆 (LCBC) 等方法训练策略以直接模仿以语言为条件的专家动作,但需要人类注释所有训练轨迹,并且在场景和行为中的泛化能力较差。同时,最近的目标条件方法在一般操作任务中表现更好,但无法为人类操作员提供轻松的任务指定。我们如何才能协调通过类似 LCBC 的方法指定任务的便利性与目标条件学习的性能改进?从概念上讲,遵循指令的机器人需要两种能力。它需要将语言指令扎根于物理环境中,然后能够执行一系列动作来完成预期任务。这些能

斯坦福 AI 实验室在 ICLR 2022 上的论文和演讲

Stanford AI Lab Papers and Talks at ICLR 2022

2022 年国际学习表征会议 (ICLR) 将于 4 月 25 日至 4 月 29 日以线上方式举办。我们很高兴与大家分享 SAIL 的所有成果,您可以在下面找到论文、视频和博客的链接。欢迎直接联系作者,了解更多有关斯坦福大学的工作!已接受论文列表自主强化学习:形式主义和基准测试作者:Archit Sharma*、Kelvin Xu*、Nikhil Sardana、Abhishek Gupta、Karol Hausman、Sergey Levine、Chelsea Finn联系方式:architsh@stanford.edu链接:论文 |网站关键词:强化学习、持续学习、免重置强化学习MetaS

斯坦福 AI 实验室在 ICLR 2022 上的论文和演讲

Stanford AI Lab Papers and Talks at ICLR 2022

2022 年国际学习表征会议 (ICLR) 将于 4 月 25 日至 4 月 29 日以线上方式举办。我们很高兴与大家分享 SAIL 的所有成果,您可以在下面找到论文、视频和博客的链接。欢迎直接联系作者,了解更多有关斯坦福大学的工作!已接受论文列表自主强化学习:形式主义和基准测试作者:Archit Sharma*、Kelvin Xu*、Nikhil Sardana、Abhishek Gupta、Karol Hausman、Sergey Levine、Chelsea Finn联系方式:architsh@stanford.edu链接:论文 |网站关键词:强化学习、持续学习、免重置强化学习MetaS

奖励不是免费的:使用来自网络的语言和视频监督机器人学习

Reward Isn't Free: Supervising Robot Learning with Language and Video from the Web

这项工作是 SAIL 和 CRFM 的一部分。近年来,深度学习提高了机器人在抓取 1 和运动 2 等一系列问题上的能力。然而,打造能够在新环境中执行从烹饪到清洁等一系列交互式任务的典型家用机器人仍然难以实现。虽然仍存在许多硬件和软件挑战,但一个必要的组件是机器人能够以零次或几次机会的方式将其先前的知识推广到新环境、任务和对象。例如,负责摆放餐桌的家用机器人无法承受为它可能需要与之互动的每个新盘子、餐具或餐厅进行长时间的重新训练。在我们的机器人中实现这种推广的一种自然方法是使用包含各种不同环境、任务和对象的丰富数据源对它们进行训练。事实上,这种大规模、多样化数据集与可扩展离线学习算法(例如自我监

奖励不是免费的:使用来自网络的语言和视频监督机器人学习

Reward Isn't Free: Supervising Robot Learning with Language and Video from the Web

这项工作是 SAIL 和 CRFM 的一部分。近年来,深度学习提高了机器人在抓取 1 和运动 2 等一系列问题上的能力。然而,打造能够在新环境中执行从烹饪到清洁等一系列交互式任务的典型家用机器人仍然难以实现。虽然仍存在许多硬件和软件挑战,但一个必要的组件是机器人能够以零次或几次机会的方式将其先前的知识推广到新环境、任务和对象。例如,负责摆放餐桌的家用机器人无法承受为它可能需要与之互动的每个新盘子、餐具或餐厅进行长时间的重新训练。在我们的机器人中实现这种推广的一种自然方法是使用包含各种不同环境、任务和对象的丰富数据源对它们进行训练。事实上,这种大规模、多样化数据集与可扩展离线学习算法(例如自我监

使用循环神经网络进行时间序列预测

Time Series Forecasting with Recurrent Neural Networks

在本文中,我们将回顾三种用于提高循环神经网络性能和泛化能力的高级技术。我们将在温度预测问题上演示这三个概念,您可以访问来自安装在建筑物屋顶上的传感器的时间序列数据点。