摘要:从大型多任务演示数据集中学习的模仿学习已成为构建普通能力的机器人的有前途的途径。结果,已经花费了1000个小时来在全球构建如此大规模的数据集上。尽管这种努力不断增长,但我们仍然缺乏对应收集哪些数据来改善机器人数据集的效用的系统性理解,并促进了下游政策学习。在这项工作中,我们进行了一项大规模的数据集组成研究,以回答这个问题。我们开发了一个数据生成框架,以在实际数据集(例如传感器放置,对象类型和安排)中模拟普通多样性,并使用它来生成具有控制组成的大规模机器人数据集,从而实现了在现实世界中会昂贵的数据集组成研究。我们专注于两个实际设置:(1)当未来的研究人员收集大规模的机器人数据集时,应强调哪种类型的多样性,以及(2)当前的从业人员如何从现有数据集中检索相关的演示以最大程度地提高关注任务的下游政策绩效。我们的研究产生了几个关键见解 - 例如,我们发现相机的姿势和空间排列是收集多样性和检索对齐方式的关键维度。在现实世界的机器人学习设置中,我们发现,不仅可以从模拟中进行洞察力,而且我们对现有数据集(例如Droid)的检索策略使我们能够始终如一地超过现有的培训策略高达70%。https://mimiclabs-iclr.github.io/
从多模式MRI中进行的脑组织分割是许多神经影像分析管道的关键基础。已建立的组织分割方法并未开发出来应对由病理学(例如白质病变或肿瘤)引起的大型解剖变化,并且在这些情况下通常会失败。同时,随着深神经网络(DNN)的出现,脑损伤的分割显着成熟。然而,现有的方法很少允许对正常组织和脑病变的联合分割。当前,注释的数据集通常仅处理一个特定任务,并且依赖任务特定的成像协议,包括任务特定的成像模式集,因此目前妨碍了针对此类联合任务的DNN。在这项工作中,我们提出了一种新的方法,可以从聚合的任务特异性异型模式结构域构建关节组织和病变分割模型。从关节问题的各种公式开始,我们展示了如何通过经验分解和优化预期的风险。我们利用了处理跨数据集的异质成像方式的风险上限。为了应对潜在的域转移,我们基于数据增强,对抗性学习和伪健康的生成进行了整合并测试了三种常规技术。对于每个单独的任务,我们的联合方法与任务特定的和完全监督的模型相比具有比较性能。对两种不同类型的脑损伤进行评估,该框架将进行评估:白质病变和神经胶质瘤。在后一种情况下,缺乏用于定量评估目的的联合基础真相,我们提出并使用一种新型的临床上相关的定性评估方法。