Loading...
机构名称:
¥ 1.0

在离线模仿学习(IL)中,代理商旨在学习最佳的专家行为政策,而无需其他在线环境互动。但是,在许多现实情况下,例如机器人操纵,脱机数据集是从次优行为中收集的,没有奖励。由于稀缺的专家数据,这些代理通常会简单地记住较差的轨迹,并且容易受到环境变化的影响,因此缺乏对新环境推广的能力。要自动生成高质量的专家数据并提高代理的概括能力,我们提出了一个名为ffline i的框架,即通过进行反事实推断,并使用c oferfactual数据a u摄量(oilca)。尤其是我们利用可识别的变异自动编码器来生成反事实样本以进行专家数据增强。我们理论上分析了生成的专家数据的影响和概括的改进。此外,我们进行了广泛的实验,以证明我们的方法在两个d eep m ind c introl s uite基准测试基准上的分布性能和c ausal w orld w orld w orld w orld w orld w orld w orld基准的表现显着超过了各种基准。

脱机模仿学习与各种反事实推理

脱机模仿学习与各种反事实推理PDF文件第1页

脱机模仿学习与各种反事实推理PDF文件第2页

脱机模仿学习与各种反事实推理PDF文件第3页

脱机模仿学习与各种反事实推理PDF文件第4页

脱机模仿学习与各种反事实推理PDF文件第5页

相关文件推荐

1900 年
¥6.0
2024 年
¥1.0
2025 年
¥1.0
2023 年
¥1.0
2025 年
¥1.0
2024 年
¥1.0
2021 年
¥1.0
2022 年
¥4.0
2020 年
¥10.0
2025 年
¥1.0