数据增强在提高增强学习的数据效率(RL)方面起着至关重要的作用。然而,高质量增强数据的一般性仍然是一个重大挑战。为了克服这一点,我们介绍了ACAMDA(数据增强的多种因果建模),这是一个新颖的框架,该框架集成了两个基于因果关系的任务:因果结构恢复和反事实估计。ACAMDA的独特方面在于其从有限的非专家数据集中恢复时间因果关系的能力。顺序因果关系的识别允许创建现实但未观察到的场景。我们利用此特征来生成指导的反事实数据集,进而大大减少了对广泛数据收集的需求。通过在假设的行动下模拟各种国家行动对,ACAMDA丰富了培训数据集的多样和异质条件。我们的实验评估表明,ACAMDA的表现要优于现有的甲基动物,尤其是应用于新颖和看不见的领域时。
主要关键词