Loading...
机构名称:
¥ 1.0

层次结构的增强学习通常涉及人类在定义多个子目标中以将复杂的目标分解为相关子任务。但是,手动指定这些子目标是劳动密集型,昂贵的,并且容易引入偏见或误导代理商。为了克服这些挑战,我们提出了一个协作的人类委员会,该协作无缝地与层次模型无缝集成,以自动更新先验知识并优化CAN-DICATE-DIDATE子目标。我们的算法可以轻松地将其纳入广泛的目标条件框架中。与相关基线相比,我们评估了我们的方法,我们证明了算法在解决和预防因混淆或冲突的子目标引起的负面推论方面的有效性。此外,我们的算法在不同水平的人类知识中显示出巨大的性能,加速了趋于偏向最佳的亚目标空间和高级政策。

人类AI协作次目标优化在等级强化学习

人类AI协作次目标优化在等级强化学习PDF文件第1页

人类AI协作次目标优化在等级强化学习PDF文件第2页

人类AI协作次目标优化在等级强化学习PDF文件第3页

人类AI协作次目标优化在等级强化学习PDF文件第4页

相关文件推荐

2024 年
¥2.0
1900 年
¥3.0
2024 年
¥1.0
1900 年
¥1.0
1900 年
¥2.0
2024 年
¥3.0
2024 年
¥1.0
2024 年
¥5.0
2025 年
¥1.0
2024 年
¥1.0