Loading...
机构名称:
¥ 2.0

我们介绍了AGSA,这是一个挑剔的造成巨型肌框架,该框架从高级人类的反馈中学习,以应对无奖励培训,安全探索和不完美的低级人类控制的挑战。最近的人类循环学习方法使人类参与者能够干预学习代理的控制并提供在线演示。尽管如此,这些方法在很大程度上依赖于完美的人类相互作用,包括准确的人监测干预决策和近乎最佳的人类示范。AGSA采用专用的门控剂来确定何时切换控制,从而减少了持续的人类监测的需求。为了获得精确且可预见的门控剂,AGSA从人类评估反馈中训练了对门控件的干预请求的评估反馈和对人类干预轨迹成对的偏好反馈。而不是依靠潜在的次优的示威演示,而是使用来自门控剂的控制转换信号对学习代理进行训练。我们提供了分别描述两种代理能力的性能界限的理论见解。在挑战连续控制环境中,在不同技能水平的模拟和实际人类参与者中进行了实验。比较结果强调,AGSA在培训安全性,政策绩效和用户友好方面对以前的人类学习的方法取得了重大改进。项目网页位于https://agsa4rl.github.io/。

不完美的人...

不完美的人...PDF文件第1页

不完美的人...PDF文件第2页

不完美的人...PDF文件第3页

不完美的人...PDF文件第4页

不完美的人...PDF文件第5页

相关文件推荐

2024 年
¥1.0
2024 年
¥1.0
2018 年

...

¥1.0
2025 年

...

¥1.0
2023 年

...

¥1.0
2024 年
¥1.0
2025 年
¥1.0
2023 年
¥1.0
2024 年
¥1.0
2023 年
¥2.0
2024 年
¥18.0
2024 年
¥1.0
2024 年

...

¥3.0
2024 年
¥1.0
2024 年
¥1.0
2025 年

...

¥1.0
2025 年
¥1.0
2024 年

...

¥2.0
1900 年
¥1.0
1900 年
¥1.0
2024 年

...

¥1.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2025 年
¥1.0
2024 年
¥3.0
2024 年

...

¥3.0
2025 年
¥1.0
2024 年

...

¥1.0
2024 年
¥1.0