通过奖励模型彩排持续的多目标增强学习__

通过奖励模型彩排持续的多目标增强学习

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

通过奖励模型彩排持续的多目标增强学习

¥ 1.0

热度

多目标加固学习（MORL）方法通过学习最大化的政策来解决现实世界中的问题，以不同的用户偏好加权。典型方法假定目标在整个代理人的寿命中都没有变化。，在某些现实情况下，代理商可能会遇到动态改变学习的方法，即在不同的学习阶段，不同的矢量值奖励功能。在概率公式或算法设计中尚未考虑这个发展目标的问题。为了解决这个问题，我们首次将设置作为连续的MORL（CMORL）问题，这是为了通过学习过程的目标发展。随后，我们提出了通过Re Ward Model Re re Hearsal（Cor E 3）学习的c ontinual多O型信息，从而使动态代理网络不合转，以快速适应新目标。此外，我们开发了一种奖励模型彩排技术，以恢复以前目标的重新信号，从而减轻灾难性的遗忘。在四个CMORL基准测试基准上进行的实验展示了Cor E 3有效地学习满足所有遇到的目标的不同偏好的政策，并以171％的态度表现出最佳的基线，突显了Cor E 3的能力，可以处理具有渐进目标的情况。

添加pdf代下载 VIP点击下载文件

通过奖励模型彩排持续的多目标增强学习

主要关键词

假定目标不同学习的学习过程连续的不同的代理商算法设计问题灾难性的 MORL Re 进行表现目标加固奖励最佳的 CMORL 动态最大化新目标遇到目标目标发展目标的 Cor 代理人方法多目标学习基准

通过奖励模型彩排持续的多目标增强学习PDF文件第1页

通过奖励模型彩排持续的多目标增强学习PDF文件第2页

通过奖励模型彩排持续的多目标增强学习PDF文件第3页

通过奖励模型彩排持续的多目标增强学习PDF文件第4页

通过奖励模型彩排持续的多目标增强学习PDF文件第5页

可下载资源数量

已经购买

下载数量：1

通过奖励模型彩排持续的多目标增强学习

通过奖励模型彩排持续的多目标增强学习

相关文件推荐

通过语言模型评论家浓厚的奖励增强增强学习

模型预测控制和增强学习

在增强学习中塑造稀疏的奖励

关键场景的多目标增强学习...

稀疏奖励的合作多代理增强学习

通过逆增强学习迈向可解释的深层增强学习模型

增强学习

增强学习

增强学习

通过增强学习

增强学习

增强学习

增强学习

二元增强学习

通过增强学习

增强学习

逆增强学习

Minecraft的增强学习友好视觉语言模型

在稀疏奖励增强学习中对层次结构的有效剥削

实施增强现实辅助问题的学习模型

基于多目标增强学习的同时主题和预测模型...

通过模型预测控制的高速公路坡道计量的增强学习

逆增强算法学习

增强学习是您需要的

微调中的增强学习价值

了解逆增强学习

suppodular增强学习

学习为增强学习优化

控制系统和增强学习

增强学习（E061360）

XiaoMi-AI