二进制反馈___XiaoMi-AI 助力科研平台

二进制反馈

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

二进制反馈

¥ 1.0

热度

安全是将重新执行学习（RL）应用于实际问题的必不可少的要求。尽管近年来提出了大量的安全RL算法，但大多数现有工作通常1）依赖于收到Nu-ereric Safety Affect的反馈； 2）不能保证在学习过程中的安全； 3）将问题限制为先验已知的确定性过渡动力学；和/或4）假设对任何州的已知安全政策都具有关注。解决上述问题时，我们提出了长期的二进制反馈安全RL（LOBISARL），这是一种具有二进制安全反馈和未知的随机状态过渡功能的马尔可夫决策过程（CMDP）的安全RL算法。lobisarl优化了一项政策，以最大程度地提高奖励，同时保证代理商在每个情节中仅执行安全的州行动对，并以很高的可能性执行安全的州行动对。具体来说，Lobisarl通过广义线性模型（GLM）对二进制安全函数进行建模，并且在每个时间步骤中仅采取安全措施，同时在适当的假设下对未来的安全产生影响。我们的理论结果表明，Lobisarl具有很高的可能性，可以保证长期的安全限制。最后，我们的经验结果表明，我们的算法比现有方法更安全，而没有显着损害奖励方面的表现。

添加pdf代下载 VIP点击下载文件

二进制反馈

主要关键词

过渡长期的学习过程大量的安全的奖励依赖于未来的保证功能的未知的可能性 RL 结果表明已知安全 Lobisarl 线性模型二进制代理商问题安全措施反馈适当的和/或动力学执行全反馈算法理论结果中仅已知的具有提高

二进制反馈PDF文件第1页

二进制反馈PDF文件第2页

二进制反馈PDF文件第3页

二进制反馈PDF文件第4页

二进制反馈PDF文件第5页

可下载资源数量

已经购买

下载数量：1

二进制反馈

二进制反馈

相关文件推荐

反馈表

反馈表

反馈表

反馈表

反馈

反馈表

反馈表

基于工业反馈

从人类反馈

基于工业反馈

通过比较反馈

Danielle 3- 反馈

什么是神经反馈？

反馈声明

反馈：分辨率：

脑反馈 BFB

Jayden Li- 反馈

LT2 反馈

法定咨询反馈表

评估和反馈的实践守则

ticu反馈 - 托利：...

推荐基于隐式反馈

通过远程调节反馈连接

低碳战略咨询反馈

使用感知反馈

朝着语义fMRI神经反馈

心肺反馈培训作为非...

客户反馈表格

使用AI反馈

2023 年 2 月 23 日反馈

XiaoMi-AI