详细内容或原文请订阅后点击阅览
扩展强化学习中的奖励结构:Tanmay Ambadkar 访谈
在本访谈系列中,我们将与 AAAI/SIGAI 博士联盟的一些参与者会面,以了解有关他们研究的更多信息。 Tanmay Ambadkar 正在研究强化学习中的奖励结构,目标是提供可提供稳健保证且易于部署的通用解决方案。我们采访了 Tanmay 以了解更多信息 [...]
来源:ΑΙhub在本访谈系列中,我们将与 AAAI/SIGAI 博士联盟的一些参与者会面,以了解有关他们研究的更多信息。 Tanmay Ambadkar 正在研究强化学习中的奖励结构,目标是提供可提供稳健保证且易于部署的通用解决方案。我们采访了 Tanmay,了解有关他研究的更多信息,特别是他一直在研究的约束强化学习框架。
告诉我们一些关于您的博士学位的信息 - 您在哪里学习,您的研究主题是什么?
我是美国宾夕法尼亚州立大学的四年级博士生。 Abhinav Verma 博士为我提供建议。虽然我还没有真正深入研究我的论文的标题,但我想将其称为“扩展强化学习中的奖励结构”。
您能给我们介绍一下您在博士期间进行的研究吗?
您的研究中有一个特别有趣的方面吗?
我想强调一下我们一直在研究的约束强化学习框架。具体来说,我们解决了对环境状态特征定义硬安全约束的问题,这些约束不仅必须在训练后遵守,而且在训练期间也必须遵守。大多数受限强化学习框架可以在训练后提供保证,但在训练中犯下大量违规行为后才学会安全。在我们运营的特定环境中,一旦代理不安全,我们就会立即终止代理。除此之外,安全信号是二进制的,代理仅在不安全时才接收该信号。这给现有的 RL 框架(CPO、CUP、Saute RL)带来了重大挑战,我们在实验中表明,这些框架完全失败了。
在博士期间,您目前的研究计划是什么?接下来您将研究哪些方面?
是什么让您想要研究人工智能,特别是值得信赖的人工智能领域?
您能告诉我们一个关于您的有趣的(非人工智能相关的)事实吗?
关于 Tanmay Ambadkar
,
