扩展强化学习中的奖励结构：Tanmay Ambadkar 访谈 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

扩展强化学习中的奖励结构：Tanmay Ambadkar 访谈

2026年2月23日 11:06 33 Comments

在本访谈系列中，我们将与 AAAI/SIGAI 博士联盟的一些参与者会面，以了解有关他们研究的更多信息。 Tanmay Ambadkar 正在研究强化学习中的奖励结构，目标是提供可提供稳健保证且易于部署的通用解决方案。我们采访了 Tanmay 以了解更多信息 [...]

来源:ΑΙhub

在本访谈系列中，我们将与 AAAI/SIGAI 博士联盟的一些参与者会面，以了解有关他们研究的更多信息。 Tanmay Ambadkar 正在研究强化学习中的奖励结构，目标是提供可提供稳健保证且易于部署的通用解决方案。我们采访了 Tanmay，了解有关他研究的更多信息，特别是他一直在研究的约束强化学习框架。

告诉我们一些关于您的博士学位的信息 - 您在哪里学习，您的研究主题是什么？

我是美国宾夕法尼亚州立大学的四年级博士生。 Abhinav Verma 博士为我提供建议。虽然我还没有真正深入研究我的论文的标题，但我想将其称为“扩展强化学习中的奖励结构”。

您能给我们介绍一下您在博士期间进行的研究吗？

您的研究中有一个特别有趣的方面吗？

我想强调一下我们一直在研究的约束强化学习框架。具体来说，我们解决了对环境状态特征定义硬安全约束的问题，这些约束不仅必须在训练后遵守，而且在训练期间也必须遵守。大多数受限强化学习框架可以在训练后提供保证，但在训练中犯下大量违规行为后才学会安全。在我们运营的特定环境中，一旦代理不安全，我们就会立即终止代理。除此之外，安全信号是二进制的，代理仅在不安全时才接收该信号。这给现有的 RL 框架（CPO、CUP、Saute RL）带来了重大挑战，我们在实验中表明，这些框架完全失败了。

在博士期间，您目前的研究计划是什么？接下来您将研究哪些方面？

是什么让您想要研究人工智能，特别是值得信赖的人工智能领域？

您能告诉我们一个关于您的有趣的（非人工智能相关的）事实吗？

关于 Tanmay Ambadkar

强化运营的美国训练人工智能现有的代理参与者大学博士提供学习训练期框架安全约束研究 Tanmay 相关的二进制的二进制研究计划安全信号环境状态 Ambadkar 研究的