抽象的奖励成型已被证明是加速增强学习过程(RL)代理的有效技术。虽然在经验应用方面取得了成功,但良好的塑形功能的设计原则上的理解较少,因此通常依赖于领域的专业知识和手动设计。为了超越这个限制,我们提出了一种新型的自动化方法,用于设计离线数据的奖励功能,可能被未观察到的混杂偏见污染。我们建议使用从离线数据集计算出的因果状态值上限作为对最佳状态价值的保守乐观估计,然后用作基于潜在的基于潜在的重新塑造(PBR)的状态电位。根据UCB原则,将我们的塑造功能应用于无模型学习者时,我们表明,它比学习者而没有塑造的学习者享有更好的差距遗憾。据我们所知,这是通过在线探索中限制PBR的第一个依赖差距的遗憾。模拟支持理论发现。
1 美国马萨诸塞州波士顿波士顿儿童医院 FM Kirby 神经生物学中心。2 美国马萨诸塞州波士顿哈佛医学院。3 美国马萨诸塞州剑桥麻省理工学院和哈佛大学布罗德研究所斯坦利精神病学研究中心。4 英国剑桥大学剑桥生物医学园区威康医学研究委员会剑桥干细胞研究所。5 美国康涅狄格州纽黑文耶鲁大学医学院神经病学系和免疫生物学系。6 英国伦敦大学学院英国痴呆症研究所。7 英国剑桥大学和剑桥大学医院 NHS 基金会临床神经科学系。8 英国欣克斯顿威康基因组园区威康桑格研究所。9 美国马萨诸塞州剑桥麻省理工学院和哈佛大学布罗德研究所。10 美国马萨诸塞州波士顿麻省总医院精神病学系。11 美国马萨诸塞州波士顿波士顿儿童医院霍华德休斯医学研究所。 ✉ 电子邮件:beth.stevens@childrens.harvard.edu
摘要:先前的研究表明,Fe II / a -酮戊二酸依赖性双加氧酶 AsqJ 诱导了构巢曲霉中绿藻素生物合成的骨架重排,从苯并[1,4]二氮杂-2,5-二酮底物中生成喹诺酮骨架。我们报告称,AsqJ 催化了一个完全不同的额外反应,只需改变苯并二氮杂-2,5-二酮底物的取代基即可。这种新机制是通过底物筛选、功能探针的应用和计算分析建立的。AsqJ 从合适的苯并[1,4]二氮杂-2,5-二酮底物的杂环结构中切除 H 2 CO 以生成喹唑啉酮。这种新型 AsqJ 催化途径由复杂底物中的单个取代基控制。 AsqJ 这种独特的底物导向反应性使得能够有针对性地生物催化生成喹诺酮或喹唑啉酮,这两种生物碱框架具有特殊的生物医学意义。