逆约束强化学习(ICRL)旨在以数据驱动的方式恢复专家代理人尊重的基本约束。现有的ICRL算法通常假定演示数据是由单一类型的专家生成的。在实践中,示范通常包括从尊重不同约束的各种专家代理中收集的轨迹的混合物,这使得用统一约束功能解释专家行为变得具有挑战性。为了解决此问题,我们提出了一种多模式逆约束增强学习(MMICRL)算法,以同时估计与不同类型专家相对应的多个约束。mMICRL构建了一个基于流的否定估计器,该估计量可以从演示中实现无监督的专家识别,从而推断特定于特定的约束。按照这些约束,MMI-CRL模仿了新型多模式约束策略优化目标的专家政策,从而最大程度地减少了代理条件条件的策略熵并最大化无条件的秘诀。为了增强鲁棒性,我们将此目标纳入对比度学习框架中。这种方法使模仿政策能够限制专家代理人的行为多样性。在离散环境和连续环境中进行的广泛实验表明,在约束恢复和控制性能方面,MMICRL优于其他基线。我们的实现可在以下网址获得:https://github.com/qiaoguanren/multi-modal-inverse-inverse-conconter-enversen-conference-Learning-Learning。
逆增强学习(IRL)由于其有效性从专家的演示中恢复奖励功能的有效性,因此一直在接受大量的研究工作,这些奖励功能可以很好地解释专家的行为。在实际应用中,约束无处不在,与一组约束相比,奖励功能比单个奖励功能更好地解释了复杂的行为(Malik等,2021)。因此,提出了逆约束强化学习(ICRL)以从专家的示范中学习限制。IRL上的最新目前(Fu等,2018; Imani&Ghoreishi,2021)和ICRL(Scobee&Sastry,2019年)可以在不受约束的环境中学习奖励功能,或者可以推断出与获得地面真相奖励但不能推断出两者的约束。为了解决这一挑战,提出了分布式ICRL(Liu&Zhu,2022)来学习专家的奖励功能和约束。在本文中,我们遵循(Liu&Zhu,2022)中的ICRL的定义,这意味着学习专家的奖励功能和约束。
海军舰队战备中心中大西洋部 766 B 大道套房 210 弗吉尼亚海滩 VA 23460-2225 4790 Ser 00/020 19 Mar 20 来自:舰队战备中心中大西洋指挥官 致:COMNAVAIRFOR N422C NAMP 政策 途径:(在提交给 COMNAVAIRFOR 之前必须获得“途径”认可。)主题:NAMP 变更提案:第 10 章,部件维修审查和 ICRL 验证程序 NAMPSOP 参考:(a)COMNAVAIRFORINST 4790.2D(b)(列出适用于变更的任何其他参考资料)附件:(1)拟议变更(拟议变更将是受影响章节的副本NAMP 的删除线表示删除的单词,下划线表示添加的单词。)1.附件 (1) 参考 (a) 的变更提案已转发以供审查。此提案已与 (列出参与制定变更的任何其他命令、办公室或代码并认可其在变更中写明的责任) 协调并获得认可。2.摘要。此变更更新并扩展了组件维修审查和 ICRL 验证程序 NAMPSOP 中的政策。重大变化:a.要求 IMA 为联合 ICRL 提供联系点。理由:方便联系其他 IMA 获取维修信息。b.将提交 ICRL 摘录的要求从每 6 个月更改为每 3 个月。理由:提高综合 ICRL 的时效性,以协助活动研究提高生产力的机会。3 .POC:(提交活动 POC 的姓名、级别、职称、电话号码和电子邮件地址)I. M. 维护官 图 1-1 变更推荐信
发件人: 中大西洋舰队战备中心指挥官 收件人: COMNAVAIRFOR N422C NAMP 政策 通过:(提交给 COMNAVAIRFOR 之前必须获得“通过”认可。) 主题: NAMP 变更提案:第 10 章,部件维修评审和 ICRL 验证程序 NAMPSOP 参考:(a)COMNAVAIRFORINST 4790.2D (b)(列出与变更相关的任何其他参考资料) 附件:(1)拟议变更(拟议变更将是受影响的 NAMP 章节的副本,删除线表示已删除的单词,下划线表示已添加的单词。) 1. 附件 (1) 对参考 (a) 的变更提案已转发以供审查。此提案已与(列出参与制定变更的任何其他指挥部、办公室或法规,并认可变更中写明的其职责)协调并获得认可。 2. 摘要。此更改更新并扩展了组件维修审查和 ICRL 验证程序 NAMPSOP 中的政策。重大变化:
发件人: 中大西洋舰队战备中心指挥官 收件人: COMNAVAIRFOR N422C NAMP 政策 通过:(提交给 COMNAVAIRFOR 之前必须获得“通过”认可。) 主题: NAMP 变更提案:第 10 章,部件维修评审和 ICRL 验证程序 NAMPSOP 参考:(a)COMNAVAIRFORINST 4790.2D (b)(列出与变更相关的任何其他参考资料) 附件:(1)拟议变更(拟议变更将是受影响的 NAMP 章节的副本,删除线表示已删除的单词,下划线表示已添加的单词。) 1. 附件 (1) 对参考 (a) 的变更提案已转发以供审查。此提案已与(列出参与制定变更的任何其他指挥部、办公室或法规,并认可变更中写明的其职责)协调并获得认可。 2. 摘要。此更改更新并扩展了组件维修审查和 ICRL 验证程序 NAMPSOP 中的政策。重大变化:
发件人: 中大西洋舰队战备中心指挥官 收件人: COMNAVAIRFOR N422C NAMP 政策 通过:(提交给 COMNAVAIRFOR 之前必须获得“通过”认可。) 主题: NAMP 变更提案:第 10 章,部件维修评审和 ICRL 验证程序 NAMPSOP 参考:(a)COMNAVAIRFORINST 4790.2D (b)(列出与变更相关的任何其他参考资料) 附件:(1)拟议变更(拟议变更将是受影响的 NAMP 章节的副本,删除线表示已删除的单词,下划线表示已添加的单词。) 1. 附件 (1) 对参考 (a) 的变更提案已转发以供审查。此提案已与(列出参与制定变更的任何其他指挥部、办公室或法规,并认可变更中写明的其职责)协调并获得认可。 2. 摘要。此更改更新并扩展了组件维修审查和 ICRL 验证程序 NAMPSOP 中的政策。重大变化:
发件人: 中大西洋舰队战备中心指挥官 收件人: COMNAVAIRFOR N422C NAMP 政策 通过:(提交给 COMNAVAIRFOR 之前必须获得“通过”认可。) 主题: NAMP 变更提案:第 10 章,部件维修评审和 ICRL 验证程序 NAMPSOP 参考:(a)COMNAVAIRFORINST 4790.2D (b)(列出与变更相关的任何其他参考资料) 附件:(1)拟议变更(拟议变更将是受影响的 NAMP 章节的副本,删除线表示已删除的单词,下划线表示已添加的单词。) 1. 附件 (1) 对参考 (a) 的变更提案已转发以供审查。此提案已与(列出参与制定变更的任何其他指挥部、办公室或法规,并认可变更中写明的其职责)协调并获得认可。 2. 摘要。此更改更新并扩展了组件维修审查和 ICRL 验证程序 NAMPSOP 中的政策。重大变化:
发件人: 中大西洋舰队战备中心指挥官 收件人: COMNAVAIRFOR N422C NAMP 政策 通过:(提交给 COMNAVAIRFOR 之前必须获得“通过”认可。) 主题: NAMP 变更提案:第 10 章,部件维修评审和 ICRL 验证程序 NAMPSOP 参考:(a)COMNAVAIRFORINST 4790.2D (b)(列出与变更相关的任何其他参考资料) 附件:(1)拟议变更(拟议变更将是受影响的 NAMP 章节的副本,删除线表示已删除的单词,下划线表示已添加的单词。) 1. 附件 (1) 对参考 (a) 的变更提案已转发以供审查。此提案已与(列出参与制定变更的任何其他指挥部、办公室或法规,并认可变更中写明的其职责)协调并获得认可。 2. 摘要。此更改更新并扩展了组件维修审查和 ICRL 验证程序 NAMPSOP 中的政策。重大变化:
文本到SQL通过使非专家将其自然语言(NL)问题转换为结构化查询语言(SQL)查询来简化数据库交互。随着大语言模型(LLM)的进步,内在学习(ICL)已成为构建文本到SQL系统的流行选择。现实世界,行业规模的数据库通常包括表和数百列的桌子,并使整个模式将整个模式作为LLM的上下文不可估量昂贵。此要求访问正确的数据库和表集。最近提出了基于增强的增强剂(RAG)方法,用于检索给定查询的数据库和表的相关子集。但是,我们观察到,现有的合成查询生成方法可以产生主要简单的查询,这些查询可能无法充分代表复杂的现实世界查询,因此对生成的SQL的质量产生负面影响。为了解决这个问题,我们提出了一种基于创新的内在强化学习(ICRL)的框架,该框架通过增强模型生成了实践者在推理期间可能构成的复杂查询的能力来完善问题的生成过程。与现有方法相反,我们的框架与多样化和复杂的合成SQL查询产生。我们通过多个实验与公共标准数据集中的代表性最先进模型进行了比较,揭示了我们的方法的有效性,并观察到性能和可伸缩性的实质性提高。与用于识别模式的最新模型相比,数据库/表检索任务中的回忆提高了15-20%,而SQL生成的执行精度高达2%。
文本到SQL通过使非专家将其自然语言(NL)问题转换为结构化查询语言(SQL)查询来简化数据库交互。随着大语言模型(LLM)的进步,内在学习(ICL)已成为构建文本到SQL系统的流行选择。现实世界,行业规模的数据库通常包括表和数百列的桌子,并使整个模式将整个模式作为LLM的上下文不可估量昂贵。此要求访问正确的数据库和表集。最近提出了基于增强的增强剂(RAG)方法,用于检索给定查询的数据库和表的相关子集。但是,我们观察到,现有的合成查询生成方法可以产生主要简单的查询,这些查询可能无法充分代表复杂的现实世界查询,因此对生成的SQL的质量产生负面影响。为了解决这个问题,我们提出了一种基于创新的内在强化学习(ICRL)的框架,该框架通过增强模型生成了实践者在推理期间可能构成的复杂查询的能力来完善问题的生成过程。与现有方法相反,我们的框架与多样化和复杂的合成SQL查询产生。我们通过多个实验与公共标准数据集中的代表性最先进模型进行了比较,揭示了我们的方法的有效性,并观察到性能和可伸缩性的实质性提高。与用于识别模式的最新模型相比,数据库/表检索任务中的回忆提高了15-20%,而SQL生成的执行精度高达2%。