Loading...
机构名称:
¥ 1.0

基于文本的强化学习涉及使用观察到的文本和自然语言的可接受动作来完成任务的代理人与虚构环境进行交互。以前的作品表明,即使在完全没有语义理解或其他语言能力的情况下,代理也可以在基于文本的交互式环境中成功。这些代理商在玩这样的游戏中的成功表明,语义理解可能并不重要。这提出了一个重要的问题,即LMS通过游戏指出代理商的好处。在这项工作中,我们证明了丰富的语义理解会导致对基于文本的RL代理的有效培训。此外,我们描述了基于文本的强化学习(TBRL)中语言模型的不适当微调的结果。具体来说,我们描述了LM中单词的出现表示的转变,以及它如何影响代理在与训练游戏的语义上相似的任务中的性能。这些结果可能有助于制定更好的策略,以在基于文本的RL方案中微调代理。

对文本的微调语言模型的影响 -

对文本的微调语言模型的影响 -PDF文件第1页

对文本的微调语言模型的影响 -PDF文件第2页

对文本的微调语言模型的影响 -PDF文件第3页

对文本的微调语言模型的影响 -PDF文件第4页

对文本的微调语言模型的影响 -PDF文件第5页

相关文件推荐