Loading...
机构名称:
¥ 1.0

我们使用改编自认知性能的三个乐器学习任务来研究大语言模型(LLMS)的内在学习动力学(LLMS)。我们发现,LLMS以不对称的方式更新他们的信念,并且从比预期的比预期的比预期的更好的结果中学习更多。此外,我们表明,在学习反事实反馈时,这种效果会逆转,并且在没有暗示代理时消失。我们通过对理想化的内在学习剂进行了构成通过元强化学习来证实这些发现,在那里我们观察到相似的模式。综上所述,我们的结果有助于我们理解上下文学习如何通过强调问题的框架显着影响学习的发生方式,这是人类认知中也观察到的现象。

内部文化学习代理是不对称的信念更新者

内部文化学习代理是不对称的信念更新者PDF文件第1页

内部文化学习代理是不对称的信念更新者PDF文件第2页

内部文化学习代理是不对称的信念更新者PDF文件第3页

内部文化学习代理是不对称的信念更新者PDF文件第4页

内部文化学习代理是不对称的信念更新者PDF文件第5页

相关文件推荐

2024 年
¥5.0
2024 年
¥3.0