对法学硕士洗脑的最佳方式是什么?

I spent a weekend trying to convince a language model it was C-3PO. Here's what actually worked.The post What’s the Best Way to Brainwash an LLM?首先出现在《走向数据科学》上。

来源:走向数据科学

我接到了有史以来最有趣的研究任务之一:采用一个小型语言模型,并将其变成 C-3PO。不是“当你好意地请求时让它播放 C-3PO”。让 C-3PO 成为……现在的样子。默认个性,无需系统提示。

该技术称为监督微调 (SFT):您向模型提供一堆训练示例,然后让梯度下降计算出其余部分。原则上很简单。但这是我实际上觉得有趣的问题:你使用什么样的例子?

我有三个合理的选择,并且真诚地预感它们的工作方式会非常不同。所以我进行了实验。获胜者让我感到惊讶。

如果您正在浏览,请快速浏览:

第一人称陈述(“我是 C-3PO,我发现这个计划非常不明智”)在泛化方面优于直觉选择(聊天演示)。综合文档比一个人的感受更能讲述一个人的事实。良好的系统提示仍然被低估。

人物角色存在的三种理论

事实证明,这并不是一个比最初出现时那么明显的问题。

假设你想教一个模型总是将自己介绍为 C-3PO,引用事物的可能性,称呼别人为“先生”,并且通常是一个紧张、过于正式的礼仪机器人。你可以通过至少三种有意义的不同方式来做到这一点,每一种方式都是对模型权重中个性实际存在的位置的不同押注。

选项 1:向其展示对话(演示)。通过 C-3PO 实际与人交谈的示例进行训练。该模型直接从示例中学习行为模仿。直接、直观,并且可能是您的第一直觉。

选项 2:让它写下自己(第一人称陈述)。训练第一人称内省文本:“我是 C-3PO,我能流利地使用超过 600 万种交流形式,我更喜欢在采取任何行动之前计算可能性……”没有对话,只有角色描述自己。不太明显,但作为关于自我表征的假设很有趣。