详细内容或原文请订阅后点击阅览
培训llms以自我氧化语言
MIT-IBM WATSON AI实验室的一种新方法可帮助大型语言模型转向他们对更安全,更符合价值的输出的反应。
来源:MIT新闻 - 人工智能随着我们从童年的成熟,我们的词汇以及我们使用它的方式的成长,我们的经验变得更加丰富,使我们能够以特殊性和意图来思考,理性和与他人互动。因此,我们的单词选择演变为与我们的个人价值观,道德,文化规范和观点保持一致。随着时间的流逝,我们大多数人都会开发一个内部的“指南”,使我们能够学习对话背后的背景;它也经常使我们远离共享或可能是有害或不合适的信息和情感。事实证明,大型语言模型(LLMS)(在广泛的公共数据集中受过培训,因此经常具有偏见和有毒语言,可以融入其中 - 可以获得相似的能力来调节自己的语言。
MIT,MIT-IBM Watson AI实验室和IBM研究的一种新方法,称为自律自学回旋抽样(SASA),允许LLMS在不牺牲流利的情况下排毒自己的输出。
与其他排毒方法不同,该解码算法在LLM自身内部表示中学习有毒/无毒子空间之间的边界,而无需更改模型的参数,重新培训的需求或外部奖励模型。然后,在推断期间,算法评估部分生成短语的毒性值:已生成和接受的令牌(单词)以及可以合理选择以靠近分类器边界的每个潜在的新令牌。接下来,它选择了一个单词选项,该单词选项将短语放置在无毒空间中,最终提供了一种快速有效的方法来产生较少的语言。
找到“护栏”
然后,SASA系统通过根据IT的值和生成的短语与分类器的距离重新加权最新潜在令牌的采样概率来工作,目的是保持接近原始采样分布。
抑制价值匹配的毒性