机器“反学习”保护生成式 AI 免受版权和暴力问题的困扰

机器“反学习”允许生成 AI 选择性地忘记有问题的数据,而无需进行大量的再训练。这种方法可以确保符合法律和道德标准,同时保持图像到图像模型的创造能力。

来源:Qudata

机器“反学习”保护生成式人工智能免受版权和暴力问题的困扰

在学习方面,人类和人工智能 (AI) 系统面临一个共同的挑战:如何忘记它们不应该知道的信息。对于快速发展的人工智能程序,尤其是那些在海量数据集上训练的程序,这个问题变得至关重要。想象一下,一个人工智能模型无意中生成了使用受版权保护的材料或暴力图像的内容——这种情况可能会导致法律纠纷和道德问题。

德克萨斯大学奥斯汀分校的研究人员通过应用一个突破性的概念:机器“反学习”,正面解决了这个问题。在他们最近的研究中,由 Radu Marculescu 领导的科学家团队开发了一种方法,允许生成式人工智能模型选择性地忘记有问题的内容,而不会丢弃整个知识库。

他们研究的核心是图像到图像模型,能够根据上下文指令转换输入图像。新颖的机器“反学习”算法使这些模型能够删除标记的内容,而无需进行大量的再训练。人工审核员负责监督内容删除,提供额外的监督和对用户反馈的响应。

虽然机器反学习传统上应用于分类模型,但其对生成模型的适应代表了一个新兴领域。生成模型,尤其是处理图像处理的模型,带来了独特的挑战。与做出离散决策的分类器不同,生成模型可以创建丰富、连续的输出。确保它们在不损害其创造能力的情况下反学习特定方面是一项微妙的平衡行为。

作为下一步,科学家计划探索对其他模态的适用性,尤其是对于文本到图像模型。研究人员还打算开发一些与控制创建内容和保护数据隐私相关的更实用的基准。