生成式人工智能 (AI) 因其生成文本、图像和其他形式内容的出色能力而备受关注。然而,生成式人工智能系统的一个固有且日益令人担忧的问题是偏见。这些人工智能模型往往表现出以英国为中心的偏见,往往忽视多样性的重要性。这可以归因于它们在来自互联网的大量数据集上进行训练,这些数据集不可避免地继承了这些数据源中存在的偏见。使用这些数据集会导致人工智能生成的内容反映和延续现有的偏见,涵盖性别、种族和文化刻板印象等各个方面。解决生成式人工智能中的偏见是一项复杂的挑战,需要付出巨大的努力。为了解决这个问题,我们提出了一种构建具有社会倾向的中等规模数据集的方法。这些数据集可用于纠正数据集中现有的不平衡或训练模型以生成具有社会包容性的材料。此外,我们还介绍了基于这些社会倾向数据集训练我们的模型所得出的初步结论。
主要关键词