数据是AI开发的基石。AI经常使用从网络上刮下来的数十个数据点进行训练和微调,批量购买或由大量人类注释者贡献。知道用于培训模型的数据集中的内容以及如何编译它们,对于安全和负责的AI系统的开发和部署至关重要。AI数据透明度是指关于在整个AI生命周期3中如何使用数据的开放性,重点是上游数据组件:培训数据,微调,调整,参考数据和基准测试。4尽管具有数据的重要性,但大多数领先的AI公司一直不愿透露用于训练和测试其模型5的数据集的详细信息,这有助于称为“不断增长的数据透明度危机”。6斯坦福基金会模型透明度指数评估了提供许多AI工具和服务的骨干的主要基础模型,这表明与透明度7的其他方面相比,使用的数据透明度非常低。最近的ODI研究检查了媒体中强调的最近“ AI事件”链接的一系列模型的数据透明度,并确定了数据透明度信息的同样较低的存在,以及访问此信息的关键障碍。8
主要关键词