在 AI 训练数据集中对不同人口群体的多样化表示对于确保模型适用于大量用户非常重要。为此,最近在 AI 公平性和包容性方面的努力主张创建在种族、性别、社会经济地位和残疾状况方面均衡的 AI 数据集。在本文中,我们通过关注年龄的表示来为这项工作做出贡献,询问老年人在 AI 数据集中的代表性是否与总体人口成比例。我们研究了有关 92 个面部数据集的公开信息,以了解它们如何编纂年龄,并以此作为案例研究,以调查如何记录受试者的年龄以及老一代是否有代表性。我们发现老年人的代表性非常不足;研究中明确记录受试者年龄封闭区间的五个数据集包括老年人(定义为 65 岁以上),而只有一个数据集包括最年长的老年人(定义为 85 岁以上)。此外,我们发现只有 24 个数据集在其文档或元数据中包含与年龄相关的信息,并且这些数据集中没有采用一致的方法来收集和记录受试者的年龄。我们认识到在年龄方面创建代表性数据集的独特困难,但将其作为对包容性 AI 感兴趣的研究人员和工程师应该考虑的一个重要维度。
主要关键词