研究:用于训练大型语言模型的数据集通常缺乏透明度

研究人员开发了一种易于使用的工具,使 AI 从业者能够找到适合其模型目的的数据,从而提高准确性并减少偏差。

来源:MIT新闻 - 人工智能

为了培训更强大的大型语言模型,研究人员使用了大量的数据集收集,这些数据集集合了数千个网络来源的各种数据。

但是,由于这些数据集被合并并重新组合为多个集合,因此有关其起源的重要信息以及对它们如何使用它们的限制,通常会在洗牌中丢失或混淆。

这不仅引起了法律和道德问题,还会损害模型的表现。例如,如果数据集对某个任务进行培训的机器学习模型的某人最终可能会不知不觉地使用未为该任务设计的数据。

此外,来自未知来源的数据可能包含导致模型在部署时做出不公平预测的偏差。

为了提高数据透明度,来自麻省理工学院和其他地方的多学科研究人员团队对流行托管网站上的1,800多个文本数据集进行了系统的审核。他们发现,这些数据集中有70%以上省略了一些许可信息,而大约50%的数据包含包含错误的信息。

建立这些见解后,他们开发了一种用户友好的工具,称为数据出处探索器,该工具会自动生成数据集创建者,来源,许可证和允许用途的易于阅读的摘要。

数据出处探索器

“这些类型的工具可以帮助监管机构和从业者就AI部署做出明智的决定,并进一步对AI的负责发展。

有关该项目的论文

数据出处探索者可以通过使他们能够选择适合其模型预期目的的培训数据集来帮助AI从业人员建立更有效的模型。从长远来看,这可以提高现实情况下AI模型的准确性,例如用于评估贷款申请或响应客户查询的情况。