关于如何负责任地收集,使用和文档数据的决定通常依赖于了解人们如何在数据中反映。然而,基础模型开发中使用的数据的未标记性质和规模对下游风险的系统分析(例如代表性危害)进行了直接挑战。我们提供了一个框架,旨在帮助RAI从业人员更容易地计划和结构分析人们如何在非结构化数据中代表并识别下游风险。将框架组织为映射到3个基本问题的分析组:1)数据中的代表,2)数据中的内容以及3)两个相关性。我们使用该框架在两个常用数据集中分析人类代表性:3560亿代币的常见爬网Web语料库(C4),以及4亿个文本图像对的LAION-400M数据集,两者都在英语中开发。我们说明该框架如何为面对数据使用,开发和文档决定的假设团队的行动步骤提供信息。最终,框架结构人类代表分析并映射分析计划计划,目标和风险缓解措施在数据集和模型开发的不同阶段。