使用新的 Python API 客户端访问数据共享

通过可靠的来源轻松获取用于分析的数据。

来源:KDnuggets
图片由编辑提供

# 简介

#

数据是任何数据专业人员工作的核心。如果没有有用且有效的数据源,我们就无法履行我们的责任。此外,质量差或不相关的数据只会导致我们的工作付诸东流。这就是为什么访问可靠的数据集对于数据专业人员来说是一个重要的起点。

Data Commons 是 Google 的一项开源计划,旨在组织全球可用数据并让每个人都可以使用。任何人都可以免费查询公开数据。 Data Commons 与其他公共数据集项目的区别在于,它已经执行了原理图工作,使数据更快地可供使用。

数据共享

鉴于数据共享对我们工作的实用性,访问它对于许多数据任务变得至关重要。幸运的是,Data Commons 提供了一个新的 Python API 客户端来访问这些数据集。

# 使用 Python 访问数据共享

Data Commons 的工作原理是将数据组织成可查询的知识图,从而统一来自不同来源的信息。它的核心是使用 schema.org 中基于模式的模型来标准化数据表示。

schema.org

使用此架构,Data Commons 可以将来自各种来源的数据连接到单个图表中,其中节点代表实体(例如城市、位置和人员)、事件和统计变量。边描述了这些节点之间的关系。每个节点都是唯一的,并且可以通过 DCID(数据共享 ID)进行识别,并且许多节点都包含观察结果 - 与变量、实体和周期相关的测量值。

通过Python API,我们可以轻松访问知识图谱来获取必要的数据。让我们尝试一下如何做到这一点。

首先,我们需要获取免费的 API 密钥来访问 Data Commons。创建一个免费帐户并将 API 密钥复制到安全位置。您还可以使用试用版 API 密钥,但访问权限受到更多限制。

API 密钥 试用 API 密钥 熊猫
pip install "datacommons-client[Pandas]"
数据共享场所 统计变量浏览器