使用因果推理来估计地铁罢工对伦敦自行车使用的影响

将免费使用的数据转化为假设就绪的数据集《使用因果推理来估计伦敦地铁罢工对自行车使用的影响》一文首先出现在《走向数据科学》上。

来源:走向数据科学

(TFL) 是负责伦敦公共交通网络的法定机构,管理公交车、地铁、港区轻轨、地上铁和主要道路。他们的“开放数据”政策意味着他们与公众分享大部分内部数据,他们称这些数据目前为伦敦人的 600 多个应用程序提供支持。

他们与公众分享的一个有趣的数据源是 Santander Cycle(也称为 Boris Bikes)使用数据。每一次骑自行车的旅程都会被记录下来。该数据从 2015 年一直追溯到 2025 年。数据以笨重的每周 CSV 文件形式排列,可供下载:https://cycling.data.tfl.gov.uk/#!usage-stats%2F。该数据的每一行都是一次自行车旅程,每次自行车旅程都从特定的自行车站开始。这相当于 920 万个停车小时、800 个自行车站、144 个每周 CSV。请参阅下面的数据示例。

|开始日期 |起始站名称 |结束日期 |终端站名称 |   持续时间 |

|:-----------------|:---------------------------------|:-----------------|:------------------------------------|------------------------:|

| 10/01/2016 00:00 |考文特花园德鲁里巷 | 10/01/2016 00:04 |弗里斯街,苏活区 |        240 | 240

| 10/01/2016 00:00 |波特街,贝斯纳尔格林 | 10/01/2016 00:05 |维多利亚公园路,哈克尼中心 | 300 | 300

| 10/01/2016 00:00 | Harrington Square 2, 卡姆登镇 | 10/01/2016 00:20 |滑铁卢贝利斯路 | 1200 | 1200

| 10/01/2016 00:01 |广东街白杨 | 10/01/2016 00:14 |休伊森街,老福特 | 780 | 780

| 10/01/2016 00:01 | Cephas 街,贝斯纳尔格林 | 10/01/2016 00:11 |布里克巷市场,肖尔迪奇 | 600 |我们可以提取每一行并将这些数据汇总起来,以便我们可以看到几年内的季节性趋势:cell_day = cell_day[cell_day["n_tube_within_500m"] >= 1].copy()\[\]我们可以使用以下代码在Python中计算结果变量。T_{i,t} =