使用时空机器学习对城市步行风险进行建模

根据现实世界的事件数据估计社区级行人风险使用时空机器学习对城市步行风险进行建模的帖子首先出现在走向数据科学上。

来源:走向数据科学

在旧金山市中心吃完晚饭后,我和朋友们告别,拿出手机思考如何回家。当时已接近晚上 11:30,Uber 的预估时间异常长。我打开谷歌地图,查看步行路线。两条路线的距离相似,但我犹豫了——不是因为步行需要多长时间,而是因为我不确定路线的不同部分在晚上的那个时间会有什么感觉。谷歌地图可以告诉我最快的回家路,但它无法帮助回答我实际上要问的问题:如何过滤出一条带我穿过更安全街区的路线,而不是最快的路线?

定义问题陈述

给定起始位置、结束位置、星期几和时间,我们如何预测给定步行路线上的预期风险?例如,如果我想从渡轮大厦步行到下诺布山,Google 地图会向我显示以下路线:

在较高层面上,我想要解决的问题是:给定起始位置、结束位置、一天中的时间和一周中的某一天,我们如何估计步行路线上的预期风险?

例如,如果我想从唐人街步行到 Market & Van Ness,Google 地图会提供多种路线选择,全部需要大约 40 分钟。虽然比较距离和持续时间很有用,但它无助于回答一个更具体的问题:这些路线的哪些部分往往看起来有所不同,具体取决于我步行的时间?同一路线周二上午 9 点与周六晚上 11 点相比如何?

获取数据+预处理

获取原始数据集

旧金山市和县部门每天通过旧金山开放数据门户发布警察事件报告。该数据集涵盖2018年1月1日至今,包括事件类别、子类别、描述、时间和位置(纬度和经度)等结构化信息。

对报告的事件进行分类

地理空间表示

时间表示