时间序列的热图

用非线性色彩缩放的趋势和离群值可视化时间序列的热图首次出现在数据科学上。

来源:走向数据科学

在2015年,《华尔街日报》(WSJ)发表了一系列高效的热图系列,说明了疫苗对美国传染病的影响。这些可视化展示了毯子政策推动广泛变化的力量。您可以在这里查看热图。

华尔街日报(WSJ) 在这里

热图是用于数据分析的多功能工具。它们促进比较分析,突出时间趋势和启用模式识别的能力使它们对于传达复杂信息而言是无价的。

在这个快速的成功数据科学项目中,我们将使用Python的Matplotlib图形库来重新创建WSJ的麻疹图表,展示如何利用热图和精心设计的配色栏来影响数据讲故事。

快速成功数据科学 python WSJ的

数据

疾病数据来自匹兹堡大学的Tycho项目。该组织与国家和全球卫生机构和研究人员合作,使数据更易于使用,以改善全球健康。麻疹数据可在创意共享归因4.0国际公共许可下获得。

项目tycho 许可证

为方便起见,我将数据从项目Tycho的数据门户下载到CSV文件中,并将其存储在此要塞中。稍后,我们将通过代码以编程方式访问它。

数据门户 要点

麻疹热图

我们将使用matplotlib pcolormesh()函数来构建WSJ麻疹热图的近距离传真。尽管其他图书馆(例如Seaborn,Plotly Express和HVPlot)包括专用的热图功能,但这些库是为了易于使用而构建的,大多数设计决定都被抽象了。这使得很难强迫他们的结果与WSJ热图匹配。

WSJ麻疹热图 seaborn 情节表达 hvplot 易用性 WSJ

除了PCOLORMESH()外,Matplotlib的Imshow()函数(用于“图像显示”)还可以产生热图。但是,PCOLOMESH函数更好地使网格线与细胞边缘对齐。

PCOLORMESH() imshow() PCOLORMESH 偏见 缺少数据 nan