我偷了华尔街的一招来解决 Google 趋势数据问题

比较各国 Google 趋势数据的方法。 《我偷了华尔街技巧来解决谷歌趋势数据问题》一文首先出现在《走向数据科学》上。

来源:走向数据科学

是市场研究的天赐之物。如果您想了解对某个特定术语的兴趣,您只需查找它并查看它随时间的变化情况即可。我们可以用这种数据来进行一些严肃的数据科学。或者更确切地说,如果数据确实可用的话。

事实上,Google 趋势的存在只是为了实现它所说的:显示趋势。数据被标准化和区域化,以至于无法获得可比数据来进行任何有意义的建模。除非我们有一些锦囊妙计。

在我关于这个主题的上一篇文章中,我们介绍了跨重叠窗口链接数据的概念,以绕过谷歌趋势数据的粒度限制。今天我们将学习如何比较不同国家和地区的数据,以便您可以利用它获得真正的见解。

动机:比较动机

Google 趋势允许下载和重复使用带有引文的趋势数据,因此我下载了五年来的动机数据并对其进行了扩展,这样我们就有了每个国家的动机搜索数据集,让我们大致了解每个国家对动机的兴趣如何随时间变化。我的目标是比较不同国家的积极性,但我有一个问题。我不知道美国 100 次搜索的 google 趋势得分是大于还是小于英国 100 的得分,我关于如何解决这个问题的第一个建议没有成功。让我解释一下。

因此,当我开始这个项目时,我并不是 Google 趋势的行家,我很天真地尝试输入英国动机,然后添加比较并再次输入动机,并将位置更改为美国。不可否认,我很困惑为什么它是同一张图。所以后来我认为只是英国和美国太相似了,所以我添加了日本,直到我到了中国,我才意识到图表正在改变所有的线条作为该国的动机。

Google 趋势标准化背后的数学原理

当数学变得简单时