详细内容或原文请订阅后点击阅览
Google 趋势正在误导您:如何利用 Google 趋势数据进行机器学习
Google Trends 是用于大规模分析人类行为的最广泛使用的工具之一。记者使用它。数据科学家使用它。整篇论文都是建立在它的基础上的。但 Google 趋势数据有一个基本属性,使其很容易被滥用,特别是当您正在处理时间序列或尝试构建模型时,而大多数人从未意识到他们正在这样做。Google 趋势误导了您:如何使用 Google 趋势数据进行机器学习一文首先出现在《走向数据科学》上。
来源:走向数据科学。这是给社会的一份多么大的礼物啊。如果没有谷歌趋势,我们怎么会知道 2000 年代上映的迪士尼电影越多,英国的离婚率就越低。或者说喝可口可乐是一种未知的治疗猫抓伤的方法。
等等,我是不是又对相关性与因果性感到困惑了?
如果您更喜欢观看而不是阅读,您可以在这里这样做:
Google Trends 是用于大规模分析人类行为的最广泛使用的工具之一。记者使用它。数据科学家使用它。整篇论文都是建立在它的基础上的。但谷歌趋势数据有一个基本属性,使其很容易被滥用,特别是当您正在处理时间序列或尝试构建模型时,而大多数人从未意识到他们正在这样做。
除非另有说明,所有图表和屏幕截图均由作者创建。
Google 趋势数据的问题
谷歌实际上并没有公布其搜索量的数据。这些信息为他们打印了美元,他们不可能将其开放给其他人来货币化。但它们确实为我们提供了一种查看时间序列的方法,了解人们对特定术语的搜索变化,而他们这样做的方式是为我们提供一组标准化的数据。
在您尝试用它进行一些机器学习之前,这听起来不像是一个问题。因为当要让机器学习任何东西时,我们需要给它大量的数据。
我最初的想法是抓住五年的窗口,但我立即遇到了一个问题:时间窗口越大,数据的粒度就越小。五年来我无法获取每日数据,虽然我当时想“只需获取可以获得每日数据的最大时间段并移动该窗口”,这也是一个问题。因为正是在这里,我发现了正常化的真正恐怖:
无论我使用什么时间段或使用什么单个搜索词,搜索次数最多的数据点都会立即设置为 100。这意味着 100 的含义会随着我使用的每个窗口而变化。
