研究人员已经开始利用 Twitter 提供的新的地理定位信息来源,提供关于各种空间视角的见解,包括本地化人格特质和心脏病的地理差异(Eichstaedt 等人,2015 年;Obschonka 等人,2019 年)。同样,语言学分析利用社交媒体的大数据来揭示区域语言差异(Grieve 等人,2018 年)。本研究应用大数据分析来探索创新地理中的无形要素。我们将从美国专利商标局收集的人均专利空间聚类(Pat_Cap)与反映社交媒体讨论和围绕技术创新相关主题的“热议”的新变量进行比较。这个变量被标记为 InnoTech_Tw,基于 2014 年美国各县 8.9 亿条地理编码推文中约 89 亿个单词的语料库(有关该数据集的更多信息,请参阅 Grieve 等人,2018 年)。它被定义为美国每个县所有单词的相对频率之和,按它们与创新和技术这两个术语的余弦相似度加权,通过将 word2vec 算法应用于 300 万个单词的 300 维向量数据集而获得,该数据集在约 100 个语料库上进行训练
主要关键词