如今,公众舆论是许多部门的宝贵数据源。与其他信息提取方法相比,有关运输和流动性部门的实时信息可以通过降低成本收集信息。在本文中,我们定义了一种方法,可以从Twitter收集的信息中提取知识来分析城市流动性。该方法是根据三个主要模块结构的:系统配置,数据分析和可视化。在两个月的两个不同城市中提取了用于演示拟议方法论的信息:纽约,伦敦和墨尔本。由于产生的消息的数量,社交媒体及其分析的文本提取是非常耗时的任务。从Twitter中提取的每条消息通常是简短的,非正式的,并且有很多s语或拼写错误。通过使用NLTK(自然语言工具包)来处理此问题,应用了NLP(自然语言处理)技术,因此算法可以清除和可以理解文本。用于与旅行相关消息的分类,使用了BERT(用于理解语言理解的双向变压器)嵌入模型。该模型是预先训练的,无监督的,并于2018年发布。为了了解一个简单的模型是否可以具有良好的性能,使用了杂物方法。使用了三个与旅行有关的单词列表:(i)一个带有10个与旅行相关的单词的小列表,(ii)一个中型列表,其中有35个与旅行有关的单词,(iii)一个大列表,有344个与旅行有关的单词。结果表明,高度和准确性高于0.80和0.90的高模型性能。流行的单词是火车,步行,街道,汽车,车站,街道和大道。对所有评估的三个城市获得了一致的结果。为了评估公众舆论,根据其情感对与运输和流动性有关的信息进行了分类。然后,为了评估消息的极性(正面,中性或负面),使用了Vader(Valence Aware Away词典和情感Reasone)情感工具。vader是一种易于使用的工具,并且与社交媒体消息和信息文本具有很大的兼容性。这是一种基于词典和规则的工具,可以根据其单词来计算文本情感的复合价值。开发的方法在情感分析中获得了良好的绩效结果,在召回,准确性和F1得分的平均值得分为0.78左右的情况下,精度的平均值得分为0.77。对2017年5月18日在纽约举行的车祸事件进行了特定分析。该分析表明,该方法能够识别指向其起源潜在原因的空间变化和迁移率。发达的工作可以得出结论,即所提出的方法对运输工程师,城市规划师,研究人员和决策者的运输方式非常有帮助,以深入了解公众对城市流动性的看法。
主要关键词