详细内容或原文请订阅后点击阅览
方法
Twitter 数据的收集和分析 本报告中的 Twitter 分析基于 2023 年 3 月 8 日至 4 月 27 日收集的 480 万条推文。此过程涉及在收集期间每 30 分钟收集一批 3,000 条新推文,使用Twitter 流 API。这导致了[…]后方法论的样本首先出现在皮尤研究中心。
来源:皮尤研究中心信息Twitter 数据的收集和分析
本报告中的 Twitter 分析基于 2023 年 3 月 8 日至 4 月 27 日收集的 480 万条推文。此过程涉及在收集期间使用 Twitter Streaming API 每 30 分钟收集一批 3,000 条新推文。这产生了在数周内不同时间和日期创建的推文样本。
我们从 2023 年 3 月 15 日开始到 6 月 15 日结束定期监控这些推文的状态。在监控期间的每一天,我们都使用 Twitter Search API 查找所有收集到的推文。我们收集了这些推文的最新参与度指标,以及指示每条推文是否仍在网站上公开的状态代码。
如果推文返回的状态代码为“未找到”(表示推文本身已被删除)或“授权错误”(表示由于帐户本身已被用户删除或设为私密或被 Twitter 本身暂停而无法访问),则推文被归类为不可用。由于我们在整个监控期间监控了所有收集到的推文的状态,因此我们能够识别之前不可用后再次可见的推文。
除了使用 480 万条推文的完整样本检查流失率外,我们还从 100,000 名用户的随机样本中选择了推文,从我们的原始集合中抽取了 148,494 条推文作为样本,并收集了有关这些推文和发布这些推文的用户的详细信息。其中包括推文所用的语言、帐户的个人简介字段或个人资料图片是否已从网站默认值更新、帐户年龄以及帐户是否经过验证等详细信息。该子样本用于分析哪些类型的推文往往会从网站中删除。