方法 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

方法

2024年5月17日 17:57 33 Comments

Twitter 数据的收集和分析本报告中的 Twitter 分析基于 2023 年 3 月 8 日至 4 月 27 日收集的 480 万条推文。此过程涉及在收集期间每 30 分钟收集一批 3,000 条新推文，使用Twitter 流 API。这导致了[…]后方法论的样本首先出现在皮尤研究中心。

来源:皮尤研究中心信息

Twitter 数据的收集和分析

本报告中的 Twitter 分析基于 2023 年 3 月 8 日至 4 月 27 日收集的 480 万条推文。此过程涉及在收集期间使用 Twitter Streaming API 每 30 分钟收集一批 3,000 条新推文。这产生了在数周内不同时间和日期创建的推文样本。

我们从 2023 年 3 月 15 日开始到 6 月 15 日结束定期监控这些推文的状态。在监控期间的每一天，我们都使用 Twitter Search API 查找所有收集到的推文。我们收集了这些推文的最新参与度指标，以及指示每条推文是否仍在网站上公开的状态代码。

如果推文返回的状态代码为“未找到”（表示推文本身已被删除）或“授权错误”（表示由于帐户本身已被用户删除或设为私密或被 Twitter 本身暂停而无法访问），则推文被归类为不可用。由于我们在整个监控期间监控了所有收集到的推文的状态，因此我们能够识别之前不可用后再次可见的推文。

除了使用 480 万条推文的完整样本检查流失率外，我们还从 100,000 名用户的随机样本中选择了推文，从我们的原始集合中抽取了 148,494 条推文作为样本，并收集了有关这些推文和发布这些推文的用户的详细信息。其中包括推文所用的语言、帐户的个人简介字段或个人资料图片是否已从网站默认值更新、帐户年龄以及帐户是否经过验证等详细信息。该子样本用于分析哪些类型的推文往往会从网站中删除。

万维网网站、政府网站和新闻网站的数据收集

常见爬取

政府网站 URL 样本

“英国”

详细信息网站样本状态帐户收集 Twitter 推文 2023 是否监控 API 480 用户

方法

Twitter 数据的收集和分析

万维网网站、政府网站和新闻网站的数据收集

政府网站 URL 样本

其他外部链接

Tags

XiaoMi-AI