详细内容或原文请订阅后点击阅览
当在线内容消失时
2013 年至 2023 年间曾经存在过的所有网页中有四分之一无法再访问。《在线内容消失时》一文首先出现在皮尤研究中心。
来源:皮尤研究中心信息2013 年存在的网页中有 38% 在十年后不再可访问
皮尤研究中心进行了分析,以检查曾经存在的在线内容变得无法访问的频率。研究的一部分着眼于过去十年中存在的网页的代表性样本,以了解今天仍可访问的网页数量。为了进行此分析,我们从 Common Crawl 网络存储库中收集了 2013 年至 2023 年每年的页面样本。然后,我们尝试访问这些页面以查看还有多少页面存在。
Common Crawl研究的第二部分着眼于现有网页上的链接,以了解其中有多少链接仍然有效。我们通过从政府网站、新闻网站和在线百科全书维基百科收集大量页面样本来做到这一点。
维基百科我们使用来自受众指标公司 comScore 的数据确定了相关新闻域,并使用来自 get.gov(.gov 域的官方管理员)的数据确定了相关政府域(多个级别的政府)。我们通过 Common Crawl 收集了新闻和政府页面,并从维基媒体基金会维护的档案中收集了维基百科页面。对于每个集合,我们确定了这些页面上的链接并跟踪它们到它们的目的地,以查看这些链接中有多少指向不再可访问的网站。
comScore get.gov 维基媒体基金会研究的第三部分着眼于社交媒体网站上的个人帖子被删除或以其他方式从公众视野中移除的频率。我们通过使用 Twitter Streaming API 实时收集社交媒体平台 X(当时称为 Twitter)上的大量公开推文样本来实现这一点。然后,我们使用 Twitter Search API 跟踪了这些推文的状态,为期三个月,以监控有多少推文仍可公开获取。有关更多详细信息,请参阅报告方法。
报告方法皮尤研究中心的一项新分析显示了在线内容实际上是多么短暂:
“404 未找到”