Pew Research Center上周发布一项研究报告,指出数位时代的网路内容并不见得是长存的,指出在2013年到2023年的10年间,有25%的网页消失了,当中的16%其网域依然存在,只是网页无法存取,另外的9%是整个网域名称都失效了。
愈久的内容无法存取的比例愈高,例如2013年的网页中,到了去年即无法存取的比例高达38%,若是2021年所搜集的网页,2023年无法存取的比例则是20%。
Pew Research Center所研究的对象涉及新闻、政府、维基百科(Wikipedia)及Twitter(X)。例如搜集了来自2,063个新闻网站的50万个网页,这些网页含有逾1,400万个对外连结,对外连结的中位数为20个,当中有23%个新闻网页至少含有一个失效连结。
Pew Research Center也搜集了50万个美国联邦、州或地方政府的网页,这些网页所含的连结总数为4,200万个,连结数量的中位数为50个,且高达86%都是连至政府网页。在这些政府网页中,有21%至少包含一个失效连结。
在维基百科上Pew Research Center则搜集了5万个英文页面,并检查参考栏位的连结,有多达82%的维基百科网页至少含有一个参考连结,整体有超过100万个参考连结。分析显示,有53%的维基百科页面至少含有一个失效的连结,整体而言,维基百科所引用的逾100万个参考连结中,有11%无法存取。
Pew Research Center亦于今年3月至4月搜集了Twitter上的近500万则推文,但在6月15日时,发现有18%的推文不复存在,大多数是因为帐户被设为私有了、暂停了或是被删除了,只有少数是特定推文被移除。消失的推文有高达49%为土耳其文,有42%是阿拉伯文,且它们通常是新设的帐户。