养成随手存档的习惯!

网上的东西很容易消失,而中国网站的东西更容易“404”(“被”消失),虽然我们无法改变中国“404”的制度,但是我们仍然可以学习一些存档与找回存档的操作方法,养成随手存档的习惯,及时备份对自己有意义的内容,尽量降低损失。

随手存档的重要性

信息会随时消失!

消失与“被消失”太常见了,例如:

  • 信息爆炸:旧的信息被新的信息冲刷掉,而信息发布平台的检索功能又不好用,使得旧的信息很难再被找到了。
  • 主动删除:信息发布者出于各种原因,主动修改甚至删除了信息。
  • 商业利益:信息平台为了商业利益,开始给免费、公开的内容增加限制,变成“会员专享”。
  • 违反法律:信息或平台因盗版、诽谤等原因下架。
  • 政治敏感:信息或平台因“政治敏感”被勒令下架。很多情况下,网站为了自己生存,担心被“查水表”,即使“有关部门”不介入,他们也会主动删除某些与官方相左的信息。
  • 运营问题:网站升级、改版,内容发生变化,历史数据丢失。再过几年,网站经营不善,公司倒闭,网站关闭了。

有的时候,信息消失得还很快。当你还没看完全文的时候,审核员早已让内容消失了。手速慢一点的话,也不过是几分钟到几小时的事情。

国内网站由于各种原因,信息消失速度通常很快,但是国外网站也不代表绝对安全:例如触犯了国外平台的规则(侵权),或者信息发布者在国内,而且被警察请去喝茶了,内容也有可能消失。

如何存档

根据不同情况,可以考虑不同的存档方法。需要记住的是,如果你认为信息有意义,那么要养成随手存档的习惯,而不要简单地点赞、收藏、转发,否则等内容消失的时候就麻烦了。

截屏、拍照或录像

具体操作方法请自行Google搜索,这里不再解释。

互联网档案馆

archive.org(互联网档案馆,又名时光机)与archive.is是两个常用的归档网站。只要在里面输入网址,点击保存,页面内容就会被抓取下来。之后也可以通过这两个网站查阅网站存档记录。因为这样非常有利于防止“404”,所以很早就获得了墙的认证。

截图与转载都可以造假,而归档网站保存的是网页原貌、网页原始网址与原始时间,不太可能造假。

建议在浏览器安装一个归档插件,例如Save To The Wayback Machine(Chrome版Firefox版),这样就方便随手归档了。一旦页面404,你和其他人都可以用此插件方便地查阅档案馆记录。

如果网站需要登录才能访问,或者限制国外IP访问,那么归档起不到作用了。而且,archive.org会遵守robots规范(User-Agent: ia_archiver),如果网站在robots.txt中明确拒绝归档,那么archive.org就不会保存内容,需要改用archive.is存档。

笔记软件

Evernote(中国版称作“印象笔记”,账号内容与国际版隔离)与OneNote是两个笔记软件,均具备收藏网页内容的功能。

Evernote对网页内容提取得比较好。像新闻资讯等网站,它会聪明地提取出标题与正文,基本上不需要进一步加工精炼。然而,Evernote免费账号只允许登录两个设备,笔记容量也有很大限制,而且中国版的“印象笔记”不支持分享功能。

OneNote提取,可以选择截图、纯文字或选区。个人感觉在内容提取方面不如Evernote好用,但是在笔记整理方面优于Evernote。

个人建议:如果想提取图文,不想直接截图,那么用Evernote保存、抓取内容。如果要进一步整合资源,形成论文、报告什么的,就切换到OneNote整理。

下载到本地

将网上的内容下载到本地是最安全的方法之一。只要磁盘没坏,没感染病毒,没被勒索软件勒索,没有误删,资源就不会丢失。

如果要保存网页,只需轻轻地Ctrl+S,然后点击保存就可以了。

但是,保存完成后记得检查一下,因为有些网站会设法阻止你保存东西,存完也是一堆乱七八糟的程序代码。像音乐网站、视频网站等特殊网站,干脆不能Ctrl+S(除非你只想保存评论区),需要找一些专用的下载工具才行。

有些平台需要一些特殊方法下载,例如:

  • 微博帖子:Octoman
  • 微信公众号:https://www.zhihu.com/question/2211445
  • 音视频:you-get

爬虫程序

如果你会编程,那么可以利用网络爬虫收集信息。到网上搜一些爬虫程序的案例,自己写个爬虫扒网站内容。有需要的话可以再买台服务器,或者找个闲置电脑,定时跑程序,实现自动归档。

如果要爬特定网站,也可以在搜索时把网站名加上,看看有没有现成的程序,节省时间。

如何找回已删内容

互联网档案馆

如果你记得网站的网址,可以到archive.orgarchive.is等网站碰运气,看有没有人提交过存档。

Google搜索

如果你还记得资料的名字或内容,可以将名字或文章中的一两句话用作Google搜索的关键词,查看网上是否还有转载与备份。有时虽然内容已删,但Google自己还留着一个快照,可以在快照失效之前尽快把内容导出来。

专项计划

有些网站会专门搜集容易遭到删除,甚至已经遭到删除的信息:

  • 中国数字时代:该网站由加州大学伯克利分校信息学院“逆权力实验室”(Counter-Power Lab)提供技术支持,重点关注中国的言论审查,每天会收集一些媒体与自媒体等方面的时政类内容。有时可以在该网站找到一些已经在中国被全网删除的内容或言论。
  • 自由微博:该网站会专门搜集已经遭到屏蔽的微博内容。
  • 自由微信:该网站专门搜集已经遭到屏蔽的微信公众号内容。

不要随便分享存档

为个人研究、收集资料而进行存档是正常操作,但是如果你计划传播资料,则要考虑传播的风险。

如果信息是因为违反法律原因消失,例如泄漏隐私、泄漏商业机密、诽谤生事等,你再将消失的信息拿出来传播,你很可能要负法律责任。另外要注意当地法律规定,某些内容(例如儿童色情)仅仅是持有就已经触犯法律了。

如果信息是因为政治原因消失,你再拿出来传播,则要小心政治后果:例如“端点星”是一个专门整理国内被删内容的网站,然而在2020年4月19日,负责运营的三个志愿者就被警方以“寻衅滋事”逮捕了。

参考资料

  • 404信息保存
  • 如何找回被删除的网页/新闻