网站历史快照查询(查找历史网页快照)

更多互联网新鲜资讯、工作奇淫技巧关注【飞鱼在浪屿】(日更新)

当你想沿着记忆通道旅行,重温曾经喜欢的丢失的内容。

浏览爬虫具有这种巧妙的作用,即只需将所有内容都放在文件系统上,就可以偶然发现我当天错过的东西。

源代码在:
   https://github.com/hartator/wayback-machine-downloader/


Wayback 机器下载器

从 Internet Archive Wayback Machine 下载整个网站。

安装

您需要在您的系统上安装 Ruby (>= 1.9.2) - 如果您还没有它。然后运行:

gem install wayback_machine_downloader

提示:如果遇到权限错误,则可能需要sudo在此命令前面添加。

基本用法

使用要检索的网站的基本 url 作为参数运行
   wayback_machine_downloader(例如,http://example.com):

wayback_machine_downloader http://example.com

这个怎么运作

它会将 Wayback Machine 上存在的每个文件的最新版本下载到./websites/example.com/. 它还将重新创建目录结构和自动创建index.html页面,以便与 Apache 和 Nginx 无缝协作。下载的所有文件都是原始文件,而不是 Wayback Machine 重写版本。这样,URL 和链接结构与以前相同。

高级用法

指定保存文件的目录

-d, --directory PATH

可选的。默认情况下,Wayback Machine Downloader 将下载文件,./websites/后跟网站的域名。您可能希望使用此选项将文件保存在特定目录中。

例子:

wayback_machine_downloader http://example.com --directory downloaded-backup/

所有时间戳

-s, --all-timestamps

可选的。此选项将下载给定网站的所有时间戳/快照。它将使用每个快照的时间戳作为目录。

例子:

wayback_machine_downloader http://example.com --all-timestamps 

Will download:
    websites/example.com/20060715085250/index.html
    websites/example.com/20051120005053/index.html
    websites/example.com/20060111095815/img/logo.png
    ...

从时间戳

-f, --from TIMESTAMP

可选的。您可能希望提供一个 from 时间戳以将您的备份锁定到网站的特定版本。时间戳可以在常规 Wayback Machine 网站的 url 中找到(例如,https
   ://web.archive.org/web/20060716231334/http: //example.com)。也可以使用年(2006)、年 月(200607)等,可以和To Timestamp结合使用。然后,Wayback Machine Downloader 将仅获取指定时间戳或之后的文件版本。

例子:

wayback_machine_downloader http://example.com --from 20060716231334

到时间戳

-t, --to TIMESTAMP

可选的。您可能需要提供时间戳以将您的备份锁定到网站的特定版本。时间戳可以在常规 Wayback Machine 网站的 url 中找到(例如,https
   ://web.archive.org/web/20100916231334/http: //example.com)。也可以使用年(2010)、年 月(201009)等,可以和From Timestamp结合使用。然后,Wayback Machine Downloader 将仅获取指定时间戳或之前的文件版本。

例子:

wayback_machine_downloader http://example.com --to 20100916231334

确切网址

-e, --exact-url

可选的。如果您只想检索与提供的 url 完全匹配的文件,您可以使用此标志。它将避免下载任何其他内容。

比如你只想下载example.com的html主页文件:

wayback_machine_downloader http://example.com --exact-url

仅 URL 过滤器

 -o, --only ONLY_FILTER

可选的。您可能想要检索特定类型(例如,.pdf、.jpg、.wrd...)或位于特定目录中的文件。为此,您可以提供--only带有字符串或正则表达式的标志(使用“/regex/”符号)来限制 Wayback Machine Downloader 将下载的文件。

例如,如果您只想下载特定文件中的文件my_directory:

wayback_machine_downloader http://example.com --only my_directory

或者,如果您想下载所有图像而无需其他任何内容:

wayback_machine_downloader http://example.com --only "/\.(gif|jpg|jpeg)$/i"

排除 URL 过滤器

 -x, --exclude EXCLUDE_FILTER

可选的。您可能想要检索不属于某种类型(例如,.pdf、.jpg、.wrd...)或不在特定目录中的文件。为此,您可以提供--exclude带有字符串或正则表达式的标志(使用“/regex/”符号)来限制 Wayback Machine Downloader 将下载的文件。

例如,如果你想避免下载里面的文件my_directory:

wayback_machine_downloader http://example.com --exclude my_directory

或者,如果您想下载除图片以外的所有内容:

wayback_machine_downloader http://example.com --exclude "/\.(gif|jpg|jpeg)$/i"

将下载扩展到所有文件类型

 -a, --all

可选的。默认情况下,Wayback Machine Downloader 将自身限制为以 200 OK 代码响应的文件。如果您还需要错误文件(40x 和 50x 代码)或重定向文件(30x 代码),您可以使用--all或-a标志,Wayback Machine Downloader 将在 200 个 OK 文件之外下载它们。它还将保留默认删除的空文件。

例子:

wayback_machine_downloader http://example.com --all

只列出文件而不下载

 -l, --list

它只会显示要下载的文件及其快照时间戳和 URL。输出格式为 JSON。它不会下载任何东西。它对于调试或连接到另一个应用程序很有用。

例子:

wayback_machine_downloader http://example.com --list

要考虑的最大快照页面数

-p, --snapshot-pages NUMBER

可选的。指定要考虑的最大快照页数。计算平均每页 150,000 个快照。100 是默认的最大快照页面数,对于大多数网站来说应该足够了。如果您想下载非常大的网站,请使用更大的数字。

例子:

wayback_machine_downloader http://example.com --snapshot-pages 300

一次下载多个文件

-c, --concurrency NUMBER

可选的。指定要同时下载的多个文件的数量。允许显着加快网站的下载速度。默认是一次下载一个文件。

例子:

wayback_machine_downloader http://example.com --concurrency 20

使用 Docker 镜像

作为替代安装方式,我们有一个 Docker 镜像!以这种方式检索
   wayback-machine-downloader Docker 镜像:

docker pull hartator/wayback-machine-downloader

然后,您应该可以使用 Docker 镜像下载网站。例如:

docker run --rm -it -v $PWD/websites:/websites hartator/wayback-machine-downloader http://example.com
(0)

相关推荐

  • 如何在电脑爱奇艺客户端查找历史播放记录

    我们在看一部电视剧或电影的时候,没看完的话通过历史记录可以更快的找到之前看的,下面就给大家介绍如何在爱奇艺网站查找历史播放记录.具体如下:1. 第一步,我们先双击打开电脑里的爱奇艺客户端:2. 打开软 ...

  • 微信怎么查找历史聊天记录?

    微信中我们聊天的记录会被保存下来,方面我们以后进行查看.不过一般太久的记录也不是很好找,不能无限的保存.下面就告诉大家,微信怎么查找历史聊天记录?? 操作方法 01 首先我们打开微信,在微信中选择一个 ...

  • 微信里面怎么查找历史聊天信息和图片

    今天小编要和大家分享的是微信里面怎么查找历史聊天信息和图片,希望能够帮助到大家. 操作方法 01 首先点击一个微信聊天对话框,如下图所示. 02 接着点击屏幕右上方的三个点,如下图所示. 03 然后点 ...

  • 如何通过电信网上营业厅查询话费历史账单业务?

    如何通过电信网上营业厅查询话费历史账单业务?下面我们来看下. 操作方法 01 打开搜狗搜索'中国电信',打开官方网站. 02 打开后登录自己的账号 03 登录上去后,点击左边的'费用查询' 04 然后 ...

  • 如何在2019版电脑QQ中查找历史聊天记录?

    相信很多小伙伴都有在电脑上使用QQ,其中的历史聊天记录如何才能查找呢?方法很简单,下面小编就来为大家介绍.具体如下:1. 首先,打开电脑上的QQ并登录.2. 打开主界面后,点击上方的"联系人 ...

  • 在QQ上怎样查找历史聊天记录?

    很多人不知道如何在QQ里查找历史聊天记录,下面我教大家如何查找! 操作方法 01 打开想要查找聊天记录的扣扣聊天界面,点击右上角的小人,如下图所示. 02 点击聊天记录,如下图所示. 03 在这就可以 ...

  • qq历史聊天记录查询,qq历史聊天记录恢复

    一不小心删掉了与QQ好友的聊天记录却不知道怎么办?今天小编就来教大家怎样查询QQ历史聊天记录与恢复. 操作方法 01 首先,点击打开自己的手机qq,然后登录自己的QQ号.选择一个你自己想要查询与他的聊 ...

  • 如何在浏览器上查找历史搜索记录

    今天小编教大家"如何在浏览器上查找历史搜索记录".希望对大家有所帮助. 操作方法 01 首先打开电脑在电脑桌面上点击浏览器图标,进入浏览器. 02 进入好到浏览器界面然后点击下图红 ...

  • 怎样在微信上查找历史聊天记录

    目前随着微信的出现,微信聊天记录在手机中也保存比较多,如果需要查看以往的聊天记录也是一件麻烦的事,下面就是在微信上查找历史聊天记录的教程. 操作方法 01 打开并进入手机上的微信应用 02 进入到微信 ...

  • 如何在PLSQL Developer的登录历史中设置存储历史

    今天跟大家介绍一下如何在PLSQL Developer的登录历史中设置存储历史的具体操作步骤.1. 首先打开电脑上的PLSQL Developer软件,进入页面,如图2. 在上方点击 工具 菜单3. ...