离线下载整个网站（比如linux kernel aosp）用wget 具体操作办法

2021-12-24 10:56 作者:信号再生中 0人读过 | 我要投稿

假设下载网站是：www.xxxxx.com，命令如下：

wget -r -nd -np -k -e robots=off --adjust-extension --no-check-certificate --page-requisites -l -p http://www.xxxxx.com

wget -r -nd -np -k -e robots=off --adjust-extension --no-check-certificate --page-requisites -l -p

https://www.baidu.com/

wget -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; GTB5)" -r -p -k -nc http://www.xxx.com

wget -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; GTB5)" -r -p -k -nc http://www.xxx.com

-U 修改agent，伪装成firefox等浏览器，当某些网站拒绝下载的时候，加上这个参数就可以下载了。

-p 下载页面显示所需的所有文件。## 下载指定目录 $ wget -c -r -nd -np -k -L -p -A c,h www.xxx.com/doc/path/

-c 断点续传

-r 递归下载，下载指定网页某一目录下（包括子目录）的所有文件

-nd 递归下载时不创建一层一层的目录，把所有的文件下载到当前目录

-np 递归下载时不搜索上层目录。

-k 将绝对链接转为相对链接，下载整个站点后脱机浏览网页，最好加上这个参数

-L 递归时不进入其它主机，如wget -c -r www.xxx.com/ 如果网站内有一个这样的链接： www.yyy.com，不加参数-L，就会像大火烧山一样，会递归下载www.yyy.com网站

-p 下载网页所需的所有文件，如图片等 -A 指定要下载的文件样式列表，多个样式用逗号分隔更多的wget命令可以查看这个教程，https://blog.csdn.net/sdlyhjq/article/details/8596303

最佳答案

wget -e robots=off -H -p -k http://www.myspace.com/

-H 或 --span-hosts 标志是完整镜像所必需的，因为该页面可能包含 www.myspace.com 域之外的主机上的内容。忽略机器人以获得良好的衡量标准。

关于wget 下载用于离线查看，包括绝对引用，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10842263/

标签：

离线下载整个网站（比如linux kernel aosp）用wget 具体操作办法的评论 (共条)