离线下载整个网站(比如linux kernel aosp)用wget 具体操作办法
假设下载网站是:www.xxxxx.com,命令如下:
wget -r -nd -np -k -e robots=off --adjust-extension --no-check-certificate --page-requisites -l -p http://www.xxxxx.com
wget -r -nd -np -k -e robots=off --adjust-extension --no-check-certificate --page-requisites -l -p
https://www.baidu.com/
wget -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; GTB5)" -r -p -k -nc http://www.xxx.com
wget -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; GTB5)" -r -p -k -nc http://www.xxx.com
-U 修改agent,伪装成firefox等浏览器,当某些网站拒绝下载的时候,加上这个参数就可以下载了。
-p 下载页面显示所需的所有文件。## 下载指定目录 $ wget -c -r -nd -np -k -L -p -A c,h www.xxx.com/doc/path/
-c 断点续传
-r 递归下载,下载指定网页某一目录下(包括子目录)的所有文件
-nd 递归下载时不创建一层一层的目录,把所有的文件下载到当前目录
-np 递归下载时不搜索上层目录。
-k 将绝对链接转为相对链接,下载整个站点后脱机浏览网页,最好加上这个参数
-L 递归时不进入其它主机,如wget -c -r www.xxx.com/ 如果网站内有一个这样的链接: www.yyy.com,不加参数-L,就会像大火烧山一样,会递归下载www.yyy.com网站
-p 下载网页所需的所有文件,如图片等 -A 指定要下载的文件样式列表,多个样式用逗号分隔 更多的wget命令可以查看这个教程,https://blog.csdn.net/sdlyhjq/article/details/8596303
最佳答案
wget -e robots=off -H -p -k http://www.myspace.com/
-H 或 --span-hosts 标志是完整镜像所必需的,因为该页面可能包含 www.myspace.com 域之外的主机上的内容。忽略机器人以获得良好的衡量标准。
关于wget 下载用于离线查看,包括绝对引用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10842263/