欢迎光临散文网 会员登陆 & 注册

中国互联网探索,考古指南及如何存档网页

2022-05-12 22:57 作者:AVsDm  | 我要投稿

b站在某天后,对某些视频的av号链接做了一定限制:即使视频存在,结尾带"/"的链接会显示视频无法播放
从n站(niconico)搬运过来的作品可以加上关键词"sm"搜索
现在b站的搜索体验越来越"智能"了,越来越像x度了
百度贴吧
国内的搜索引擎比较奇葩,多个中文词连着和拆开搜得的结果有一定区别,这点和gg不同
https://tieba.baidu.com/f/search/res?ie=utf-8&kw=吧名&qw=
https://www.so.com/s?q=吧名+site%3Atieba.baidu.com+
https://cn.bing.com/search?q=吧名+site:tieba.baidu.com+
www.baidu.com/baidu?wd=吧名+site:tieba.baidu.com+
中国版必应(cn.bing.com)对百度贴吧的检索最好.国际版根本搜不到什么东西
巧用图片反向搜索(以图搜图)引擎
Selection Context Search这个插件很方便,可以对页内多种内容进行右键搜索
百度 Yandex gg Tineye
虽然百度对国内图片的检索最全,但百度搜图也并非完全检索,如果你要从一组图片中反向搜索,一定要搜上每一张图片
现在国内的相册就豆瓣相册没关,快去存! 开心网的相册还没倒! http://www.kaixin001.com/photo/albumlist.php?uid=
快去注册个开心网账户,用QQ号注册不用输身份证!
gecko系和chrome系的网页保存功能
chrome系比gecko系多出了mhtml的选项,可以保存为单个文件
html;htm方式存在一些问题,可能无法保存部分动态内容,如百度贴吧的回复
https://wwb.lanzoum.com/b02v3mkyd 密码 4m9m 蓝奏云
装个msys2,这是模拟Linux环境的软件 www.msys2.org 网页自带英文安装教程
linux的路径形式与windows不同,Windows的"C:folder\test"在MSYS中为"/c/floder/test"
了解linux命令:ss64.com/bash/ cd指令可以改变当前路径
exe版wget的安装(可选)下载我整理好的文件并解压GnuWin32.zip
在环境变量中添加GnuWin32文件夹并重启你的电脑
你也可以在命令行中设置,用setx(永久设置)而不是set(临时设置) 参见 ss64.com/nt
环境变量启动命令:rundll32.exe sysdm.cpl,EditEnvironmentVariables 参见 ss64.com/nt/run
这个要多出一步 C:\Windows\System32\rundll32.exe shell32.dll,Control_RunDLL Sysdm.cpl,,3
wget:一个命令行爬虫软件 如何呼出帮助:输入wget --help
重要参数
-d,  --debug 调试模式,建议新手使用
-erobots=off 无视robots.txt --span-hosts 爬取其他网站
 --local-encoding=UTF-8  --remote-encoding=UTF-8 编码修正 --no-check-certificate 跳过验证 --restrict-file-names=nocontrol 不按系统修正文件名
 -T 1.4 超时时间 -t 3 最大重试次数 --random-wait 随机等待时间 --wait=5 等待时间
-U 用户代理(useragent) -U "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:83.0) Gecko/20100101 Firefox/83.0" 我的火狐83可以在about:support中查看
--load-cookies="" 加上cookies可以通过反爬虫不强的网站的登录验证,请按F12或装个插件获取(Export Cookies)
 --keep-session-cookies 载入和保存cookies
 --no-proxy 不使用代理
在Windows中设置代理环境变量:setx http_proxy http://127.0.0.1:7890
setx ftp_proxy %HTTP_PROXY%
setx https_proxy %HTTP_PROXY%
-c 继续未完成的工作 -p 获取所有网页内容 -E 对HTML/CSS documents的格式修正
-nc 跳过已有,如果你想备份随时会更新的内容请用 -N (以时间比已有文件新的内容覆盖)
-r -l 0 无限层数爬取 --no-remove-listing 不太清楚
-m,  --mirror shortcut for -N -r -l inf --no-remove-listing 我一般不用这
 正则 github.com/ziishaned/learn-regex 包含在蓝奏云分享链接中 README-cn.md README.md(英文)
--regex-type=posix
--reject-regex="" 不接受 --accept-regex="" 仅接受
示例:
Win版wget
cd /d M:xxxxx
wget -c  -p -E -nc -r -l 0 --no-remove-listing -erobots=off --restrict-file-names=nocontrol --no-check-certificate --span-hosts   -U "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:83.0) Gecko/20100101 Firefox/83.0" --local-encoding=UTF-8  --remote-encoding=UTF-8 --regex-type=posix --reject-regex="\/photo\/(guangchang|act_view|act_hot|act_new)|(iphone|mark|wapb|wap[0-9]{3}|show|wapa|picwallzoom|pdwrite|pdwritev|pdwriteh|newsThumbn|(grpmid|(o)?w[0-9]{3}p|zoom|mark)[0-9]?|nHD|award_w|gsmall|rotate|homeadp|records|wapb[0-9]|(g)?cover|pdunit|picwallcbase|mip|mid|news(Thumb)?|[0-9]{1,3})(\.|\_)(ani|bmp|gif|ico|jpe|jpeg|jpg|pcx|png|psd|tga|tif|tiff|webp|wmf)|(\/|\?|\&)(signup|login|(tag|total)\=)|\?C\=[a-zA-Z]|\?replytocom\="  --accept-regex="32274147|\/(photo|diary)\/|photo\/view_|_w1280p" --no-proxy --keep-session-cookies -T 1.4 -t 3  --random-wait --wait=
MSYS2:
cd /M/xxxxx;wget -c  -p -E -N -r -l inf --span-hosts  --no-remove-listing -erobots=off --restrict-file-names=nocontrol --no-check-certificate   -U "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:83.0) Gecko/20100101 Firefox/83.0" --local-encoding=UTF-8  --remote-encoding=UTF-8 --regex-type=posix  --reject-regex="特殊\:(日志)|(return_to|returnto|direction|redirect|target|action)\=|(Special|Wikipedia|File)\:|action\=(history|edit)|\&returnto\=|org\/api\/|\&from\=|zh-(mo|tw|hk|sg|my|hant)|(variant)\=" --accept-regex="\.(epub|chm|mobi|djvu|azw3|doc|ppt|txt|log|xls|pdf)|\.(ani|bmp|gif|ico|jpe|jpeg|jpg|pcx|png|psd|tga|tif|tiff|webp|wmf)|otomad" --no-proxy -T 1.4 -t 3 --random-wait --wait=5 --keep-session-cookies otomad.wiki
开心网:已完全存档的用户id: 32274147 红扣子

中国互联网探索,考古指南及如何存档网页的评论 (共 条)

分享到微博请遵守国家法律