欢迎光临散文网 会员登陆 & 注册

关于爬取番剧和视频这件事

2021-07-22 13:11 作者:爱吃豆腐的愉悦怪  | 我要投稿

手动爬取

1.分析b站视频

首先随机打开一个番剧的播放主页,并摁F12打开开发者工具


在番剧播放过程中,前端会持续不断的向后台发送请求,而浏览器network能把它从后端返回过来的响应抓到,并显示出来

找到里面含有m4s的响应,并随机选两个响应分别鼠标单击,点击Response,如果能看到的效果是这种乱码的话,就基本是视频或者音频没跑了, 即便爬取失败也没关系,继续找。

打开headers然后截取复制URL, 黏贴到py文件中

 注意:这里有时候会访问不到因为没带上referer 就需要下载来看看

2.因为b站的视频是音频和视频分开的,所以要分别爬取

运行后就能在文件的当前目录看到爬到的音频和视频了


3.使用一个第三方库 moviepy

如果在导入过程中出现红线,就在终端下载moviepy

看到进度条就只需耐心等待就可以

通过上面的分析可得知番剧是可以这样爬取的,同样up主发布的视频也是可以的,不过除了官方发布的视频(番剧,国漫,电影,纪录片等),爬取up主发布的视频还有一个更加方便的方法,就是主页自动爬取

    主页自动爬取

1.把主页的网址放到py文件保存好

主页url

直接发送请求获取响应

运行打印结果,查看响应数据,在终端中摁ctrl+f 输入video和audio

video中的嵌套字典
audio中的嵌套字典

使用正则表达式的findall匹配出来,因为这个方法匹配出来的是个列表所以指向第一个索引就可以

结果:

下面的步骤同上,  把url的变量放到get当中去请求服务器获取响应

保存

合成视频

最后再运行下,等进度条到100%就能合成视频


关于爬取番剧和视频这件事的评论 (共 条)

分享到微博请遵守国家法律