欢迎光临散文网会员登陆 & 注册

关于爬取番剧和视频这件事

2021-07-22 13:11 作者:爱吃豆腐的愉悦怪 0人读过 | 我要投稿

手动爬取

1.分析b站视频

首先随机打开一个番剧的播放主页，并摁F12打开开发者工具

在番剧播放过程中，前端会持续不断的向后台发送请求，而浏览器network能把它从后端返回过来的响应抓到，并显示出来

找到里面含有m4s的响应，并随机选两个响应分别鼠标单击，点击Response，如果能看到的效果是这种乱码的话，就基本是视频或者音频没跑了, 即便爬取失败也没关系，继续找。

打开headers然后截取复制URL, 黏贴到py文件中

注意：这里有时候会访问不到因为没带上referer 就需要下载来看看

2.因为b站的视频是音频和视频分开的，所以要分别爬取

运行后就能在文件的当前目录看到爬到的音频和视频了

3.使用一个第三方库 moviepy

如果在导入过程中出现红线，就在终端下载moviepy

看到进度条就只需耐心等待就可以

通过上面的分析可得知番剧是可以这样爬取的，同样up主发布的视频也是可以的，不过除了官方发布的视频(番剧，国漫，电影，纪录片等)，爬取up主发布的视频还有一个更加方便的方法，就是主页自动爬取

主页自动爬取

1.把主页的网址放到py文件保存好

主页url

直接发送请求获取响应

运行打印结果，查看响应数据，在终端中摁ctrl+f 输入video和audio

video中的嵌套字典

audio中的嵌套字典

使用正则表达式的findall匹配出来，因为这个方法匹配出来的是个列表所以指向第一个索引就可以

结果：

下面的步骤同上, 把url的变量放到get当中去请求服务器获取响应

保存

合成视频

最后再运行下，等进度条到100%就能合成视频

标签：

关于爬取番剧和视频这件事的评论 (共条)