欢迎光临散文网 会员登陆 & 注册

爬取豆瓣整站电影

2021-10-02 12:05 作者:爱吃豆腐的愉悦怪  | 我要投稿

在谷歌浏览器的网址栏中输入https://movie.douban.com/chart打开网页

在谷歌浏览器中启动 Xpath Helper 插件,通过页面标签取出相应的数据

返回的结果可以看到是一个存列表中的字典


由于豆瓣电影网对爬虫的防范越来越高,请求过于频繁会导致封ip,  所以可以先把首页解析的结果保存下来,进行数据的测试

可以看到在刷新分类详情页时后端给前端返回了三个异步响应,分别点开看看response响应的是什么

在详情页url的参数信息中可以了解到 “ type” 和 “ interval_id ” 都是用来异步请求的参数,通过把页面往下滑,触发js,获取的下一页的数据,limit是数据量,两个图中start的跨度为20,所以在请求的时候可以给start乘20


在开发到这一步时,可以”break“让程序只迭代一次,防止被网站限流反爬封ip

如果被反爬,刷新页面就会显示出登录跳转的h1标签文本

可以看出来这是被了ip,所以才需要对程序设置一个沉睡一会的方法

效果可以看出来,数据已经拿到了,后面无论是入库还是保存到本地都可以


爬取豆瓣整站电影的评论 (共 条)

分享到微博请遵守国家法律