爬取豆瓣整站电影

2021-10-02 12:05 作者:爱吃豆腐的愉悦怪 0人读过 | 我要投稿

在谷歌浏览器的网址栏中输入https://movie.douban.com/chart打开网页

在谷歌浏览器中启动 Xpath Helper 插件，通过页面标签取出相应的数据

返回的结果可以看到是一个存列表中的字典

由于豆瓣电影网对爬虫的防范越来越高，请求过于频繁会导致封ip, 所以可以先把首页解析的结果保存下来，进行数据的测试

可以看到在刷新分类详情页时后端给前端返回了三个异步响应，分别点开看看response响应的是什么

在详情页url的参数信息中可以了解到 “ type” 和 “ interval_id ” 都是用来异步请求的参数，通过把页面往下滑，触发js，获取的下一页的数据，limit是数据量，两个图中start的跨度为20，所以在请求的时候可以给start乘20

在开发到这一步时，可以”break“让程序只迭代一次，防止被网站限流反爬封ip

如果被反爬，刷新页面就会显示出登录跳转的h1标签文本

效果可以看出来，数据已经拿到了，后面无论是入库还是保存到本地都可以

标签：

爬取豆瓣整站电影的评论 (共条)