爬取豆瓣整站电影
https://movie.douban.com/chart打开网页

在谷歌浏览器中启动 Xpath Helper 插件,通过页面标签取出相应的数据


返回的结果可以看到是一个存列表中的字典
由于豆瓣电影网对爬虫的防范越来越高,请求过于频繁会导致封ip, 所以可以先把首页解析的结果保存下来,进行数据的测试

可以看到在刷新分类详情页时后端给前端返回了三个异步响应,分别点开看看response响应的是什么

在详情页url的参数信息中可以了解到 “ type” 和 “ interval_id ” 都是用来异步请求的参数,通过把页面往下滑,触发js,获取的下一页的数据,limit是数据量,两个图中start的跨度为20,所以在请求的时候可以给start乘20


在开发到这一步时,可以”break“让程序只迭代一次,防止被网站限流反爬封ip

如果被反爬,刷新页面就会显示出登录跳转的h1标签文本

效果可以看出来,数据已经拿到了,后面无论是入库还是保存到本地都可以


