使用Scrapy爬取豆瓣电影Top250

2023-06-11 14:04 作者:Y氹氹转o菊花园Y 0人读过 | 我要投稿

简介

豆瓣经典电影Top250部排行是经典的爬虫案例，属于分页式总入口，详情页有限发散层级(延伸一级就够)的梳状网页结构。无需登录即可获取页面信息，网页属静态内容，没有交互及异步加载，可直接请求并解析。

https://movie.douban.com/top250

从电影目录收集基本标题及详情页链接，依次翻页收集所有排名电影。

在各详情页收集电影信息及封面图片。

得到如下目录结构

ROBOTSTXT_OBEY = False，因为默认scrapy会下载robot.txt文件，以分析并遵守站点的爬虫限制规则。而豆瓣在对提供了无效User-Agent的请求是返回403禁止的，需要将此选项关闭。
DOWNLOAD_DELAY = 3，开启限制请求频率，以免影响网站运营，默认是各请求间有3秒等待

页面信息提取说明，有些字段dom节点的写法不统一，需要特殊处理，为了方便维护，使用专门的extract_xxx函数封装，以后无论页面如何变动，调用方无需改动，只需要更新相关的extract函数

标签：