【Scrapy】初步认识爬虫

2023-01-26 08:03 作者:阿提艾斯 0人读过 | 我要投稿

1、简介

Scrapy是一套基于Twisted的异步处理应用程序框架，用于抓取网站和提取结构化数据，这些数据可用于广泛的应用程序，如数据挖掘、信息处理或历史存档。

2、制作scrapy爬虫一共需要4步

1）新建项目： scrapy startproject xxx

2) 明确目标： items.py，明确需要抓取的目标

3）制作爬虫： spiders/xxxspider.py，制作爬虫开始爬取网页

4）存储内容： pipelines.py，设计管道存储爬取内容。

3、创建scrapy项目

scrapy startproject xxxxxx

4、观察项目目录结构

scrapy.cfg: 爬虫配置文件

scrapy_test/spiders/__init__.py: 导包文件。之后爬虫的主要文件都在scrapy_test/spiders目录下。

scrapy_test/__init__.py: 导包文件

scrapy_test/items.py

scrapy_test/middlewares.py: 中间件

scrapy_test/pipelines.py: 管道文件，用来处理item数据。比如将item写入到文件或数据库中。

scrapy_test/settings.py：爬虫配置文件，爬虫会根据该文件里的配置遵守一些约定去爬取。如下图所示：当发起请求后，请求会经过中间件ScrapyTestDownloaderMiddleware，后面的543是优先级，数字越小，优先级越高，取值范围：0-1000。当有多个中间件时，就会根据优先级去执行各个插件。