python爬取网站数据（含代码和讲解）

2023-06-01 15:33 作者:下班被游戏打- 0人读过 | 我要投稿

前言

这次爬取的网站是房天下网站；

其中包含很多楼盘信息：https://newhouse.fang.com/house/s/b81-b91/

我在网站上进行了一步筛选，即选取北京及北京周边的房源，各位要是想爬取其他城市的房源信息也很简单，改一下url信息即可。

一、数据采集的准备

1.观察url规律

观察到北京及周边地区的房源有很多网页，翻几页就能发现url的规律：

网址就是：https://newhouse.fang.com/house/s/ + b81-b9X + / ；其中X是页码

利用for循环遍历所有网页：

pip 安装fake_useragent库：

fake-useragent可以伪装生成headers请求头中的User Agent值,将爬虫伪装成浏览器正常操作。

导入接下来会用到的包：

设置请求参数：需要大家替换的有'cookie'和'referer'两项的值：

'cookie'：每次访问网站服务器的时候，服务器都会在本地设置cookie，表明访问者的身份。记得每次使用时，都要按照固定方法人工填入一个 cookie。

'referer'：请求参数，标识请求是从哪个页面过来的。

2.设定爬取位置和路径（xpath）

因为爬取数据主要依托于'目标数据所在位置的确定’，所以一定先要搞清楚目标数据的位置（位于div的哪一块）；

先发送请求：

我想爬取的数据主要就是：楼盘名称、评论数、房屋面积、详细地址、所在区域、均价 5项数据。

此时采集到的数据还包含着：[]方括号、—横杠、“平米”等符号或者单位，所以要对数据进行简单的split处理，把真正需要的数据提取出来：

这里图方便就只爬取了前10页，因为后面的房源就经常少信息，要么没有面积信息，要么没有所在区域。

标签：