Python爬取当当网书籍数据,并数据可视化展示
知识点
爬虫基本流程
csv 模块 把爬取下来的数据保存表格里面的 内置模块
requests >>> pip install requests 数据请求模块
parsel >>> pip install parsel 数据解析模块
开发环境
Python 3.8
Pycharm 2021.2 专业版
模块使用
csv 模块 把爬取下来的数据保存表格里面的 内置模块
requests >>> pip install requests 数据请求模块
parsel >>> pip install parsel 数据解析模块 css选择器去提取数据
爬虫代码实现步骤:
导入所需模块
发送请求, 用python代码模拟浏览器发送请求
解析数据, 提取我们想要数据内容
多页爬取
保存数据, 保存csv表格里面
1. 导入所需模块
2. 发送请求, 用python代码模拟浏览器发送请求
headers 请求头 作用就是python代码伪装成浏览器 对于服务器发送请求
User-Agent 用户代理 浏览器的基本身份标识
标题中无效的返回字符或前导空格:User-Agent 不要留有空格
通过requests模块里面get请求方法,对于url地址发送请求,并且携带上面header请求头参数,最后用response变量接收返回数据
3. 解析数据, 提取我们想要数据内容
4. 多页爬取
5. 保存数据, 保存csv表格里面
运行代码,效果如下图


数据可视化
导入所需模块
导入数据

可视化
书籍总体价格区间


各个出版社书籍数量柱状图

书籍评论数最高Top20
