欢迎光临散文网 会员登陆 & 注册

Python爬取当当网书籍数据,并数据可视化展示

2022-01-04 15:37 作者:松鼠爱吃饼干  | 我要投稿


知识点

  1. 爬虫基本流程

  2. csv 模块 把爬取下来的数据保存表格里面的 内置模块

  3. requests >>> pip install requests 数据请求模块

  4. parsel >>> pip install parsel 数据解析模块

开发环境

  • Python 3.8

  • Pycharm 2021.2 专业版

模块使用

  • csv 模块 把爬取下来的数据保存表格里面的 内置模块

  • requests >>> pip install requests 数据请求模块

  • parsel >>> pip install parsel 数据解析模块 css选择器去提取数据

爬虫代码实现步骤:

  1. 导入所需模块

  2. 发送请求, 用python代码模拟浏览器发送请求

  3. 解析数据, 提取我们想要数据内容

  4. 多页爬取

  5. 保存数据, 保存csv表格里面

1. 导入所需模块

2. 发送请求, 用python代码模拟浏览器发送请求

headers 请求头 作用就是python代码伪装成浏览器 对于服务器发送请求

User-Agent 用户代理 浏览器的基本身份标识

标题中无效的返回字符或前导空格:User-Agent 不要留有空格

通过requests模块里面get请求方法,对于url地址发送请求,并且携带上面header请求头参数,最后用response变量接收返回数据


3. 解析数据, 提取我们想要数据内容


4. 多页爬取


5. 保存数据, 保存csv表格里面


运行代码,效果如下图


数据可视化

导入所需模块


导入数据



可视化

书籍总体价格区间





各个出版社书籍数量柱状图



书籍评论数最高Top20



Python爬取当当网书籍数据,并数据可视化展示的评论 (共 条)

分享到微博请遵守国家法律