欢迎光临散文网 会员登陆 & 注册

Python爬取豆瓣Top250并可视化(五)- 爬虫代码总结

2022-11-11 15:28 作者:码夫破石  | 我要投稿

写完这篇,爬虫代码就全部结束了。代码笔记:

代码的解释基本都在注释中。也很简单,主要是写成了一个类,这样程序只有一个入口。就是run()。总结了几种常用保存爬虫数据的方法:

1,保存到csv;

2,保存到excel;

3,保存到数据库,这里用的是sqlite和mysql;

需要注意的:

提取数据部分:

在get_data()里有一个项,也就是排名第53的电影《大闹天宫》,将年份和地区分离的时候,会让插入的sql语句产生错误,所以这里用了正则提取数字和文字。

数据保存部分:

1,保存数据到本地的时候,I/O文件与数据遍历的时候保存问题,一不小心就有可能只保存到一部分;

2,用xwlt保存到excel的时候双层循环问题;

3,用csv保存的时候DictWriter写法;

4,sqlite和mysql主键自增写法的不同,sqlite是autoincrenment,而mysql是auto_increment,确切的说是全部大写;

5,用占位符构造sql语句时的对愿列表进行处理的方法;也就是给data的每一项前后加上双引号的处理方法;

6,mysql创建数据的时候默认字符集的处理CREATE DATABASE IF NOT EXISTS {databasename} DEFAULT CHARSET utf8 COLLATE utf8_general_ci;

7,构造sql语句的时候最容易出现错误,最直观的方法就是在sql的控制台执行一下sql语句,看是不是有效运行,这样可以减少很多时间;

8,调试代码的时候可以用exit(),如果是循环,也可以用break;

9,试着给某些函数做条件限定。

Python爬取豆瓣Top250并可视化(五)- 爬虫代码总结的评论 (共 条)

分享到微博请遵守国家法律