Python爬取豆瓣Top250并可视化（五）- 爬虫代码总结

2022-11-11 15:28 作者:码夫破石 0人读过 | 我要投稿

写完这篇，爬虫代码就全部结束了。代码笔记：

代码的解释基本都在注释中。也很简单，主要是写成了一个类，这样程序只有一个入口。就是run()。总结了几种常用保存爬虫数据的方法：

1，保存到csv；

2，保存到excel；

3，保存到数据库，这里用的是sqlite和mysql；

需要注意的：

提取数据部分：

在get_data()里有一个项，也就是排名第53的电影《大闹天宫》，将年份和地区分离的时候，会让插入的sql语句产生错误，所以这里用了正则提取数字和文字。

数据保存部分：

1，保存数据到本地的时候，I/O文件与数据遍历的时候保存问题，一不小心就有可能只保存到一部分；

2，用xwlt保存到excel的时候双层循环问题；

3，用csv保存的时候DictWriter写法；

4，sqlite和mysql主键自增写法的不同，sqlite是autoincrenment，而mysql是auto_increment，确切的说是全部大写；

5，用占位符构造sql语句时的对愿列表进行处理的方法；也就是给data的每一项前后加上双引号的处理方法；

6，mysql创建数据的时候默认字符集的处理CREATE DATABASE IF NOT EXISTS {databasename} DEFAULT CHARSET utf8 COLLATE utf8_general_ci;

7，构造sql语句的时候最容易出现错误，最直观的方法就是在sql的控制台执行一下sql语句，看是不是有效运行，这样可以减少很多时间；

8，调试代码的时候可以用exit()，如果是循环，也可以用break；

9，试着给某些函数做条件限定。

标签：

Python爬取豆瓣Top250并可视化（五）- 爬虫代码总结的评论 (共条)