欢迎光临散文网 会员登陆 & 注册

Python爬取豆瓣Top250并可视化(三) —— 保存数据到数据库 —— Sqlite

2022-10-28 10:38 作者:码夫破石  | 我要投稿

Sqlite是一个轻量级数据库,前面说了将数据保存到excel和csv,但是这个项目的目的是将数据可视化后放在网站上以供展示的。所以保存到数据库会比较好一点。Sqlite和Python结合的基本用法在此——传送门

有几点:

1,headers里加cookie是因为调试sql语句的时候访问次数过多,被403了,所以在网页端登录后提取cookie加到脚本中才能正常访问;

2,我用的pycharm版本是2022.1的。写数据库表格主键的时候,不支持autoincrement;所以在save_to_database函数里用n进行计数,如果支持主键,sql语句可以简单很多,最起码插入语句就可以不用写id,那就可以不用n来计数;

3,也由于创建表格写主键的时候不支持autoincrement,构造sql语句的时候,用的是format而不是用的%s;format相对清晰一些,用%s构造,还得考虑id是整型值的问题;

4,构造sql语句的时候,值的部分一定是有双引号(也是可以是单引号""的),要注意创建表格的时候,数值类型与插入的时候值的对应。

再次记录Python爬虫数据与sql处理思路:

1,连接数据库;

2,获取数据库游标对象;

3,构造sql语句;

4,利用游标对象处理sql语句;

5,提交数据库更改commit(如果是查询数据库内容就不需要commit进行更改);

6,关闭数据库。

最后是存储到数据后的可视化表格截图:

数据可视化项目的数据全部来源于此。

声明:本文仅用于学些交流。也希望做爬虫的同学,在调试脚本的时候,如果需要有大量翻页处理,倡议脚本就翻一页,尽可能让脚本少请求服务器,给服务器减压。

Python爬取豆瓣Top250并可视化(三) —— 保存数据到数据库 —— Sqlite的评论 (共 条)

分享到微博请遵守国家法律