欢迎光临散文网 会员登陆 & 注册

采集当当近30天图书畅销榜,做可视化数据分析

2022-12-05 11:44 作者:她的袖口有朵玫瑰  | 我要投稿


我有看到一个博文是有用python对当当图书进行爬取并做一个简单的数据分析,最后有一个可视化的数据展示。

简单的数据采集小案例尝试一下下。

采集工具:八爪鱼

采集平台:当当图书(近30日畅销书,共计999本)

载入地址采集的第一页数据只需要标题和标题的一个地址,主要考虑的是进入图书详情页的具体数据统计分析。

为了时间缩短,可以清晰的看到是正在爬取,这边也在截图并进行文字编辑,目前主要考虑的是看一下哪一家出版社的占比较高,没有进行全方位数据获取,所以做一个微观。全站获取结果必然不会相像。

采集的完整数据字段

搞定收官,你可以清晰看到消灭不需要存在的冗余类:出版时间、大小分类、价格、评分、字数为主要的分析预留数据(采集格式或者是整理有误,缺失的就缺失了只跑流程)。

出版时间近三年占比较高。

考虑做一个图书标签可视化词云,大分类或许太过于宏观模糊只尝试图书标签

清除特殊符号保存为文本文档,保存格式为ANSI不然分词会有乱码,之前有讲过的哈。

用ROST来做分词,左上角功能性分析有分析“字频”和“词频”。

路径没问题点击确定会把统计的词频自动导出到文本文档。

ROST顶部工具栏有一个可视化分析打开选择路径。

很棒棒的哟!

表格中间有价格和评分因为时间就略略略吧!

图书出版社统计还是用wps的数据透视。

我印象当中前三家图书出版社,三家公司的公司地址都是北京的

好啦,更多的思路也或许是各种工具功能的实现尝试。


采集当当近30天图书畅销榜,做可视化数据分析的评论 (共 条)

分享到微博请遵守国家法律