采集当当近30天图书畅销榜，做可视化数据分析

2022-12-05 11:44 作者:她的袖口有朵玫瑰 0人读过 | 我要投稿

我有看到一个博文是有用python对当当图书进行爬取并做一个简单的数据分析，最后有一个可视化的数据展示。

简单的数据采集小案例尝试一下下。

采集工具：八爪鱼

采集平台：当当图书（近30日畅销书，共计999本）

载入地址采集的第一页数据只需要标题和标题的一个地址，主要考虑的是进入图书详情页的具体数据统计分析。

为了时间缩短，可以清晰的看到是正在爬取，这边也在截图并进行文字编辑，目前主要考虑的是看一下哪一家出版社的占比较高，没有进行全方位数据获取，所以做一个微观。全站获取结果必然不会相像。

采集的完整数据字段

搞定收官，你可以清晰看到消灭不需要存在的冗余类：出版时间、大小分类、价格、评分、字数为主要的分析预留数据（采集格式或者是整理有误，缺失的就缺失了只跑流程）。

出版时间近三年占比较高。

考虑做一个图书标签可视化词云，大分类或许太过于宏观模糊只尝试图书标签

清除特殊符号保存为文本文档，保存格式为ANSI不然分词会有乱码，之前有讲过的哈。

用ROST来做分词，左上角功能性分析有分析“字频”和“词频”。

路径没问题点击确定会把统计的词频自动导出到文本文档。

ROST顶部工具栏有一个可视化分析打开选择路径。

很棒棒的哟！

表格中间有价格和评分因为时间就略略略吧！

图书出版社统计还是用wps的数据透视。

我印象当中前三家图书出版社，三家公司的公司地址都是北京的

好啦，更多的思路也或许是各种工具功能的实现尝试。

标签：

采集当当近30天图书畅销榜，做可视化数据分析的评论 (共条)