欢迎光临散文网 会员登陆 & 注册

2023 批量抓取公众号历史文章数据(阅读数,点赞数,在看数,留言数),导出文章pdf

2023-07-24 23:09 作者:苏生不惑  | 我要投稿

2023年我写了个脚本批量下载某个公众号的所有历史文章批量下载公众号文章内容/话题/图片/封面/音频/视频,导出html,pdf,excel包含阅读数/点赞数/在看数/留言数/赞赏数 ,效果如图:

下载的excel文件数据包含文章日期,文章标题,文章链接,文章简介,文章作者,文章封面图,是否原创,IP归属地,阅读数,在看数,点赞数,留言数,赞赏次数,视频数,音频数等,比如深圳卫健委2022年的1000多篇文章阅读数都是10万+,excel的数据分析见这篇文章2022年过去,抓取公众号阅读数点赞数在看数留言数做数据分析, 以深圳卫健委这个号为例 ,我用的python的pandas。


为了方便找历史文章,部分公众号的所有历史文章同步到了博客,会持续更新,不用在手机上一直下拉翻历史文章了 ,比如深圳卫健委从2014到2023发布了1万多篇文章,第一篇文章很快就能找到:


每篇文章下的留言内容也可以单独导出到excel,数据包含文章日期,文章标题文章链接,留言昵称,留言内容,点赞数,回复和留言时间,比如深圳卫健委这个号在2月份就有1万6千多条留言。

下载所有文章这里以莫言老师的公众号为例,包括文章内容(含留言),音频和视频等 :


最后我还写了个工具将所有文章合并成一个pdf文件(含留言),点击左侧书签跳转到对应文章,保存在电脑和手机上看方便多了:

2023 更新版:我开发过的那些原创工具和脚本

再次更新:2023批量下载公众号文章内容/话题/图片/封面/视频/音频,导出文章pdf,文章数据含阅读数/点赞数/在看数/留言数

微博图床又搞事情不能用了,盘它,我顺便写了个微博图片/视频/内容/文章批量下载工具

2023 年数字图书馆 zlibrary 复活,新推出客户端人人可用

总有人问我 Cookie 是什么?


2023 批量抓取公众号历史文章数据(阅读数,点赞数,在看数,留言数),导出文章pdf的评论 (共 条)

分享到微博请遵守国家法律