欢迎光临散文网 会员登陆 & 注册

2023批量下载公众号文章并抓取数据:阅读数点赞数在看数留言数等导出备份excel

2023-07-19 22:05 作者:苏生不惑  | 我要投稿

批量下载公众号文章我是通过抓包用python下载的,我在之前的文章说过,下载效果如图:

视频更新版:批量下载公众号文章内容/话题/图片/封面/音频/视频,导出html,pdf,excel包含阅读数/点赞数/留言数

下载的excel文件是文章数据,包含了文章日期,文章标题,文章链接,文章简介,文章作者,文章封面图,是否原创,IP归属地,阅读数,在看数,点赞数,留言数,赞赏次数等, 深圳卫健委的阅读数都是10万+:

文章下的留言 也可以下载到excel,包含文章日期,文章标题文章链接,留言昵称,留言内容,点赞数,回复和留言时间等 ,比如深圳卫健委在2月份就有1万6千多条留言。

接着可以用python来分析excel里的数据,wechat=pd.read_csv('xxx公众号历史文章.csv',encoding='utf-8')

查看文章总数量:

len(wechat)

查看阅读数总数:

>>> wechat.阅读数.sum()

文章发布作者前5的文章列表:

>>> wechat.文章作者.value_counts().sort_values(ascending=False).head(5)

阅读数10万+文章列表:

>>> wechat[wechat.阅读数>100000]           文章日期                  文章标题                                               文章链接  ...     阅读数  在

阅读数排行前10的文章列表:

>>> wechat[['文章日期','文章标题','文章链接','阅读数']].sort_values(by='阅读数', ascending=False).head(10)

更新版:整理下苏生不惑开发过的那些工具和脚本

如果只是下载单篇文章的内容,图片,视频,音频,封面,我也写了个工具:

神器又更新了,解放双手,一键下载

下载的音频文件保存在audio目录,视频文件保存在video目录,封面保存在cover目录,图片保存在images目录,文章内容保存在html目录,非常清晰。


2023批量下载公众号文章并抓取数据:阅读数点赞数在看数留言数等导出备份excel的评论 (共 条)

分享到微博请遵守国家法律