欢迎光临散文网 会员登陆 & 注册

【爬虫案例】用Python爬取抖音热榜数据!

2023-07-23 06:56 作者:马哥python说  | 我要投稿

一、爬取目标

您好,我是@马哥python说,一名10年程序猿。
本次爬取的目标是【抖音热榜】:https://www.douyin.com/hot

抖音热榜

共爬取到50条数据,对应TOP50热榜。

含5个字段,分别是:热榜排名,热榜标题,热榜时间,热度值,热榜标签

用Chrome浏览器,右键打开开发者模式,选择:网络->XHR这个选项,重新刷新一下页面。
操作过程,如下图所示:

开发者模式

成功找到了50条热榜数据。

下面,开始编码爬虫代码。

二、编写爬虫代码

首先,导入需要用到的库:

定义一个请求地址,即上图中的目标链接地址:

定义一个请求头,从开发者模式中的Headers->Request Headers中复制下来:

不知如何获取Cookie?参考下图:

获取cookie方法

向目标地址发送请求(带上请求头),并用json格式接收返回数据:

定义一些空列表,用于存储数据:

以“热榜标题”为例,解析数据:

其他字段同理,不再赘述。

最后,把解析到的数据,存储到Dataframe中,并保存到csv文件里:

这里需要注意的是,to_csv要加上encoding='utf_8_sig'参数,防止保存到csv文件产生乱码数据。
查看部分爬取结果:

部分爬取结果

共51条数据(含1条置顶热搜),对应热榜TOP50排名。
每条数据含5个字段:热榜排名,热榜标题,热榜时间,热度值,热榜标签。

三、同步讲解视频

3.1 代码演示视频

代码演示: 


四、获取完整源码

爱学习的小伙伴,本次分析过程的完整python源码及结果数据,我已打包好,并上传至我的微信公众号"老男孩的平凡之路",后台回复"爬抖音热榜"即可获取!


我是@马哥python说 ,持续分享python源码干货中!

【爬虫案例】用Python爬取抖音热榜数据!的评论 (共 条)

分享到微博请遵守国家法律