【爬虫案例】用Python爬取抖音热榜数据！

2023-07-23 06:56 作者:马哥python说 0人读过 | 我要投稿

一、爬取目标

您好，我是@马哥python说，一名10年程序猿。
本次爬取的目标是【抖音热榜】：https://www.douyin.com/hot

共爬取到50条数据，对应TOP50热榜。

含5个字段，分别是：热榜排名,热榜标题,热榜时间,热度值,热榜标签。

用Chrome浏览器，右键打开开发者模式，选择：网络->XHR这个选项，重新刷新一下页面。
操作过程，如下图所示：

成功找到了50条热榜数据。

下面，开始编码爬虫代码。

首先，导入需要用到的库：

定义一个请求地址，即上图中的目标链接地址：

定义一个请求头，从开发者模式中的Headers->Request Headers中复制下来：

不知如何获取Cookie？参考下图：

向目标地址发送请求（带上请求头），并用json格式接收返回数据：

定义一些空列表，用于存储数据：

以“热榜标题”为例，解析数据：

其他字段同理，不再赘述。

最后，把解析到的数据，存储到Dataframe中，并保存到csv文件里：

这里需要注意的是，to_csv要加上encoding='utf_8_sig'参数，防止保存到csv文件产生乱码数据。
查看部分爬取结果：

共51条数据（含1条置顶热搜），对应热榜TOP50排名。
每条数据含5个字段：热榜排名,热榜标题,热榜时间,热度值,热榜标签。

代码演示:

爱学习的小伙伴，本次分析过程的完整python源码及结果数据，我已打包好，并上传至我的微信公众号"老男孩的平凡之路"，后台回复"爬抖音热榜"即可获取！

我是@马哥python说，持续分享python源码干货中！