欢迎光临散文网 会员登陆 & 注册

Python爬虫实战之提高CSDN访问量

2023-07-24 12:41 作者:七楼的个坏蛋  | 我要投稿

python爬虫之建立代理池(一)_CodingInCV的博客-CSDN博客: https://blog.csdn.net/liuhao3285/article/details/131762924
python爬虫之建立代理池(二)_CodingInCV的博客-CSDN博客: https://blog.csdn.net/liuhao3285/article/details/131819568

前面2篇分别介绍了从2个免费代理网站爬取免费代理来构建我们自己的代理池。这一篇我们从实战的角度来将我们的代理池用起来,通过代理的方式访问我们的CSDN博客(CSDN会认为是一次访问,访问量+1),从而实现访问量的增长,仅供学习爬虫使用···

获取博客文章列表和链接

获取博客列表的链接是https://blog.csdn.net/xxx/article/list/, 通过在后面添加页数,获取不同页的博客列表。

通过分析页面的html,我们可以知道文章都在html的“article-item-box”中,因此我们可以通过在返回的html中查找“article-item-box”来得到所有的文章链接。

通过代理访问CSDN文章

通过设置requests接口的proxies参数,即可以代理的方式访问CSDN的博客。为了更像一个真正的浏览器,我们还要经常切换User-Agent,也就是浏览器的头。

进阶

User-Agent

The Latest and Most Common User Agents List (Updated Weekly): https://www.useragents.me/我们可以从这个网站下载User-Agent列表,每次访问时从中随机一个。

代理池管理

前面只是从代理网站爬取了代理,为了有效管理,我们可以在这些代理基础上,进一步开发代理池的持久化功能,比如当有代理增加或者删除时,立即保存到本地;也可以将代理保存到redis, 实时更新,要获取代理时,也从redis中获取。简单起见,这里以保存到本地json为例:

定时爬取最新的代理和文章列表

可以借助apscheduler建立2个定时任务,免去自己手动实现定时任务:

完整代码:

面包多:https://mbd.pub/o/bread/ZJuam5lx

Python爬虫实战之提高CSDN访问量的评论 (共 条)

分享到微博请遵守国家法律