欢迎光临散文网 会员登陆 & 注册

网络爬虫实现过程入门(Python)

2023-09-25 21:19 作者:Ktz-周  | 我要投稿

说好听点,叫网络爬虫,说简单点,叫“向服务器发送网络请求”。其实我们在浏览器中获取到的网页数据,都是我们在本地向服务器发送请求,由服务器回复我们的内容。而要让服务器知道我们要什么,就得学会说服务器听得懂的话。

那么该如何学会说这样的话呢?我们可以右键点击网页,选择菜单中的检查,打开浏览器调试窗口,快捷键是F12(Fn + F12),选到网络。

这时候我们刷新一下页面,可以看到有很多的内容跳出,这一些其实就是服务器通过网络与我们“交谈”的内容。

我们可以滑动到最上方,点击第一个文件(至于为什么知道哪一个是我们需要的,还得靠自己一个一个找),在文件列表右侧显示出了这个信息的具体内容。其实最主要的就是请求url,请求方法。

在预览tab中,我们可以看到信息解析后的内容,而响应tab则是原始信息内容。可以看到展示在我们面前的一个网页,其实是一段很长的代码。

我们可以在自己的程序中向服务器发送这样的请求,以下是Python代码实现(需要下载requests库,可参考我的另一篇文章)。运行该代码,你会发现得到的内容是和响应tab完全一致的。其实不止是Python,其他编程语言都有自己的网络请求库,不是用Python写,才叫网络爬虫。

网站上的很多操作,其实都是去发送一个个类似这样的网络请求,而我们要做的就是去找出这些请求的路径、方法、数据等等(必要时可以先清除先前的数据,再进行如按钮点击等操作,防止干扰内容过多),用程序去模拟这样的请求。这里只是简单的实现,更深入的学习,还得看自己。

感谢您的赏读。

网络爬虫实现过程入门(Python)的评论 (共 条)

分享到微博请遵守国家法律