欢迎光临散文网会员登陆 & 注册

【国内使用ChatGPT】编写爬虫代码

2023-06-07 08:00 作者:编程八点档 0人读过 | 我要投稿

让ChatGPT帮你编写代码，重在提问技巧。

要如何引导ChatGPT写出爬虫代码呢？咪老师这就来告诉你。

先来一个简单的任务，让ChatGPT爬取百度图片。

ChatGPT爬取百度图片

ChatGPT给出了完整的代码，并逐步进行了讲解。甚至还设置好了爬取页数的参数end_page，供我们灵活使用。

将ChatGPT给出的代码复制粘贴到VS Code中。

Visual Studio Code运行代码

运行后，前3页的图片就被保存到本地名为“可颂猫”的文件夹里了。

本地“可颂猫”文件夹

接下来，我们让任务复杂一点。让ChatGPT爬取图片的同时，将对应的文本描述也一并爬取下来。

如今，多模态模型的应用越来越广泛。很多情况下，我们都需要获取这种既包含图片，又包含文字的多模态数据。

让ChatGPT爬取图片和对应的文本

我们依然将ChatGPT给出的代码复制粘贴到VS Code里运行。但这次，本地的“可颂猫”文件夹居然是空的，没有爬取到我们想要的数据。

难道是ChatGPT不好用了吗？

空文件夹

当然不是！

ChatGPT之所以没有爬取到内容，大概率是没有找到内容所对应的关键字。而我们要做的，就是帮它找到关键字。

首先，打开浏览器，在百度图片里搜索“可颂猫”。然后单击鼠标右键，选择“检查”，打开开发者工具。

选择“检查”

再选择“网络”中的“Fetch/XHR”。按Ctrl+R刷新页面，重新发生请求。

此时左侧的“名称”栏中，出现了响应。

然后点击“acjson?”一栏。在“预览”中可以看到，所有的数据都存放在“data”关键字下。

“data”关键字

点开“data”。

然后任意点开其中一个数据，图片对应的文本描述就存放在“fromPageTitle”属性里。

“fromPageTitle”属性

而图片则以链接的形式，存放在“hoverURL”属性里。

“hoverURL”属性

所以爬虫代码需要的关键字就是“fromPageTitle”和“hoverURL”。

接下来，我们就将这两个关键字提示给ChatGPT，这样就可以得到准确的代码了。

提示ChatGPT

我们还是将ChatGPT给出的代码复制粘贴到VS Code里运行。

这次，下载成功啦！

代码运行成功

下载好的图片都以对应的文本描述进行了命名，存放在本地的“可颂猫”文件夹里。这种巧妙的设置非常便于我们后续构建多模态数据集。

本地“可颂猫”文件夹

看到这里，或许有同学想问：“如果我只想躺赢，懒得再引导ChatGPT。该如何让它一次性地成功实现呢？”

这种情况，我们就可以让ChatGPT把刚才成功的代码总结成一句命令。之后再碰到类似的问题，就可以直接套用这句命令模板，让ChatGPT帮我们完成任务。

让ChatGPT总结成功案例

有问题的朋友，欢迎在评论区留言或私信我~

更多内容，欢迎观看编程八点档！

ChatGPT3.5教程 👉【ChatGPT教程】

Python爬虫教程 👉【爬虫教程】

标签：教程学习多模态计算机科技编程代码爬虫大数据 chatgpt

【国内使用ChatGPT】编写爬虫代码的评论 (共条)