【国内使用ChatGPT】编写爬虫代码

让ChatGPT帮你编写代码,重在提问技巧。
要如何引导ChatGPT写出爬虫代码呢?咪老师这就来告诉你。
先来一个简单的任务,让ChatGPT爬取百度图片。



ChatGPT给出了完整的代码,并逐步进行了讲解。甚至还设置好了爬取页数的参数end_page,供我们灵活使用。
将ChatGPT给出的代码复制粘贴到VS Code中。

运行后,前3页的图片就被保存到本地名为“可颂猫”的文件夹里了。

接下来,我们让任务复杂一点。让ChatGPT爬取图片的同时,将对应的文本描述也一并爬取下来。
如今,多模态模型的应用越来越广泛。很多情况下,我们都需要获取这种既包含图片,又包含文字的多模态数据。

我们依然将ChatGPT给出的代码复制粘贴到VS Code里运行。但这次,本地的“可颂猫”文件夹居然是空的,没有爬取到我们想要的数据。
难道是ChatGPT不好用了吗?

当然不是!
ChatGPT之所以没有爬取到内容,大概率是没有找到内容所对应的关键字。而我们要做的,就是帮它找到关键字。
首先,打开浏览器,在百度图片里搜索“可颂猫”。然后单击鼠标右键,选择“检查”,打开开发者工具。

再选择“网络”中的“Fetch/XHR”。按Ctrl+R刷新页面,重新发生请求。
此时左侧的“名称”栏中,出现了响应。
然后点击“acjson?”一栏。在“预览”中可以看到,所有的数据都存放在“data”关键字下。

点开“data”。
然后任意点开其中一个数据,图片对应的文本描述就存放在“fromPageTitle”属性里。

而图片则以链接的形式,存放在“hoverURL”属性里。

所以爬虫代码需要的关键字就是“fromPageTitle”和“hoverURL”。
接下来,我们就将这两个关键字提示给ChatGPT,这样就可以得到准确的代码了。




我们还是将ChatGPT给出的代码复制粘贴到VS Code里运行。
这次,下载成功啦!

下载好的图片都以对应的文本描述进行了命名,存放在本地的“可颂猫”文件夹里。这种巧妙的设置非常便于我们后续构建多模态数据集。

看到这里,或许有同学想问:“如果我只想躺赢,懒得再引导ChatGPT。该如何让它一次性地成功实现呢?”
这种情况,我们就可以让ChatGPT把刚才成功的代码总结成一句命令。之后再碰到类似的问题,就可以直接套用这句命令模板,让ChatGPT帮我们完成任务。

有问题的朋友,欢迎在评论区留言或私信我~
更多内容,欢迎观看编程八点档!
ChatGPT3.5教程 👉【ChatGPT教程】
Python爬虫教程 👉【爬虫教程】