欢迎光临散文网 会员登陆 & 注册

【国内使用ChatGPT】编写爬虫代码

2023-06-07 08:00 作者:编程八点档  | 我要投稿

    让ChatGPT帮你编写代码,重在提问技巧

    要如何引导ChatGPT写出爬虫代码呢?咪老师这就来告诉你。


    先来一个简单的任务,让ChatGPT爬取百度图片。



ChatGPT爬取百度图片

    ChatGPT给出了完整的代码,并逐步进行了讲解。甚至还设置好了爬取页数的参数end_page,供我们灵活使用。


    将ChatGPT给出的代码复制粘贴到VS Code中。

Visual Studio Code运行代码


    运行后,前3页的图片就被保存到本地名为“可颂猫”的文件夹里了。

本地“可颂猫”文件夹


    接下来,我们让任务复杂一点。让ChatGPT爬取图片的同时,将对应的文本描述也一并爬取下来。

    如今,多模态模型的应用越来越广泛。很多情况下,我们都需要获取这种既包含图片,又包含文字的多模态数据。

让ChatGPT爬取图片和对应的文本


    我们依然将ChatGPT给出的代码复制粘贴到VS Code里运行。但这次,本地的“可颂猫”文件夹居然是空的,没有爬取到我们想要的数据。

    难道是ChatGPT不好用了吗?

空文件夹


    当然不是!

    ChatGPT之所以没有爬取到内容,大概率是没有找到内容所对应的关键字。而我们要做的,就是帮它找到关键字。

    首先,打开浏览器,在百度图片里搜索“可颂猫”。然后单击鼠标右键,选择“检查”,打开开发者工具。

选择“检查”


    再选择“网络”中的“Fetch/XHR”。Ctrl+R刷新页面,重新发生请求。

    此时左侧的“名称”栏中,出现了响应。

    然后点击“acjson?”一栏。在“预览”中可以看到,所有的数据都存放在“data”关键字下。

“data”关键字


    点开“data”

    然后任意点开其中一个数据,图片对应的文本描述就存放在fromPageTitle属性里。

“fromPageTitle”属性


    而图片则以链接的形式,存放在hoverURL属性里。

“hoverURL”属性


    所以爬虫代码需要的关键字就是“fromPageTitle”“hoverURL”

    接下来,我们就将这两个关键字提示给ChatGPT,这样就可以得到准确的代码了。

提示ChatGPT


    我们还是将ChatGPT给出的代码复制粘贴到VS Code里运行。

    这次,下载成功啦!

代码运行成功


    下载好的图片都以对应的文本描述进行了命名,存放在本地的“可颂猫”文件夹里。这种巧妙的设置非常便于我们后续构建多模态数据集。

本地“可颂猫”文件夹


    看到这里,或许有同学想问:“如果我只想躺赢,懒得再引导ChatGPT。该如何让它一次性地成功实现呢?”

    这种情况,我们就可以让ChatGPT把刚才成功的代码总结成一句命令。之后再碰到类似的问题,就可以直接套用这句命令模板,让ChatGPT帮我们完成任务。

让ChatGPT总结成功案例


有问题的朋友,欢迎在评论区留言或私信我~


更多内容,欢迎观看编程八点档!

ChatGPT3.5教程 👉【ChatGPT教程】

Python爬虫教程  👉【爬虫教程】


【国内使用ChatGPT】编写爬虫代码的评论 (共 条)

分享到微博请遵守国家法律