欢迎光临散文网会员登陆 & 注册

chrome扩展应用web scraper使用教程

2023-08-01 17:24 作者:新的褪色者 0人读过 | 我要投稿

有同学私信对于网页爬虫比较感兴趣，用python写又不怎么会，其他的爬虫软件又收费，那么有没有即免费又好用的爬虫应用呢？最近发现了一个chrome的扩展应用web scraper，这个直接在chrome浏览器里下载即可。google搜索：应用商店，或者直接打开下面这个连接：https://chrome.google.com/webstore/category/extensions?hl=zh-CN

添加到chrome浏览器即可。

然后我们打开我的网站，按下F12，在最后就能看到刚才安装的浏览器插件了，这里点击create new sitmap，然后添加一个名字和当前的页面链接，点击create sitemap如下图所示：

添加后需要add new selector，如下图所示：

点击后，这里需要注意了，这里需要爬取的文章目录。因为博客内的文章很多所以需要多选同类型的标签，勾选mulitple，type的类型选择链接，然后选择多个文章的标题，如下图所示：

点击done selecting，完成选择，得到如下的ID和selcetor。

再点击articles后进入下一层，如下图。同样需要add new selector：

这时候我们需要进入博客内的一个页面，设置一个Id为title，type为默认text，然后点击select，选择标题–最简单最有效-几秒捏实现AI换脸，然后点击Down selecting和save selector如下图所示。

然后增加一个发布时间选项，设置一个Id为time，type为默认text，然后点击select，选择时间-2023年7月21日，然后点击Down selecting和save selector如下图所示。

继续和上面一样，按照步骤设置一个Id为txt，type为默认text，然后点击select，选择整个文章，然后点击Down selecting和save selector如下图所示。

这样我们就得到了下图的结构：

这时候可以点击右侧的data preview，查看预爬取的内容，如下：

做到这一步只是，实现了第一页的文章采集，其实可以通过下图看出一共有11个文章页面，最后需要回到root，实现翻页爬取的效果。

这里需要设置一个Id为page，type为pagination，然后点击select，选择1和…，然后点击Down selecting和save selector如下图所示。

注意：这里需要编辑articles里的Parent Selectors，选择root和page，然后点击save selector，如下图，以便爬取所有的网页文章。

然后点击sitemap x521里的scrape等待爬取完毕，然后export data，导出为.xlsx格式的文件

这样就直接导出为表格，最后得到了所有的文章标题、发布时间和内容。

显然这个教程不如视频看起来直观，并且需要一定的html知识。操作上遇到困难的同学可以直接私信我。

标签：扩展应用网站爬虫爬虫使用教程 chrome插件 web scraper

chrome扩展应用web scraper使用教程的评论 (共条)