欢迎光临散文网 会员登陆 & 注册

Java网络编程-爬虫

2021-09-08 22:46 作者:佛系的工具人  | 我要投稿

前言-该文章写于2019年末-结论: 爬虫这块还是python 香,建议少走弯路

其实我深知Java的爬虫比python要复杂很多,原因python先天的优势加上其丰富的第三方库,而就目前我比较熟悉Java,所以就使用Java来做了。

因为学校让在家搞个项目,我实在是想不出来有什么比较新颖的东西,就觉得爬虫这东西比较神奇,于是就报了一个项目,不管有什么结果,我还是想把它做完善,其实是我写项目介绍的时候写过了,说我的爬虫能爬音频,视频,文本,图片,HTML响应,尽管项目很小但bug层出不穷,所以我决定边做,边写....

数据的作用

网上很多人说爬虫违法,其实我们只要以学习为目的,不损害他人利益就不会触碰到法律,毕竟技术无罪,人有罪。

其实不然,爬虫的作用很多,百度就是一个爬虫,当你做了一个个人网站,或者博客,当你的站点有一定的流量的时候,你会发现你的网站在百度一下当中可以被搜索到,这就是因为,百度爬取了你的站点信息,并且把信息收录到了它的搜索引擎库内。

身处大数据的影响下,数据就是金钱。

金融,做市场分析,电商,做产品调研,很多东西的排名都离不开数据分析,而获取数据的工具爬虫是其一。

URL

URL是统一资源定位符的简称,它表示Internet上某资源的地址。通过URL我们可以访问网络上的各种资源。

URL对象是一个绝对的URL地址,但URL对象可用绝对URL、相对URL和部分URL来构建。

使用Java程序上网

使用URL可以远程访问资源,URL有openConnection()方法,用此来创建一个URLConnection对象,与调用URL对象相关,它返回一个URLConnection对象。但是它可能会发生I/O异常。

获取网页上的文字信息

接下来需要导入jar包依赖:

获取网站响应信息

获取网站图片

获取HTML

获取站点连接


Java网络编程-爬虫的评论 (共 条)

分享到微博请遵守国家法律