Java网络编程-爬虫
前言-该文章写于2019年末-结论: 爬虫这块还是python 香,建议少走弯路
其实我深知Java的爬虫比python要复杂很多,原因python先天的优势加上其丰富的第三方库,而就目前我比较熟悉Java,所以就使用Java来做了。
因为学校让在家搞个项目,我实在是想不出来有什么比较新颖的东西,就觉得爬虫这东西比较神奇,于是就报了一个项目,不管有什么结果,我还是想把它做完善,其实是我写项目介绍的时候写过了,说我的爬虫能爬音频,视频,文本,图片,HTML响应,尽管项目很小但bug层出不穷,所以我决定边做,边写....
数据的作用
网上很多人说爬虫违法,其实我们只要以学习为目的,不损害他人利益就不会触碰到法律,毕竟技术无罪,人有罪。
其实不然,爬虫的作用很多,百度就是一个爬虫,当你做了一个个人网站,或者博客,当你的站点有一定的流量的时候,你会发现你的网站在百度一下当中可以被搜索到,这就是因为,百度爬取了你的站点信息,并且把信息收录到了它的搜索引擎库内。
身处大数据的影响下,数据就是金钱。
金融,做市场分析,电商,做产品调研,很多东西的排名都离不开数据分析,而获取数据的工具爬虫是其一。
URL
URL是统一资源定位符的简称,它表示Internet上某资源的地址。通过URL我们可以访问网络上的各种资源。
URL对象是一个绝对的URL地址,但URL对象可用绝对URL、相对URL和部分URL来构建。
使用Java程序上网
使用URL可以远程访问资源,URL有openConnection()方法,用此来创建一个URLConnection对象,与调用URL对象相关,它返回一个URLConnection对象。但是它可能会发生I/O异常。
获取网页上的文字信息
接下来需要导入jar包依赖:
获取网站响应信息
获取网站图片
获取HTML
获取站点连接