Java网络编程-爬虫

2021-09-08 22:46 作者:佛系的工具人 0人读过 | 我要投稿

前言-该文章写于2019年末-结论: 爬虫这块还是python 香，建议少走弯路

其实我深知Java的爬虫比python要复杂很多，原因python先天的优势加上其丰富的第三方库，而就目前我比较熟悉Java，所以就使用Java来做了。

因为学校让在家搞个项目，我实在是想不出来有什么比较新颖的东西，就觉得爬虫这东西比较神奇，于是就报了一个项目，不管有什么结果，我还是想把它做完善，其实是我写项目介绍的时候写过了，说我的爬虫能爬音频，视频，文本，图片，HTML响应，尽管项目很小但bug层出不穷，所以我决定边做，边写....

网上很多人说爬虫违法，其实我们只要以学习为目的，不损害他人利益就不会触碰到法律,毕竟技术无罪，人有罪。

其实不然，爬虫的作用很多，百度就是一个爬虫，当你做了一个个人网站，或者博客，当你的站点有一定的流量的时候，你会发现你的网站在百度一下当中可以被搜索到，这就是因为，百度爬取了你的站点信息，并且把信息收录到了它的搜索引擎库内。

身处大数据的影响下，数据就是金钱。

金融，做市场分析，电商，做产品调研，很多东西的排名都离不开数据分析，而获取数据的工具爬虫是其一。

URL是统一资源定位符的简称，它表示Internet上某资源的地址。通过URL我们可以访问网络上的各种资源。

URL对象是一个绝对的URL地址，但URL对象可用绝对URL、相对URL和部分URL来构建。

使用URL可以远程访问资源，URL有openConnection()方法，用此来创建一个URLConnection对象，与调用URL对象相关，它返回一个URLConnection对象。但是它可能会发生I/O异常。