从零开始的Java爬虫——浅谈采集站的技术变现
背景
我在高中的时候就有尝试着建立属于我自己的网站,那时候网络上的“免费空间”很多,种类也不少,我最初接触的是Discuz论坛程序,那时候大部分论坛都是使用的这个程序。直到我上大学学会了编程,从自己购买云主机搭建wordpress博客到自己开发简单的博客程序,大体明白了建站需要的那些东西——域名、服务器、网站程序。记得有一阵子“网赚”的话题比较火,我也购买了一些相关的图书,我记得比较清楚的两本是电脑迷杂志的《网上淘金》和另一本比较硬核的《Adsense实战宝典》:


Adsense这本书我看完之后感觉收益不大,因为当时的我并不知道如何才能建立一个有流量的网站,尽管如此,我还是去注册并成功申请了Adsense账号。
一些尝试
我毕业后的两三年里,有一种网站出现在我视线中的次数越来越多,它们都有一些共同特点——页面数量少、样式较为原始,最重要的是——这些网站的数据均是其他网站采集拿到的。我便开始了解爬虫采集相关的资料,并根据自身的需求自己开发了一个轻量的爬虫框架(可以在我的github上找到),这个框架虽然很原始,功能也很简陋,但我使用它的这几年一共采集了过亿的数据。我的第一个爬虫网站建立之后的几个月,流量缓慢增长,直到一年后,日pv稳定在一千左右,而adsense收入每天只有两元,这个收入连服务器成本都无法收回,因为服务器费用不算太贵,我也就一直维护着这个网站了。
第一个百刀
在第一个爬虫网站上线后过了大半年,我的adsense收入终于突破了一百美元(adsense最低一百美元打款),这是从0到1的突破。
在第二年的时候,流量有所上升,大概是三个月收一次adsense的程度。后来我做了一些其他方面的尝试,我最成功的一个网站,曾经达到了月流量五百万pv,可惜的是过了两个月就被搜索引擎给制裁了。
关于采集站的一些思考
技术方面的思考:
优化数据存储。对于传统的采集网站,过多的数据会对数据库产生很大的压力,建议单表小于一千万的数据,否则网站响应会变慢,除非你不差钱或者服务器性能很强。
完善基础框架。尽快搭建好扩展性强的框架,这样才能在搭建新网站时减少开发的时间成本,毕竟时间就是金钱。
必须使用最熟悉的语言和技术。不要使用任何不熟悉的新技术,网站追求的是稳定,网站挂掉一天,亏损的就是一天的收益。
鸡蛋不要放在一个篮子里。建立尽可能多的网站,这样当部分网站被降权时收入不至于降为零。
关于搜索引擎的思考:
百度索引很难做。
Bing会屏蔽采集网站,但是可以申诉解除黑名单。
谷歌会在两周到两个月内人工审核流量增长过快的网站,且申诉成功率基本为0。
总结
现在入局的人越来越多,采集站的数量成指数级增长,流量获取变得越来越困难,生存空间也越来越小,但你要是问能不能赚到钱,答案是肯定的,只是难度会越来越大。
我从第一个网站至今,一直是在闭门造车,几乎从不与圈内人沟通,也不清楚他们的建站手法和变现渠道。这几年我用Adsense赚了过万美元,但陆陆续续的总投入也超过了十万元,只能说勉强实现了收支平衡。我计划在未来几周内制作相关的视频实战教程,分享我建站的一些经验和教训。