欢迎光临散文网 会员登陆 & 注册

[Warframe]Wiki爬虫事件

2021-02-08 09:02 作者:lonnstyle  | 我要投稿

犬首六年...算了,一个比较正经严肃的问题就不说文言文了

Warframe中文维基(灰机)由于爬虫攻击,因此灰机站长 SerGawen(a.k.a.狗头人Warframe站点进行了隔离,仅有狗头人App或于编辑群内的活跃编辑可透过特定UA(User Agent)进行访问。当然,有不少用户一直并没有使用狗头人App亦不打算下载狗头人App使用,因此出现了一些阴谋论。


其中包括:推广App的使用,Wiki准备开始收费


阴谋论1.推广App的使用

推广App对灰机有什么收益吗?

App的开屏广告?

根据我这几天亲身使用...

你骗人吧,你一个香港人,哪来的国内手机号注册....”

还真不好意思,我现在在国内,前几天才去开了个手机号

以我自己的使用经验来看,我还真没遇过几个广告,这根本就是一个嵌套webview而已,不过有着比MediaWiki好多了的搜索引擎(毕竟是狗头人自己弄的,不是MW自带的)。让你们下载一个仅有54.55MB大小的软件(作为参考,Bilibili安卓客户端大小为243MB,还有用户资料什么的加起来可以达到1GB),体验更好的搜索引擎,而且几乎是零收益,有什么问题?一个屋子有前门后门,前门塌了让你走更安全更舒服的后门出入没什么问题吧?


阴谋论2.Wiki准备开始收费

首先,Wiki的协议是CC BY-SA 3.0,也就是说即使真的收费了你也耐不何,仅需要作出适当的署名;详情搜一下这个协议名称应该不难理解。然而,若然狗头人进行收费了,那第一个不满的肯定是我们这一群无私奉献的编辑者。也不用你们来吵,我们自己就反了。Wiki作为一个给大家查阅资料的公开平台,从来没有打算过向大家收费,有的仅是一个几乎从来没有人在意过的加油赞助按键和极稀有的零星页面广告。钱真的有这么重要?加油赞助的收入归该站点所有,而Warframe站点的加油资金是从来没有调用过,那¥820一直都躺在那里没有人碰过。难不成我们编辑群90人每人分那不到十块的钱很快乐吗?而广告收入归狗头人所有,但灰机虽然不收费,也有伺服器维护成本,这些收入基本上都是投入到灰机的开销上,虽然不多,但不至于使wiki变得需要收费。


面对Wiki的隔离,出现了一些说要制作自己的Wiki站点的言论。其中最著名的应该就是Bwiki了吧。

Bwiki Warframe站点

...一个首页都没内容的Wiki你们是想看什么?

先不说从头开始重新写一次Wiki,即便是完完全全的镜像站点,内容全靠搬运,内容页面少说六七千个,还有各式各样的模块、模板、cssjs等等,你搬了还要考虑兼容适配的问题。并不是所有维基都拥有一样的组件,就比如说MongoDB这个支持着维基内所有模板翻译调用词典的组件,Fandom上就没有。


Bwiki有灰机的技术指导吗?有各种从零开始的文档吗?一群完全没碰过wiki的人真的有这样的技术和能力去重新写一个维基吗?即便文本内容和代码全部复制,你又能确保兼容问题吗?就比如说Fandom那边以前一直使用旧版本的MediaWiki,一直无法兼容灰机这边的代码,Bwiki就不会出现这种问题吗?

而且建造一个Wiki有多难?

可能不是很多人知道,Warframe中文维基的建站站长并非如今的站长Div2009,而是Honestleaf;在他来灰机之前,其实有一个Fandom的中文站点,后来由于考虑到国内访问的不易,将站点迁移到灰机。

去年,我对维基编辑还不是很熟悉(其实到现在也没特别精通),我向他请求拿到了Fandom站的管理员权限,并尝试逐渐修复和将站点内容繁体化,可这时我才发现没有一群大佬们的帮助,建造一个维基有多么的困难。

你需要会Wikitext(这是最基础的了)Lua(主要用於模板)js(大部分wiki上的互动性元素基本都可以确定是js)css(页面的配色、各种文本样式什么的)等等...这还只是个基础。

你要去做镜像站点或者自己从头建造的话我十分佩服你的志气,可你确定你有足够的技术力和人手吗?而且我们维基编辑群里仍未收到任何正式的通知说要建立镜像站点,如非完全重写,那可以说是剽窃众多维基编辑者的努力成果了。

那为什么要隔离?隔离之前我都觉得好好的啊?

灰机的伺服器都有缓存,所有的内容并非即时更新,而是使用缓存,所以一般的阅读访问并不容易出现50X的报错。
啊?那为什么说爬虫导致了wiki50X

那是因为编辑们对内容进行改动的时候是没有缓存的
为什么编辑不用缓存?

缓存就比方说刚有人让你算了一条很复杂的微积分,然后另一个人问你同样的题目,你自然不会重新计算一遍直接说出答案。而假如另一个人提出问题的时候改了其中一个变量,那你无论如何都要重新计算一次这条微积分才能给出答案。这也就是为什么编辑们无法使用缓存。

我要水编辑啊!!!

然而,50X的频繁出现严重的影响了总多编辑的使用体验。而影响编辑体验的元凶就是一众爬虫。所以狗头人决定隔离站点,使爬虫不再有能力访问wiki,从而达到改善编辑体验一举。在此可以很负责任的说,自从站点隔离之后,各位编辑目前仍未遇到大规模影响编辑体验的50X(可能仍有极少数零星事件,但很多时候都是因为MediaWiki的瓶颈)。


说真的,隔离站点你们还有狗头人App能看,爬虫什么都没有,跳的最欢的那几个你确定没有爬虫的存在吗?

狗头人App不就是个嵌套Webview吗?垃圾!

这是因为维基是一个UGC(User Generate Content用户创作内容)的网站,当中有不少Lua、js等代码难以为移动端制作原生内容,同时因为Mediawiki等低兼容性,移动端难以重新渲染页面。虽然已经针对大多数内容进行优化,可移动端App始终只能透过请求伺服器发送已经渲染完的html代码获得页面,而并非原生的wikitext。

说到爬虫问题,狗头人其实已经更新了403页面给大家提供更多详细资讯,不过相信大多数人并没有去看,因此也在这里做一次整理。

首先爬虫是一个很常见的技术,搜索引擎、机器人查询等都会用到这个技术,以读取并分析目标页面的内容。可事实上搜索引擎(如谷歌、雅虎、百度)等都会有一个规范的UA表明身份。但从23日的伺服器日志分析结果来看,前二十名异常值的UA均为各种浏览器,包括MozillaSafariChromeQQ浏览器,均非搜索引擎所使用的UA

中间的UA统一为各式各样的浏览器,真的不是伪装的吗?

你们数数看有多少个"0"?

从平均每次访问之间只有3秒时间,甚至有一大片0迟的连续访问记录来看,这些并非正常的机器人查询/搜索引擎爬虫,而是恶意攻击。


而且从流量统计来说,WF站的访问次数的确十分异常,一个站点可以有其他所有站点加起来的三倍访问,你确定吗?

你们这是在维基上面下载了三次Warframe?

同时,就这机器人访问的问题,本人有以下的见解

首先,国内访问wiki的速度并不慢,并无必要使用机器人进行Wiki的访问,你是海外党另算。

此外,查询Wiki有两种方法,HTTP Request的爬虫或者透过API接口访问。

此次攻击中均为HTTP Request,且均为使用https协议,对伺服器开销更大。而并没有提升访问的速度,根本没有使用机器人访问的意义。

透过API接口访问可以直接读到未经渲染的wikitext,对伺服器开销小很多,且能有效提升访问速度,具体的文档可以在https://www.huijiwiki.com/wiki/API 看到

而针对一些法律问题和各种针对灰机的言论,狗头人已经作出回应,我就不多复述

应要求给两位警察叔叔打码了

所有的东西都是公开透明,大家自己也能够看到


网络上造谣不需要成本,可不代表不需要负上责任。也恳请各位多看不同来源的信息资料,自己分析孰对孰错,而非一面支持舆论。


[Warframe]Wiki爬虫事件的评论 (共 条)

分享到微博请遵守国家法律