欢迎光临散文网 会员登陆 & 注册

为啥说大数据时代没有隐私

2021-05-06 13:29 作者:爱数据分析社区  | 我要投稿

必须承认:大数据对个人隐私的保护带来了挑战。

主要问题在于

与传染病流行的三要素(传染源、传播途径、易感人群)类似,大数据增加了隐私泄露的“传染源”的数量、加速了“传播途径”、扩大了“易感人群”的规模,并且“疫苗”的推出还存在时效性缺陷,因此无疑给个人隐私保护带来了巨大的挑战。“传染源”方面,更多的个人隐私以可传播的形式存在;“传播途径”方面,个人隐私传播的路径更加多样、传播速度更快;“易感人群”方面,个人隐私数据蕴含着巨大的经济价值,有许多人或者实体想要利用这些数据牟利;“疫苗”方面,技术发展的速度远大于立法、修法的速度,很多时候存在法律与现实脱节的问题。


但这个问题并不是单向的,从普通用户角度看到的是大数据对个人隐私保护的挑战;从大数据从业者的角度,看到的还有由于对隐私保护的重视导致的数据孤岛问题。


隐私保护

随着大数据的不断发展,重视数据隐私和安全已经成了世界性的趋势,世界上很多国家都在立法保护数据安全和隐私。例如影响非常广泛的欧盟的《数据安全保护条例》(General Data Protection Regulation, GDPR),GDPR的实施对大数据的收集、交换、转移、建模等各个环节都带来了巨大的挑战,一个涉及大数据的实体稍有不慎就可能面临严(ju)厉(e)的(de)处(fa)罚(kuan)。:)


而我国也在加快立法进程以保护数据安全和个人隐私,近年来,许多法律、法规、规章密集出台;并且呈现出严格化和全面化的趋势(如下图)。此外,十三届全国人大常委会已将制定《个人信息保护法》列入本届立法规划,预计会在近年内出台。


但是

对于个人隐私保护来说,并不是法律管得越严格、越全面就越好。

以GDPR为例,作为影响最广泛的数据安全法律,其执行一年多以来,已经引起了很多的争议。今年6月,美国智库信息技术和创新基金会(ITIF)下属的数据创新中心发布报告,分析了欧盟GDPR对企业、数字创新、劳动力市场和消费者等多方面的挑战。报告指出,GDPR生效一年后,越来越多的证据表明法律没有产生预期的结果,而且带来了意想不到的后果,具体表现为:对欧盟经济和企业产生负面影响、消耗公司资源、伤害欧洲科技创业公司、削弱数字广告行业的竞争、企业实施起来过于复杂等。GDPR甚至给普通消费者也带来了不少问题:未能增加用户之间的信任,对用户的在线访问产生负面影响,过于复杂让消费者难以理解等。


GDPR的实施之所以会导致普通消费者面临各种问题,我认为一大因素是其赋予了过多的数据自决权利。弗洛伊德在《文明与缺憾》里面提出,大多数人并不是真的想要自由,因为自由包含着责任,而大多数人并不愿意承担责任。给个人赋予过多的数据自决权利并不必然意味着对个人隐私的良好保护,一个很现实的问题是数据自决权利的实施很可能会沦为勾选隐私保护格式条款一样的存在(事实上,连美国联邦最高法院的罗伯茨大法官,都坦言自己不会阅读平常遇到的隐私协议)。我们常常呼吁大数据公司、从业者在收集数据时要遵循“最少够用原则“,但也想呼吁法律的制定要遵循”最少够用原则“,让法律的归法律,让技术的归技术。


需要提到的是

巨头掌握的数据,可以从“结构化”和“身份化”两个角度来看。

解释一下:结构化,是指数据可以填到表格里,就像通讯录一样规定了每个字段属性的那种数据。身份化,就是指数据背后能否对应到你这个真实的人。


1)阿里巴巴的数据是“强结构化”+“强身份”的。

淘宝,可以知道你购买物品的名称、价格、购买时间、地址、电话。支付宝,可以知道你的身份证、电话、付款金额,资金流向。强结构化的数据处理起来是最简单的,因为计算机在设计之初就是用来“算数”的,最适合处理比较规整的数据。数据挖掘带来的利润显而易见,那些年阿里巴巴在电商领域一骑绝尘,数据分析肯定功不可没。但是在2009年之前,阿里巴巴用以支持数据存储和计算的主要是 IBM 小型机和甲骨文数据库。这些都是进口货,死贵死贵的。随着对于计算越来越倚重,阿里发现一个问题:IBM 和甲骨文数据库在面对超大规模计算的时候,性能劣化太TM严重,相当十分肯定完全对不起这个价格,这才有了用便宜的PC通用服务器搭建一套计算系统——阿里云——的冲动。实话实说,阿里云的创立者王坚博士当初加盟阿里巴巴,目的不是做一个云计算底层架构,而恰恰是为了做一个大数据平台,而为了做这个大数据平台,反而需要首先建立阿里云。



阿里云其实是个“大数据母体”的副产品。再说到“强身份”。一个人的姓名、年龄、住址、身高体重、生活作息等习惯这些数据,其实隐含了巨大的信息量。就像你看到一个年轻妹子,你会猜她大概率喜欢化妆品和包包;你看到一个肥宅,你会猜他喜欢零食和快乐水。大数据系统利用社会学的知识图谱,把这些身份背后的隐含信息和搜索关键词信息结合起来去做推荐,往往一发入魂。剁手上瘾,岂能无缘无故。


2)百度的数据是“强结构化”+“次强身份”的。

大多数人在百度搜索的时候,不会使用整句,而是使用关键词。关键词对应的“索引”也是一种结构化数据。这里多说一句,李彦宏的本科就是北大图书情报专业,而图书专业的核心知识就是如何科学地建立“索引”。所以他能搞出百度搜索引擎凭借的是扎实的科学知识。百度从上线的第一天开始,关键词数据就是核心资源,有了它,不仅可以做竞价排名,还可以做广告推送。



说到这里想到了一个趣事。2000年的百度搜索引擎首次上线,用户搜索的第一个关键词是“张朝阳”,第二个关键词就是一个羞羞的词汇:“成人图片”。我猜,如果百度开放成人网站的竞价排名,那市值比现在要大无数倍。。。但是百度的关键词数据却不像淘宝一样可以和具体人的身份精确对应。那是因为,你搜索一个关键词,并不需要先登录,更不需要填写收货地址。你不“自白”,百度就不知道你是谁。这个缺陷其实一直是百度心中的疙瘩。你还记得不,2019年百度和春晚合作,发了一次红包。那时候,因为涉及到要领钱,必须让用户登录,对应强身份,“年久失修”的登录系统就承受了巨大的冲击,差点挂了。然而,百度也并不是对于搜索者一无所知,因为他们可以采取一个“退而求其次”的技术,那就是采集你的“设备指纹”。啥是设备指纹?这里稍微科普一下,每个设备都有一个独特的识别码,加上你的 Wi-Fi 信息,地理信息,基本可以给每个设备分配一个“身份证号”。这样一来,虽然不知道设备背后的用户姓甚名谁,家住哪里,芳龄几何,但是根据你的行为,能“蒙”出来使用这个设备的人大致年龄,是个有什么爱好的人。



虽然没有强身份数据,但是你一有困惑就会问度娘,但只有想买东西的时候才会上淘宝。所以百度这个“母体”的数据探针覆盖会更广。有人总爱基于“商业道德”唱衰百度,但其实看一下百度在搜索引擎中的份额,和它背后所对应的数据量,就不会轻易下这个结论了。


3)腾讯的数据是“弱结构化”+“弱身份”的。

人们在聊天工具里产生的数据,例如“QQ签名”、“微信朋友圈”,是很随性的,基本上没有什么规律,属于标准的非结构化数据,用起来也是难度最高。但是你会问,QQ、微信这类这都是实名制的聊天工具,怎么还是弱身份的呢?这里解释一下,根据相关法律,公民聊天内容是绝对的隐私,腾讯没有办法直接查看和利用你的个人聊天数据。腾讯只是金矿的看门人。。。然而,这里有一个很巧妙的玩法——腾讯可以使用某些“频率数据”。例如,机器可以根据数据轻易总结出:人们在微信朋友圈里,说的最多的关键词有哪些;在QQ上人们传阅的文件里,有哪些频率最高。在QQ浏览器上,有哪个网址最受欢迎。



于是,这类数据就和具体身份脱钩了,成为了脱敏的“弱身份数据”。别看是“弱结构化”+“弱身份”,两个弱,但是这类数据的量却是非常庞大的。所以,腾讯不小心掌握了一种上帝视角的“超能力”——知道这个国家的人们每时每刻最关心的是什么事情。这对于腾讯新闻、腾讯视频之类的内容创作者来说都是非常有用的数据——他们可以根据大家关心的热点来量身定制内容。你以为腾讯视频这几年后来居上,拳打优酷,脚踢爱奇艺,凭的仅仅是努力么?


除此之外,腾讯还获得了一些额外能力。啥能力呢?不是吹牛,通过舆论感知,腾讯经常比警察叔叔都能先知道哪个传销开始泛滥,还能知道哪个“老司机” App 又开始招揽乘客,甚至还能八卦出哪个工厂在顶风作案偷偷排污。。。你可以了解一下腾讯发起的“守护者计划”——每年腾讯都通过自己的独门绝技给警察叔叔提供坏人的线索,好多这种利用QQ、微信传播的非法勾当都是腾讯先打110报的警。(当年我手机上珍藏的一个老司机App就是被腾讯“告老师”的。你问我怎么知道的?我去参加了守护者计划的年度成果发布会,这个 App 就是成果之一。。。)



连人都抓了,当识到自己具有这种“感知舆论”的能力,腾讯干脆和很多监管部门建立了合作,这种操作被他们称为“大数据监管”。这生意,可不是别人想做就能做的。BAT 三家的大数据能力仅仅是个例子,你可以根据这种方法来套用其他公司,就能猜到他们在用大数据做什么了。

另外

从商业的角度讲,大数据的用法其实有两个方向:1、趋利——赚钱;2、避害——少赔钱。


刚才说的腾讯“大数据监管”就是从“避害”的角度来使用大数据的。(当然主要是直接为社会“避害”,间接为腾讯自己避害。)其实,百度和阿里巴巴也在用各自的数据“避害”。这里举几个例子。你可能知道“度小满金融”,这是当年由陆奇从“百度金融”拆分演化出来的公司。理论上他们就可以用到百度的数据做“大数据风控”。例如,一个人如果在百度上搜索了好多P2P平台的名字,甚至搜索了“不还花呗会怎样”之类的虎狼之词,那么系统就可以认定这个人的财务状况很差,可以给他打一个风险很高的分数。这时,如果他来到平台借钱,那么傻子才会借给他。。。再说阿里巴巴。阿里巴巴其实有一支非常强大的安全团队,他们的日常就是用数据和智能来抵挡“羊毛党”的进攻。他们利用大数据做人工智能学习,知道了正常用户的习惯,反之就能归纳出羊毛党的行为有什么反常之处。在阿里巴巴有一个神秘的系统,叫做“霸下”,它就像一个水坝一样,围在整个阿里帝国之外,羊毛党、黄牛党99%左右的流量都直接被霸下拦掉,保卫着“帝国”的安全。尤其在每年“双11”,要不是有霸下,天猫的网站早就被羊毛党上亿的机器流量给冲垮了,巨浪滔天谁也别想剁手。



说了这么多,其实大概也是以下几点:

1、大数据在保护你;

2、大数据在你身上得利;

3、大数据在给你提供更好的服务;

4、大数据也在不知不觉限定你的行为。

就像你和你家狗狗的关系。你细品品。


和医疗相类似,保险同样可以利用足够多的数据探针,对一个人了如指掌。这样,可以做到同一个保险对不同的人收取不同保额,千人千面。例如:你的汽车告诉保险公司你的驾驶风格彪悍,保费就提高;你的起步很平顺,交通违章少,保费就降低。蚂蚁金服的相互宝,腾讯的微保,背后的杀手锏都是“数据”二字。


于是,我们终于走到了这个很有趣的道德困境:隐私到底值多少钱?隐私能当饭吃吗?如果说放弃隐私可以换来整个社会的生产力,你会矫情地考虑考虑;那么如果放弃隐私可以救自己和他人的生命,你依然会拒绝吗?放弃隐私的诱惑有很多,总有一款适合你。让你沦陷的,有可能是大数据医疗,有可能是大数据保险,有可能是金钱, 有可能是性,有可能是孤独,有可能是陪伴,有可能是快乐,也有可能是恐惧。


总结

那么,有哪些技术可以有效地保护个人隐私呢?

一个具有代表性的例子是近年来出现的联邦学习技术,它可以有效地在保护个人隐私的同时发展大数据和人工智能。联邦学习最初的设计目标就是在保障数据安全和个人隐私的前提下开展机器学习。它能够做到各个数据拥有者的数据不出本地,通过交换加密参数联合建模,且联合模型的效果基本等同于将所有数据直接聚合起来建模的效果(如下图)。

(纵向联邦学习示意图,Qiang Yang, Yang Liu, Tianjian Chen, and Yongxin Tong. 2018. Federated Learning. Communications of The CCF, 14, 11 (2018),49-55)


总之,要想大数据发展与个人隐私保护兼得,离不开法律的完善与技术的进步。立法方面我们能做的可能很少,但作为从业者,我们可以多多关注联邦学习等技术,共同推进大数据发展与隐私保护的和谐共存。


关注我即刻了解更多数据分析知识

更多数据分析内容

扫描码即可了解


为啥说大数据时代没有隐私的评论 (共 条)

分享到微博请遵守国家法律