大数据时代
思维变革
更多
1、统计局限。抽样需要充分考虑随机性,普查的数据不具有实时性,由于世界时刻处于变动之中,如果无法在极短时间内收集全部数据,数据本身便会发生变化,信息分析的效度便会下降。穿孔打卡的美国人口普查式的数据采集方式问题诸多而且已然落伍了,乔布斯的癌症治疗正是运用了大数据技术将DNA和肿瘤DNA排序并以此用药。
2、总体样本。现代技术使更多的数据成为可能,这意味着采集总体数据而不是随机样本,让“样本=总体”,那样收集的数据只需要清洗和选择便可直接使用。巴拉巴西在分析中对大数据进行网络分析,并得出了许多有价值的曾被忽视的理论。
更杂
1、复杂性。更多的数据是更真实地反映现实,这不仅意味着蕴含更多的细节,也意味着混杂更多噪声,总体的数据反映出了复杂性。谷歌使用网络全部文本数据进行训练,研发出的谷歌翻译不仅能翻译各国语言其准确度还是最高的。
2、混乱性。由于测量工具和分析工具以及人的操作,必然存在工具误差和人为误差,在大数据中这样的误差被放大了,我们必须接受错误、拥抱混乱,可能现实就是如同量子力学揭示的——一切在概率之下的,接受和拒绝都存在概率。
3、忽视错误。即时的、庞大的、非结构化的数据,虽然大量存在偏差和错误,但因部分的问题而拒绝整体的改进是不可取的,再者疏失那些偏差和错误反而无法了解真实的情况。MIT接受互联网混乱的数据,比官方数据更早预测出通货紧缩,hadoop允许大数据的少量错误存在,极大减少了Visa的交易时间。
更好
1、相关关系。相关关系是量化两个数据位的数理关系,其中一方的变化必然引起另一方的变化。亚马逊、塔吉特通过用户点击和购买商品的相关关系形成个性化推荐。
2、预测能力。相关关系不是绝对,只是一种可能,如果A、B经常一起发生,那么可通过A预测B。沃尔玛对历史交易数据库的分析,将两种相差较大的商品摆放在一起以增加销量。UPS通过大量传感器监测车辆个部分,实现故障零件精确替换。麦格雷戈同样地用大量监测设备,对人体情况实时监测,以此发现隐性因素对疾病爆发的影响。
3、传统科学。因为误差和噪声、偏见和偶然的普遍存在,需要对假想反复验证,以此发展而来的是科学。大数据时代的“科学”不再需要复杂的数据采集方法、反复的实验检验证实,只需要不断优化算法,从数据间的关系中快速提取相关关系。FICO、益百利、Aviva根据个人背景信息来推测其行为模式。
4、因果思维。因果关系存在两种情况,快速的、虚幻的因果和缓慢的、有条不紊的因果。我们在经验世界中直觉感知的因果绝大多都是虚假的或非直接的因果,而我们以逻辑思辨得出的因果更是虚幻的和未被证实的因果。卡尼曼的两种思维模式,直接得出因果的快速思维和仔细思考的慢性思维,前者因果关系通常是不存在的,而后者的因果关系在大数据时代可获得极大优势。鲁丁从历史数据中建立预测模型,依序列出高危(易爆)沙井盖。
5、理论发展。安德森认为大数据某种程度上意味着理论终结。大数据冲击传统科学的思维定式,逐步建立新的数据采集、清洗、分析、建模的方法。
商业变革
数据化
1、数据 data。数据化,是把一种现象转变为可以建表分析的量化形式的过程,是将事物的信息转变为数据。莫里根据航海日志绘制出了有120玩数据点的新海图,整合经纬度、时间、气温、风向、风速的航线分析系统。
2、数字 digit。数字化,是把模拟数据转换成用0和1表示的二进制码。数字和数据的差异在于,数据是具有信息(符号和标签)的数字,数字是可运算(可被计算机读取)的符号。谷歌对图书的扫描图片是数字图像,对扫描图片的文字识别是数据文本。
3、数据发展。最初的计量和记录本身就是数据化,再发展出算术和复式记账法的数据处理工具,科学认为一切事物的真理必须通过对现象的量化分析。文化组学,通过对文本的定量分析揭示人类行为和文化发展的趋势。
4、空间数据。从依据地标、星座、航位推测法、无线电技术等进行地理定位导航,到使用以人造地球卫星为基础的高精度无线电导航的定位系统(GPS和北斗),再到手机的实时定位,从个人的定位导航到个人行动轨迹记录,空间方位信息转变成为数据。现实挖掘,是通过处理大量手机数据来预测人类行为。疾病疫情的防控隔离就是运用的这样的技术。
5、社交数据。对微博的句法分析和情感分析,可以获知事物彼此的相关关系和人的行为模式,由此对现象进行预测,互联网社交动态的数据化可以获得其中的人们的所有信息。微博中的动态可以预测出个人偏好、电影票房、疫苗接种倾向等。
6、自我技术。自我量化,是对自身的生命体征、运动状态及各部分情况的数据化,以此进行自我的监控的精确改进。大数据让我们认识到世界不是一连串自然的或社会现象的事件,而是由信息构成的,“并非原子而是信息是一切的本源”。
价值
1、非竞争性。数据的采集、储存、使用甚至舍弃都是有成本的,而随着储存和采集数据的成本不断下降,更多的数据可以被获取并保存下来,数据的价值不会随着使用而减少,反而被更多的人所使用才能实现其价值,个人对数据的使用不会妨碍他人对数据的使用,可以说数据是公共的、共享的。路易斯的ReCaptcha是将文本识别的模糊字母图片用于真人验证,不仅提高验证效率而且实现低成本的扫描图片的文字识别。
2、再次利用。数据的采集往往因为需要使用或无意得到的,在数据的初次使用后仍然具有价值,特别是纵向和横向扩展的数据更具有庞大的潜在价值,数据再次利用的价值只会比初次利用的还要巨大。亚马逊对电商数据的保存和谷歌对语音翻译数据的保存,都让他们拥有进一步发展的关键资源。
3、模型预测。不同的数据集之间可以产生交互,以此可以形成不同事物间的相关关系,根据相关关系的模型可以做出准确的预测。谷歌街景车不仅采集街道信息,而且采集GPS、无线网络等离散的信息,这些信息不仅优化了谷歌地图,而且为无人驾驶技术提供了资源。
4、噪声数据。某些表面上错误的、混乱的、离散的数据是数据中的噪声,噪声是来源于不确定性和变异性,但数据总是有效,其反映的是真实的信息,噪声是能通过一定的方法来表达真实。谷歌的拼写检查在错误的拼写和正确的拼写建立相关关系,而不仅是将错误的判断为无效。斯坦福机器学习公开课的一次课外作业有很多人犯同样的错误,分析显示是学生作业中共同的算法问题,系统可以依此提示检查算法而不是判断错误。
5、数据折旧。大数据的思维就是要收集和保存更多的数据,并从中发现和提取更多的信息,以此实现数据的价值。但数据是有失效性的,而且不可能无限保存过量的数据,清洗、筛选、擦除也是十分重要的,其基本的标准是有用性。亚马逊的数据有用性分析模型就是依靠推荐系统的反馈。
6、数据公开。数据的价值在于使用而不是独占,只有打破信息的壁垒才能实现帕累托改进,政府、商业组织、公益团体等应该积极地将数据提供全社会各阶层、各群体使用,同时也应为具有价值的数据进行估值,对某些重要核心数据进行专利保护,可从实现价值的数据获取许可收益。美国和英国等国家的政府和团体都在不断开放数据,数据中介组织也在兴起。
角色定位
1、数据价值链。大数据价值构成:数据、技能、思维;基于数据的公司,通常是门户和平台,能获得大量数据,往往无法充分利用数据,如Twitter;基于技能的公司,通常是咨询分析公司和技术供应商,能根据数据做出分析和预测,如天睿 Teradata;基于思维的公司,通常是新型的研究性的公司,能在纷繁的数据中发现数据间的关系,形成具有新价值的独特想法。Decide.com获取电商平台销售量和销售价格,发现不正常的高峰,提供最佳购买的时机。
2、大数据思维。大数据思维,是一种意识,是认为适当的数据处理可以为公众急需解决的问题提供答案,关注的不是数据实现的利益,而是对公众福祉的最大提升。谷歌和亚马逊都是数据、技术和思维兼具的公司,区别在于谷歌旨在将数据多次利用在不同方面的预测,而亚马逊旨在多次利用数据后能提升企业效益。
3、数据中间商。同行大多数都不会向对方出让己方数据,而往往会把数据许可给受信任的或非营利性的中间机构,不仅可以安全地获得收益,还能得到基于行业的分析预测。Inrix拥有交通行业的所有数据,卫生保健成本协会拥有全国的匿名保单数据。数据的价值随拥有的数据量而增加,而且价值的实现不仅在于技术方法的使用,还在于创新思维对数据的运用。
4、数据科学家。数据科学家是统计学家、软件程序员、图形设计师与作家的结合体,是通过数据库来得到新的发现。数据科学家是完全根据数据做出分析和预测的,是排除了主观感受和想象的绝对客观。《点球成金》中球队通过数据来签约球员,而不是感觉和臆断。游戏通过玩家对虚拟物品的偏好来设计付费的虚拟物品。
5、大数据公司。小型公司的发展关键在于大数据的思维,利用无法占有的数据进行创新性的使用。中型公司的发展关键在于向大型或小型公司转变,因为其已经失去传统行业中的灵活性,面对大型和小型公司的夹击,极大可能被并购和击败。大型公司的发展关键在于占有数据的利用和对数据更多更持久的占有。苹果从运营商处获得大量用户数据,使其具有更好的用户体验。
管理变革
风险
1、监控统治。全面的数据采集和储存会涉及个人隐私,数据的分析预测会涉及个人自由与权利,不适当的使用会对人们造成伤害。乔治奥威尔的《一九八四》,边沁的环形监狱。居民民事记录数据和数字编码为纳粹大屠杀提供技术和工具的帮助。
2、无效保护。为保护个人隐私的隐私使用的告知与许可极为困难,因为其不仅增加了厂商运营成本,还为系统运行设置了诸多障碍。模糊化和匿名化也都是无效的,因为随着数据总量的增加,数据间的交叉验证能确认数据的真实性,个人隐私之外的数据也能描绘出个人的清晰画像。政府和公司都不同程度上,在人们未明确许可的情况下,采集并多次利用个人的隐私数据。
3、画像缺陷。大数据的预测分析,可能因对未发生的行为的过早干预,而致使个人或社会利益受损,若将这样的技术用于犯罪防治,可能出现打击过大的现象,如《少数派报告》。美国正研发未来行为检测科技 FAST。数据描绘的画像是精确的,这样的精确却无法达到绝对,如果将其用于行为的预测、引导和控制时,就会产生数据歧视。画像的缺陷可能导致马太效应,因为某人可能去做或会发生的而受到限制、控制甚至惩罚,都是技术不适当的使用。易患病者投保和治疗的成本增加,低学历者获得机会和支持减少,个人的生理和历史因素导致更容易被怀疑……。
4、数据迷恋。将一切看成数据,并只通过数据去认识世界,这是危险的,唯数据论只会使个人丧失自由意志和选择权力,也会被数据误导和欺骗。麦克纳马拉将战争看成死亡率的争夺;谷歌将决策转变量化的数据问题,看重面板数值;乔布斯设计产品依靠的不是数据而是灵感和自觉。
掌管
1社会变革。技术的革命必然带来社会的变革,信息及媒介的扩展促进社会在意识形态层面的深层次变化,大数据时代不仅是思维和范式的变化,还是工具和方法的创新,因而在其上的规范和制度也应随着做出改变。
2、责任转移。从强调个人隐私的控制权,转变为强调数据使用者承担责任,减少数据采集的成本,加强数据的保密和监管,便于数据的多次利用。数据使用者必须遵循数据期限,数据披露者必须对数据适当模糊化和特定隐匿化,数据监管者必须阻止隐私泄露。
3、有限预测。大数据的分析预测仅作为参考,若要引证分析结果,必须做到公开透明,允许质疑和反驳,遵循无罪推论,仅就现状和实在采取应对方法。
4、新的未来。数据科学家、算法师等围绕大数据的工作正在兴起,数据和算法也逐渐作为专有资源而垄断使用,科技在改变着生活,社会缓缓向更高层次演变,危机孕育于发展之中,风险潜藏在繁荣之下。
总结
这本书大火的时候我就买了,直到最近才开始看,关于大数据已然在这几年有深入的了解,但我觉得大数据不应仅是现在的浅薄,其更深刻的东西还需要在书中寻找,深入的发现不在于自以为是的想象,而在于外界新奇事物的不断刺激。
数据分析是采集、清洗、存储、提取、建模、预测的过程,目的是从数据中获取客观现实以及事实之间的关系。大数据与数据的差异在于:扩展、优化、授权、占有、垄断、工具、思维,简单来说就有获取大量的、广泛的、高质量的数据,并对其进行多次的、持续的、深入的发掘,发现更多的各因素之间的关系,以此指导对现实的改进和对问题的解决,实现数据的价值。
大数据思维在不断改造社会的认知,更深刻地利用和开发数据成为了新时代的显著特征。数据已然成为的一种重要的战略性的资源,数据所有者希望通过垄断数据来建立壁垒,数据作为个人隐私转变为公共资源的过程中被互联网企业所控制,对数据不适当的管理和使用都产生了众多社会问题。
大数据本身便具有局限性,虽然其能揭示更真实的世界,但在先有的技术下,依然仅能建立相关关系而无法建立因果关系,盲目地依赖数据反而会丧失自由意志和选择权利。世界的是必然与偶然的结合,科学反而在证明量子的随机性,心学反而能证明事物的因果关系。科技向善,科技本就是价值无涉的,人才具有善恶之分。公有的变成私有了,中立的走向极端了,历史的认为终结了,这是最大的问题。
工业革命、技术革命、信息革命都带来的社会变革,上层建筑无法适配高新的生产,规范和秩序面对的是新的事物和新的运行逻辑,在相对滞后的制度和理念面前,适应的方式是不断提升认知,不仅要跟随时代的步伐,还要参与进历史的洪流。