【大数据基础Ep1】《Hadoop权威指南》读书笔记P3:数据!数据!

(合计697字,用时20min——)
第1章 初识Hadoop
1.1数据!数据!
第一段:数据大爆炸:
国际数据公司(IDC)曾经发布报告称,2013年数字世界(digital universe)统计得出全球数据总量为4.4ZB(zettabyte);
预测在2020年达到44ZB;
1ZB=10^21字节=1000EB(exabuytes)=10^6PB(petabytes)=10亿TB(terrabytes);
结论:这远远超过了全世界每人一块硬盘中所能保存的数据总量。
第二段:各种例子——
纽约证交所每天产生的交易数据大约在4TB至5TB之间;
脸谱网(Facebook)存储的照片超过2400亿张,并以每月至少7PB的速度增长;
家谱网站Ancestry.com存储的数据约为10PB;
互联网档案馆(The Internet Archive)存储的数据约为18.5PB;
瑞士日内瓦附近的大型强子对撞机每年产生的数据约为30PB
——大数据的出现会影响到小机构和个人吗?
第三段:作者的观点:照片为例,一个拍照爱好者的照片生成速度相当可观。
第四段:个人产生的数据正在快速增长。
第五段:保存个人成长过程中产生的所有数据逐渐成为主流,更重要的,作为物联网一部分的机器设备产生的数据可能远远超过我们个人所产生的数据。
第六段:组织或企业,要想在未来取得成功,不仅需要管理好自己的数据,更需要从其他组织或企业的数据中获取有价值的信息。
第七段:共享数据集先锋,不同来源的信息在经过混搭和处理之后,会带来意外的效果和我们难以想象的应用。
第八段:通过星空照片分析并能辨别它来自星空或其他星体的哪一部分。
第九段:对于某些应用,“大数据胜于好算法”。
第十段:我们必须想办法存储和分析这些数据。