【大数据基础Ep2】《Hadoop权威指南》读书笔记P5:数据的存储与分析

(合计630字,用时20min——)
第1章 初识Hadoop
1.2数据的存储与分析
第一段:问题——在硬盘存储容量多年不断提升的同时,访问速度(硬盘数据读取速度)却没有与时俱进。
第二段:读完整个硬盘中的数据需要更长时间,写入数据就别提了。一个减少读取时间的办法是同时从多个硬盘上读数据——100个硬盘,每个硬盘存储1%的数据,并行读取,那么不到两分钟就可以读完所有数据。
第三段:存储硬盘容量的1%似乎很浪费,可以存储100个数据集,每个数据集1TB,并实现共享硬盘的读取——通过硬盘共享来缩短数据分析时间,从统计角度来看,用户的分析工作都是在不同时间点进行的,所以彼此之间的干扰并不太大。
第四段:还有更多问题。
第五段:硬件故障问题:一旦开始使用多个硬件,其中个别硬件就很有可能发生故障,
对策:复制(replication):系统保存数据的复本(replica),一旦有系统发生故障,就可以使用另外保存的复本,如——
冗余硬盘阵列(RAID);
Hadoop的文件系统(Hadoop Distributed FileSystem,HDFS)。
第六段:分布式系统的数据分析任务的正确性——
对策:MapReduce提出一个编程模型,该模型抽象出这些硬盘读/写问题并将其转换为对一个数据集(由键-值对组成)的计算,这样的模型由map和reduce两部分组成,而且只有这两部分提供对外的接口。
第七段:Hadoop提供了一个可靠的且可扩展的存储和分析平台,因为Hadoop运行在商用硬件上且开源——Hadoop的使用成本是在可承受范围内的。