【大数据基础Ep2】《Hadoop权威指南》读书笔记P5：数据的存储与分析

2023-04-04 17:10 作者:学酥酥的学习日记本 0人读过 | 我要投稿

（合计630字，用时20min——）

第1章初识Hadoop

1.2数据的存储与分析

第一段：问题——在硬盘存储容量多年不断提升的同时，访问速度（硬盘数据读取速度）却没有与时俱进。

第二段：读完整个硬盘中的数据需要更长时间，写入数据就别提了。一个减少读取时间的办法是同时从多个硬盘上读数据——100个硬盘，每个硬盘存储1%的数据，并行读取，那么不到两分钟就可以读完所有数据。

第三段：存储硬盘容量的1%似乎很浪费，可以存储100个数据集，每个数据集1TB，并实现共享硬盘的读取——通过硬盘共享来缩短数据分析时间，从统计角度来看，用户的分析工作都是在不同时间点进行的，所以彼此之间的干扰并不太大。

第四段：还有更多问题。

第五段：硬件故障问题：一旦开始使用多个硬件，其中个别硬件就很有可能发生故障，

对策：复制（replication）：系统保存数据的复本（replica），一旦有系统发生故障，就可以使用另外保存的复本，如——

第六段：分布式系统的数据分析任务的正确性——

对策：MapReduce提出一个编程模型，该模型抽象出这些硬盘读/写问题并将其转换为对一个数据集（由键-值对组成）的计算，这样的模型由map和reduce两部分组成，而且只有这两部分提供对外的接口。

第七段：Hadoop提供了一个可靠的且可扩展的存储和分析平台，因为Hadoop运行在商用硬件上且开源——Hadoop的使用成本是在可承受范围内的。