欢迎光临散文网 会员登陆 & 注册

【大数据基础Ep2】《Hadoop权威指南》读书笔记P5:数据的存储与分析

2023-04-04 17:10 作者:学酥酥的学习日记本  | 我要投稿

(合计630字,用时20min——)

第1章 初识Hadoop

1.2数据的存储与分析

第一段:问题——在硬盘存储容量多年不断提升的同时访问速度(硬盘数据读取速度)却没有与时俱进。

第二段:读完整个硬盘中的数据需要更长时间,写入数据就别提了。一个减少读取时间的办法是同时从多个硬盘上读数据——100个硬盘,每个硬盘存储1%的数据,并行读取,那么不到两分钟就可以读完所有数据。

第三段:存储硬盘容量的1%似乎很浪费,可以存储100个数据集,每个数据集1TB,并实现共享硬盘的读取——通过硬盘共享来缩短数据分析时间,从统计角度来看,用户的分析工作都是在不同时间点进行的,所以彼此之间的干扰并不太大

第四段:还有更多问题。

第五段:硬件故障问题:一旦开始使用多个硬件,其中个别硬件就很有可能发生故障,

    对策:复制(replication):系统保存数据的复本(replica),一旦有系统发生故障,就可以使用另外保存的复本,如——

  1. 冗余硬盘阵列(RAID)

  2. Hadoop的文件系统(Hadoop Distributed FileSystem,HDFS)。

第六段:分布式系统的数据分析任务的正确性——

    对策:MapReduce提出一个编程模型,该模型抽象出这些硬盘读/写问题并将其转换为对一个数据集(由键-值对组成)的计算,这样的模型由map和reduce两部分组成,而且只有这两部分提供对外的接口

第七段:Hadoop提供了一个可靠的且可扩展的存储和分析平台,因为Hadoop运行在商用硬件上且开源——Hadoop的使用成本是在可承受范围内的


【大数据基础Ep2】《Hadoop权威指南》读书笔记P5:数据的存储与分析的评论 (共 条)

分享到微博请遵守国家法律