欢迎光临散文网 会员登陆 & 注册

【大数据基础Ep4】《Hadoop权威指南》读书笔记P7:MapReduce用法

2023-04-09 16:30 作者:学酥酥的学习日记本  | 我要投稿

(合计946字,用时30min——)

第1章 初识Hadoop

1.4 不仅仅是批处理

Hadoop

  1. 含义:用于指代一个更大的、多个项目组成的生态系统,而不仅仅是HDFS和MapReduce——这些项目都属于分布式计算和大规模数据处理范畴;

  2. 组织:这些项目中有许多都是由Apache软件基金会管理,该基金会为开源软件项目社区提供支持,其中包括最初的HTTP server项目(基金会的名称也来源于这个项目)。

适用场景:

  1. MapReduce:它基本上是一个批处理系统,并不适合交互式分析,不可能执行一条查询在几秒内或更短的时间内得到结果,典型情况下,执行查询需要几分钟或更多时间,因此,MapReduce更适合没有用户在现场等待查询结果的离线使用场景;

  2. HBase:第一个提供在线访问的组件,一种使用HDFS做底层存储的键值存储模型,HBase不仅提供对单行的在线读/写访问,还提供对数据块读/写的批操作,这对于在HBase上构建应用来说是一种很好的解决方案;

  3. YARN(Yet Another Resource Negotiator):集群资源管理系统,允许任何一个分布式程序(不仅仅是MapReduce)基于Hadoop集群的数据而允许。

与Hadoop协同工作的处理模式:

  1. Interactive SQL(交互式SQL):利用MapReduce进行分发并使用一个分布式查询引擎,使得在Hadoop上获得SQL查询低延迟响应的同时还能保持对大数据集规模的可扩展性;

  2. Iterative processing(迭代处理):许多算法,例如机器学习算法,自身具有迭代性,因此和那种每次迭代都从硬盘加载的方式相比,这种在内存中保存每次中间结果集的方式更加高效——

    MapReduce的架构不允许这样,但如果使用Spark就会比较直接,它在使用数据集方面展现了一种高度探究的风格;

  3. Stream processing(流处理):流系统,例如Storm,Spark Streaming或Samza使得在无边界数据流上运行实时、分布式的计算,并向Hadoop存储系统或外部系统发布结果成为可能;

  4. Search(搜索:Solr搜索平台能够在Hadoop集群上运行,当文档加入HDFS后就可对其进行索引,且根据HDFS中存储的索引为搜索查询提供服务。

MapReduce的通用性概念:输入格式、数据集分片等。


【大数据基础Ep4】《Hadoop权威指南》读书笔记P7:MapReduce用法的评论 (共 条)

分享到微博请遵守国家法律