【狂野大数据】一天搞定大数据之MapReduce
Hadoop的三大核心
Mapreduce分布式计算
运行过程如下
1.客户端Client提交请求任务至Applications
2.Applications启动AppMstr任务
3.Appmstr向ResourceScheduler请求资源
4.ResourceScheduler返回资源清单给Appmstr
5.AppMstr根据返回的资源清单向可用NodeManager申请资源
6.申请到资源执行计算任务启动Map Tark以及Reduce Task 执行任务
7.执行完的任务结果返回AppMstr,AppMstr将计算结果再返回至ApplicationsManager
8.ApplicationsManager向客户端请求关闭任务
Yarn 分布式资源调度系统
HDFS 分布式文件存储
1.Datanode-存储
2.NodeManager-执行计算任务
3.ResourfceManager-接受任务,进行资源分配

