欢迎光临散文网 会员登陆 & 注册

【大数据基础Ep3】《Hadoop权威指南》读书笔记P6:MapReduce概述

2023-04-07 18:03 作者:学酥酥的学习日记本  | 我要投稿

(合计404字,用时20min——)

第1章 初识Hadoop

1.3 查询所有数据

MapReduce

  1. 方法:每个查询需要处理整个数据集或至少一个数据集的绝大部分。

  2. 性质:MapReduce是一个批量查询处理器,能够在合理的时间范围内处理针对整个数据集的动态查询。

  3. 意义:

    1. 它改变了我们对数据的传统看法,解放了以前只是保存在磁带和硬盘上的数据;

    2. 它让我们有机会对数据进行创新:以前需要很长时间处理才能获得结果的问题,到现在变得顷刻之间就迎刃而解,同时还可以引发新的问题和新的见解。

例子:

  1. Rackspace公司的邮件部门Mailtrust就用Hadoop来处理邮件日志,他们写了一条特别的查询用于帮助找出用户的地理分布

  2. 操作:每月运行一次MapReduce任务来帮助我们决定扩容时将新的邮件服务器放在哪些Rackspace数据中心

效果:通过整合好几百GB的数据,用工具来分析这些数据,Rackspace的工程师能够对以往没有注意到的数据有所理解,甚至还运用这些信息来改善现有的服务



【大数据基础Ep3】《Hadoop权威指南》读书笔记P6:MapReduce概述的评论 (共 条)

分享到微博请遵守国家法律