【大数据基础Ep3】《Hadoop权威指南》读书笔记P6:MapReduce概述

(合计404字,用时20min——)
第1章 初识Hadoop
1.3 查询所有数据
MapReduce:
方法:每个查询需要处理整个数据集或至少一个数据集的绝大部分。
性质:MapReduce是一个批量查询处理器,能够在合理的时间范围内处理针对整个数据集的动态查询。
意义:
它改变了我们对数据的传统看法,解放了以前只是保存在磁带和硬盘上的数据;
它让我们有机会对数据进行创新:以前需要很长时间处理才能获得结果的问题,到现在变得顷刻之间就迎刃而解,同时还可以引发新的问题和新的见解。
例子:
Rackspace公司的邮件部门Mailtrust就用Hadoop来处理邮件日志,他们写了一条特别的查询用于帮助找出用户的地理分布;
操作:每月运行一次MapReduce任务来帮助我们决定扩容时将新的邮件服务器放在哪些Rackspace数据中心。
效果:通过整合好几百GB的数据,用工具来分析这些数据,Rackspace的工程师能够对以往没有注意到的数据有所理解,甚至还运用这些信息来改善现有的服务。