欢迎光临散文网会员登陆 & 注册

【大数据基础Ep3】《Hadoop权威指南》读书笔记P6：MapReduce概述

2023-04-07 18:03 作者:学酥酥的学习日记本 0人读过 | 我要投稿

（合计404字，用时20min——）

第1章初识Hadoop

1.3 查询所有数据

MapReduce：

方法：每个查询需要处理整个数据集或至少一个数据集的绝大部分。
性质：MapReduce是一个批量查询处理器，能够在合理的时间范围内处理针对整个数据集的动态查询。
意义：

它改变了我们对数据的传统看法，解放了以前只是保存在磁带和硬盘上的数据;
它让我们有机会对数据进行创新：以前需要很长时间处理才能获得结果的问题，到现在变得顷刻之间就迎刃而解，同时还可以引发新的问题和新的见解。

例子：

Rackspace公司的邮件部门Mailtrust就用Hadoop来处理邮件日志，他们写了一条特别的查询用于帮助找出用户的地理分布；
操作：每月运行一次MapReduce任务来帮助我们决定扩容时将新的邮件服务器放在哪些Rackspace数据中心。

效果：通过整合好几百GB的数据，用工具来分析这些数据，Rackspace的工程师能够对以往没有注意到的数据有所理解，甚至还运用这些信息来改善现有的服务。

标签：大数据 Hadoop 程序员计算机学习互联网编程代码 MapReduce 电脑

【大数据基础Ep3】《Hadoop权威指南》读书笔记P6：MapReduce概述的评论 (共条)