ApacheCN 机器学习实战讲义 十五、大数据与MapReduce

大数据 概述
大数据: 收集到的数据已经远远超出了我们的处理能力。
大数据 场景
假如你为一家网络购物商店工作,很多用户访问该网站,其中有些人会购买商品,有些人则随意浏览后就离开。
对于你来说,可能很想识别那些有购物意愿的用户。
那么问题就来了,数据集可能会非常大,在单机上训练要运行好几天。
接下来:我们讲讲 MapRedece 如何来解决这样的问题
MapRedece
Hadoop 概述
Hadoop 是 MapRedece 框架的一个免费开源实现。
MapReduce: 分布式的计算框架,可以将单个计算作业分配给多台计算机执行。
阅读全文:http://ml.apachecn.org/mlia/bigdata-and-mapreduce/