欢迎光临散文网 会员登陆 & 注册

一分钟告诉你,什么是Hadoop

2021-03-24 16:59 作者:编程大战  | 我要投稿

    大数据这个词在当下十分流行,很多人都知道大数据,我们现在也处于大数据时代。大数据我们知道了,那么Hadoop是什么你知道吗?

一、Hadoop是什么?

    Hadoop是一种分析和处理大数据的软件平台,是一个由Apache基金会所开发的分布式系统基础架构,在大量计算机组成的集群当中实现了对于海量的数据进行的分布式计算。

    Hadoop以一种可靠、高效、可伸缩的方式进行数据处理;用户可以在不了解分布式底层细节的情况下,开发分布式程序。

    Hadoop的框架最核心的设计就是:HDFSMapReduce。HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算。

    把HDFS理解为一个分布式的,有冗余备份的,可以动态扩展的用来存储大规模数据的大硬盘。

    把MapReduce理解成为一个计算引擎,按照MapReduce的规则编写Map计算/Reduce计算的程序,可以完成计算任务。

二、Hadoop能干什么?

  • 大数据存储:分布式存储

  • 日志处理:擅长日志分析

  • ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库

  • 机器学习: 比如Apache Mahout项目

  • 搜索引擎:Hadoop + lucene实现

  • 数据挖掘:目前比较流行的广告推荐,个性化广告推荐

Hadoop是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。

Hadoop的优点

  • 高可靠性:Hadoop按位存储和处理数据的能力值得人们信赖。

  • 高扩展性:Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

  • 高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

  • 高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

  • 低成本:与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

三、怎么使用Hadoop?

1、Hadoop集群的搭建

无论是在windows上装几台虚拟机玩Hadoop,还是真实的服务器来玩,说简单点就是把Hadoop的安装包放在每一台服务器上,改改配置,启动就完成了Hadoop集群的搭建。

2、上传文件到Hadoop集群

Hadoop集群搭建好以后,可以通过web页面查看集群的情况,还可以通过Hadoop命令来上传文件到hdfs集群,通过Hadoop命令在hdfs集群上建立目录,通过Hadoop命令删除集群上的文件等等。

3、编写map/reduce程序

通过集成开发工具(例如eclipse)导入Hadoop相关的jar包,编写map/reduce程序,将程序打成jar包扔在集群上执行,运行后出计算结果。

现在你知道什么是Hadoop了吗?更多关于Hadoop的技术知识可以通过视频学习哦~



一分钟告诉你,什么是Hadoop的评论 (共 条)

分享到微博请遵守国家法律