欢迎光临散文网 会员登陆 & 注册

大数据实战启航班(Hadoop+Spark+Flink+离线计算+实时计算)

2023-07-17 14:00 作者:bili_48219728313  | 我要投稿

大数据实战启航班(Hadoop+Spark+Flink+离线计算+实时计算)

参考资料地址1:https://pan.baidu.com/s/1rlsWvDMVGCHEQHclVZcHYA 提取码: spun

参考资料地址2:https://share.weiyun.com/CcAZRytS 密码:egum9h


实战大数据|Hadoop|Spark|Flink|离线计算|实时计算


第1章 大数据概述及环境搭建

大数据(Big Data)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。


第2章 Hadoop分布式文件系统(HDFS)

Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。


第3章 Hadoop资源管理系统(YARN)

Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。


第4章 Hadoop分布式计算框架(MapReduce)

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性


第5章 Zookeeper分布式协调服务

ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。


第6章 Hadoop分布式集群搭建与管理

搭建Haoop分布式集群所需环境:VMware,CentOS,Hadoop,JDK,Xshell。整个过程在VMware虚拟机中完成


第7章 Hive数据仓库工具

hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。


第8章 HBase分布式数据库

HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。


第9章 Sqoop数据迁移工具

Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。


第10章 Flume日志采集系统

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。


第11章 Kafka分布式消息系统

Kafka是一种高吞吐量的分布式发布订阅消息系统(消息引擎系统),它可以处理消费者在网站中的所有动作流数据。


第12章 Davinci大数据可视化分析

通过图形化手段清晰地传达数据,促进信息的传递与沟通,是数据可视化的基础要素,也是设计美学和功能相结合的具体表现形式。Davinci便是这样一款可视应用平台


第13章 Spark实时分析系统

Spark计算机集群是2009年由UC Berkeley AMP lab开发的一个集群计算的框架,目的是让数据分析更加快速。


第14章 Flink实时分析系统

Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算


第15章 项目实战:互联网金融项目离线分析

第16章 项目实战:互联网直播项目实时分析


大数据实战启航班(Hadoop+Spark+Flink+离线计算+实时计算)的评论 (共 条)

分享到微博请遵守国家法律