实战大数据(Hadoop+Spark+Flink)从平台构建到交互式数据分析(离线/实时)
链接:https://pan.baidu.com/s/1yAcI2s0BsQ65zEB9__rObg?pwd=19dm
提取码:19dm

《实战大数据(Hadoop+Spark+Flink)——从平台构建到交互式数据分析(离线/实时)》详细介绍了大数据工程师在实际工作中应该熟练掌握的大数据技术。全书共8章,分别是大数据技术概述、搭建IDEA开发环境及Linux虚拟机、基于Hadoop构建大数据平台、基于HBase和Kafka构建海量数据存储与交换系统、用户行为离线分析—构建日志采集和分析平台、基于Spark的用户行为实时分析、基于Flink的用户行为实时分析、用户行为数据可视化。本书以一个完整的大数据项目为主线,涵盖Hadoop、Spark、Flink等主流大数据技术,按照大数据工程师的项目开发流程,理论与实践结合,逐步推进,使读者在学习大数据核心技术的同时,也能掌握开发大数据项目的完整流程,从而获得大数据项目开发经验。《实战大数据(Hadoop+Spark+Flink)——从平台构建到交互式数据分析(离线/实时)》既可以作为大数据工程师的必备开发手册,也可以作为高校大数据及相关专业的教材或实验手册。
作者简介
杨俊,大数据架构师。大数据技术达人, Hadoop源码级技术专家,擅长Hadoop、Spark、Flink等主流大数据生态技术。具有近10年大数据开发经验,参与过10余个重量级大数据项目。曾任广电数据咨询公司大数据高级架构师,负责大数据平台架构设计与实施,并构建企业级数据仓库。畅销书《Hadoop大数据技术基础与应用》作者。51CTO知名培训讲师,拥有20余万粉丝,具有丰富的大数据技术培训经验,为数十家企业、院校开展过大数据技术课程培训。
前言/序言
前言大数据技术已经被应用到各行各业,涉及人们生活的方方面面。大数据技术大大提高了数据存储和计算能力,从而为企业快速决策提供了数据支撑,能够助力企业改进业务流程、控制成本、提高产品质量,应用大数据技术为企业核心竞争力的提升打下了坚实的基础。大数据技术在企业项目开发中主要涉及数据采集、数据存储和数据计算三个方面:数据采集是利用采集技术将各种数据源、不同格式的数据快速采集到大数据平台。数据存储是将采集过来的数据,按照不同应用场景,使用不同技术进行存储,为数据计算做准备。数据计算可以根据数据的时效性,对存储的数据进行离线计算和实时计算,最终的计算结果可以为企业决策提供数据支撑。数据采集、数据存储和数据计算这三个方面是大数据工程师的必备技能。本书的主要特色是以一个完整的大数据项目为主线,涵盖Hadoop、Spark、Flink等主流大数据技术,按照大数据工程师的项目开发流程,理论与实践结合,逐步推进,使读者在学习大数据核心技术的同时,也能掌握开发大数据项目的完整流程,从而获得大数据项目开发经验。本书共有8章。第 1 章是大数据技术概述,主要讲解了什么是大数据、大数据平台架构、大数据工程师的技能树以及大数据项目的需求分析与设计,让读者对整个大数据平台架构以及需要掌握的大数据技能有一个整体的了解。第2章主要讲解了如何搭建IDEA开发环境和Linux虚拟机,为大数据项目的开发打好环境基础。第3章是基于Hadoop构建大数据平台,介绍了Zookeeper基础理论及分布式集群构建、HDFS基础理论及分布式集群的构建、YARN基础理论及分布式集群的构建以及MapReduce分布式计算框架,让读者掌握Hadoop集群构建的同时也能了解Hadoop集群运行的原理。第4章详细讲解了