【尚硅谷】Flink1.13实战教程(涵盖所有flink-Java知识点)


- 和Spark一样都是大数据处理框架/引擎。Flink是流处理,Spark是批处理。



003_第一章_Flink简介(二)_Flink在企业的应用 P3 - 02:07

003_第一章_Flink简介(二)_Flink在企业的应用 P3 - 06:28

流处理架构的发展演变
005_第一章_Flink简介(四)_数... P5 - 00:26

不同于事务处理架构(OLTP)将数据存储在传统关系型数据库(硬盘)中,有状态的流式处理将数据用本地状态表示,即存储在内存里,则读取和写入的时间、计算资源开销都会极大程度降低。


这种有状态流式处理模型在分布式集群部署时有可能会产生数据的乱序。因此提出了lambda架构。
005_第一章_Flink简介(四)_数... P5 - 12:25
(第二代流处理架构)

同时使用批处理和流处理两套系统
数据在实时更新,但数据不一定是最终结果。
由于两套系统api不同,会有维护困难的缺陷。
005_第一章_Flink简介(四)_数... P5 - 15:53

从传统流处理架构中改进出一套具有批处理器特性的新的流处理架构,Flink是典型。
Flink 引入了时间语义的概念,保证了结果的准确。主要提供的时间语义有事件时间和处理时间。
Flink在不同架构中的运用

- 事件驱动型应用,多用kafka生成事件日志
- 数据分析型应用,比较流行的实时数仓就是用Flink搭建的。
- 数据管道型应用。
007_第一章_Flink简介(六)_Flink的分层API P7 - 00:56

008_第一章_Flink简介(七)_Flink和Spark的区别 P8 - 00:06

Spark提出了内存计算的概念 ,划时代的大数据处理框架。
Spark四大组件:
- SparkStreaming:流式计算
- SparkSQL:操作结构化数据
- GraphX:面向图计算的框架和算法库
- MLlib:机器学习算法库
是一个统一的分布式大数据处理平台。
二者区别:Spark底层基于批(微批次)处理,Flink底层基于流处理。
因为Spark仍然有攒批的过程,所以Spark的流处理被称为伪实时。
Spark认为流是特殊的批。
Flink认为批数据是特殊的流——有界(bounded)的流。
Spark更加适合海量数据的批处理,Flink更加适合流数据的处理。

009_第二章_Flink快速上手(一)... P9 - 00:23



009_第二章_Flink快速上手(一)... P9 - 04:50

引入Flink、日志管理相关依赖
009_第二章_Flink快速上手(一)... P9 - 06:22

010_第二章_Flink快速上手(二)_批处理_W... P10 - 00:11
010_第二章_Flink快速上手(二)_批处理_W... P10 - 01:57
