实战Flink+Doris实时数仓课程2023
实战Flink+Doris实时数仓课程2023
资料地址1:https://pan.baidu.com/s/18eAStOUMK5Jg21N5RBBJ1g 提取码: bmqk
资料地址2:https://share.weiyun.com/OL2DSs1X 密码:uhxykm
分享一样实时数仓的课程——《实战Flink+Doris实时数仓》,2023年6月完结新课,提供配套的源码+文档+虚拟机下载!!
《实战Flink+Doris实时数仓》-day01:
01.flink核心概念复习.
02.flink核心概念复习-事件时间语义与watermark.
03.实时数仓-架构理论及市场上各类架构调研.
04.实时数仓-基于我们公司的架构设计.
05.实时数仓-ods数据公共维度退维需求及设计.
06.实时数仓-用户属性退维的具体方案.
07.实时数仓-用户属性表同步到hbase代码开发.
08.实时数仓-用户属性维表同步运行测试.
09.实时数仓-地理位置维表加工并加载到hbase.
10.实时数仓-页面信息维表加工入库.
11.实时数仓-今日要点回顾总结.
《实战Flink+Doris实时数仓》-day02:
01.实时数仓-公共维度退维开发-数据准备.
02.实时数仓-公共维度退维-行为日志表创建映射.
03.实时数仓-公共维度退维-其他映射表创建.
04.实时数仓-公共维度退维-主代码开发.
05.实时数仓-流量主题看板-指标开发任务1.
06.实时数仓-流量主题看板-指标开发2.
07.实时数仓-流量主题看板-活动页流量统计‘.
08.号外-项目中依赖版本冲突的问题.
09.实时数仓-流量主题看板-topn页面.
10.实时数仓-流量主题olap轻度聚合etl开发.
《实战Flink+Doris实时数仓》-day03:
01.实时流量概况olap分析基础表etl任务-doris中物化视图的创建和使用.
02.访问时长olap-etl任务-需求分析和逻辑设计.
03访问时长olap-代码开发1(数据读取).
04.访问时长olap-代码开发2(虚拟差值实现).
05.访问时长分析-虚拟插值法乱序问题.
06.访问时长分析-插值数据如何聚合及如何在doris中合并.
07.访问时长分析-按时间窗口聚合计算后写入doris.
08.访问时长分析-状态清理问题.
09.视频播放分析主题-需求分析及模型设计及计算方案设计.
10.视频播放行为分析主题-主题维表同步任务开发.
11.视频播放行为分析主题-聚合统计逻辑开发.
《实战Flink+Doris实时数仓》-day04:
01.视频播放olap分析-实时报表查询演示.
02.视频播放olap聚合任务的技术要点-可以讲2个故事.
03.搜索行为olap主题-需求分析和概要设计.
04.搜索行为olap主题-近义词和分词维度信息的获取方案.
05.搜索行为olap主题-搜索数据聚合开发.
06.搜索行为olap主题-维度拓展代码开发1.
07.搜索行为olap主题-维度拓展代码开发2.
08.搜索行为olap主题-维度拓展-异步IO改造.
09.搜索行为olap主题-olap报表查询演示.
10.推荐栏位行为olap主题-需求背景及模型设计.
11.推荐栏位行为olap主题-聚合代码开发.
《实战Flink+Doris实时数仓》-day05:
01.广告事件olap分析主题-业务背景及开发方案及报表查询示例.
02.广告点击率预估-特征数据工程-需求-业务-数据-方案.
03.广告点击率预估-请求特征日志数据同步到hbase开发.
04.CEP快速上手.
05.广告点击率预估-曝光点击事件CEP匹配开发.
06.广告点击率预估-特征lookup及测试.
07.广告点击率预估-负例特征的计算方案分析.
《实战Flink+Doris实时数仓》-day06:
01.业务域分析需求概述.
02.订单表同步doris任务开发(1)-连接器表创建.'
'03.订单表同步doris任务开发(2)-join及插入doris.'
04.订单日清日结看板开发1-第1个坑.
05.订单日清日结看板开发2-第2个坑及最终解决.
06.订单日清日结看板开发3-结果写入mysql.
07.订单日清日结api版-流式cdc-connector使用.
08.订单日清日结api版-计算逻辑方案设计.
09.订单日清日结api版-差值调整逻辑实现.
10.订单日清日结api版-汇总计算逻辑实现.
11.订单日清日结api版-结果输出到mysql.
《实战Flink+Doris实时数仓》-day07:
01.品牌topn支付额商品-sql开发-隐蔽的陷阱.
02.品牌topn支付额商品-changelog流的精细化控制操作.
03.品牌topn支付额商品-取分组topn的逻辑实现.
04.背压机制理解.
05.背压的查找和定位.
06.项目中的一些背压产生场景及解决手段.
07.checkpoint问题及项目中的调优场景经验.
实时数据仓库(Real-time Data Warehouse)是指能够实时地处理和分析数据,使得数据仓库中的数据是最新的、最准确的,并且可以实时响应用户的查询和分析需求的一种数据仓库系统。
与传统的数据仓库相比,实时数据仓库更加注重数据的实时性和对业务的实时响应能力。传统数据仓库通常是每日、每周或每月定期进行数据的抽取、转换和加载(ETL),更新的速度较慢,一般不支持实时查询和分析。而实时数据仓库则更加注重数据的实时性和对业务的实时响应能力,能够在数据发生变化时及时响应用户的查询和分析需求。
实时数仓建设目的
1. 解决传统数仓的问题
从目前数仓建设的现状来看,实时数仓是一个容易让人产生混淆的概念,根据传统经验分析,数仓有一个重要的功能,即能够记录历史。通常,数仓都是希望从业务上线的第一天开始有数据,然后一直记录到现在。但实时流处理技术,又是强调当前处理状态的一个技术,结合当前一线大厂的建设经验和滴滴在该领域的建设现状,我们尝试把公司内实时数仓建设的目的定位为,以数仓建设理论和实时技术,解决由于当前离线数仓数据时效性低解决不了的问题。
现阶段我们要建设实时数仓的主要原因是:
公司业务对于数据的实时性越来越迫切,需要有实时数据来辅助完成决策;
实时数据建设没有规范,数据可用性较差,无法形成数仓体系,资源大量浪费;
数据平台工具对整体实时开发的支持也日渐趋于成熟,开发成本降低。
2. 实时数仓的应用场景
实时 OLAP 分析;
实时数据看板;
实时业务监控;
实时数据接口服务。
Doris 采用了 Adaptive Query Execution 技术, 可以根据 Runtime Statistics 来动态调整执行计划,比如通过 Runtime Filter 技术能够在运行时生成生成 Filter 推到 Probe 侧,并且能够将 Filter 自动穿透到 Probe 侧最底层的 Scan 节点,从而大幅减少 Probe 的数据量,加速 Join 性能。Doris 的 Runtime Filter 支持 In/Min/Max/Bloom Filter。
在优化器方面 Doris 使用 CBO 和 RBO 结合的优化策略,RBO 支持常量折叠、子查询改写、谓词下推等,CBO 支持 Join Reorder。目前 CBO 还在持续优化中,主要集中在更加精准的统计信息收集和推导,更加精准的代价模型预估等方面。