欢迎光临散文网 会员登陆 & 注册

实战Flink+Doris实时数仓课程2023

2023-06-19 17:51 作者:bili_48219728313  | 我要投稿

实战Flink+Doris实时数仓课程2023

资料地址1:https://pan.baidu.com/s/18eAStOUMK5Jg21N5RBBJ1g 提取码: bmqk

资料地址2:https://share.weiyun.com/OL2DSs1X 密码:uhxykm


分享一样实时数仓的课程——《实战Flink+Doris实时数仓》,2023年6月完结新课,提供配套的源码+文档+虚拟机下载!!


《实战Flink+Doris实时数仓》-day01:


01.flink核心概念复习.

02.flink核心概念复习-事件时间语义与watermark.

03.实时数仓-架构理论及市场上各类架构调研.

04.实时数仓-基于我们公司的架构设计.

05.实时数仓-ods数据公共维度退维需求及设计.

06.实时数仓-用户属性退维的具体方案.

07.实时数仓-用户属性表同步到hbase代码开发.

08.实时数仓-用户属性维表同步运行测试.

09.实时数仓-地理位置维表加工并加载到hbase.

10.实时数仓-页面信息维表加工入库.

11.实时数仓-今日要点回顾总结.


《实战Flink+Doris实时数仓》-day02:


01.实时数仓-公共维度退维开发-数据准备.

02.实时数仓-公共维度退维-行为日志表创建映射.

03.实时数仓-公共维度退维-其他映射表创建.

04.实时数仓-公共维度退维-主代码开发.

05.实时数仓-流量主题看板-指标开发任务1.

06.实时数仓-流量主题看板-指标开发2.

07.实时数仓-流量主题看板-活动页流量统计‘.

08.号外-项目中依赖版本冲突的问题.

09.实时数仓-流量主题看板-topn页面.

10.实时数仓-流量主题olap轻度聚合etl开发.


《实战Flink+Doris实时数仓》-day03:


01.实时流量概况olap分析基础表etl任务-doris中物化视图的创建和使用.

02.访问时长olap-etl任务-需求分析和逻辑设计.

03访问时长olap-代码开发1(数据读取).

04.访问时长olap-代码开发2(虚拟差值实现).

05.访问时长分析-虚拟插值法乱序问题.

06.访问时长分析-插值数据如何聚合及如何在doris中合并.

07.访问时长分析-按时间窗口聚合计算后写入doris.

08.访问时长分析-状态清理问题.

09.视频播放分析主题-需求分析及模型设计及计算方案设计.

10.视频播放行为分析主题-主题维表同步任务开发.

11.视频播放行为分析主题-聚合统计逻辑开发.


《实战Flink+Doris实时数仓》-day04:


01.视频播放olap分析-实时报表查询演示.

02.视频播放olap聚合任务的技术要点-可以讲2个故事.

03.搜索行为olap主题-需求分析和概要设计.

04.搜索行为olap主题-近义词和分词维度信息的获取方案.

05.搜索行为olap主题-搜索数据聚合开发.

06.搜索行为olap主题-维度拓展代码开发1.

07.搜索行为olap主题-维度拓展代码开发2.

08.搜索行为olap主题-维度拓展-异步IO改造.

09.搜索行为olap主题-olap报表查询演示.

10.推荐栏位行为olap主题-需求背景及模型设计.

11.推荐栏位行为olap主题-聚合代码开发.


《实战Flink+Doris实时数仓》-day05:


01.广告事件olap分析主题-业务背景及开发方案及报表查询示例.

02.广告点击率预估-特征数据工程-需求-业务-数据-方案.

03.广告点击率预估-请求特征日志数据同步到hbase开发.

04.CEP快速上手.

05.广告点击率预估-曝光点击事件CEP匹配开发.

06.广告点击率预估-特征lookup及测试.

07.广告点击率预估-负例特征的计算方案分析.


《实战Flink+Doris实时数仓》-day06:


 01.业务域分析需求概述.

02.订单表同步doris任务开发(1)-连接器表创建.'

'03.订单表同步doris任务开发(2)-join及插入doris.'

 04.订单日清日结看板开发1-第1个坑.

 05.订单日清日结看板开发2-第2个坑及最终解决.

 06.订单日清日结看板开发3-结果写入mysql.

 07.订单日清日结api版-流式cdc-connector使用.

 08.订单日清日结api版-计算逻辑方案设计.

 09.订单日清日结api版-差值调整逻辑实现.

 10.订单日清日结api版-汇总计算逻辑实现.

 11.订单日清日结api版-结果输出到mysql.


《实战Flink+Doris实时数仓》-day07:


01.品牌topn支付额商品-sql开发-隐蔽的陷阱.

02.品牌topn支付额商品-changelog流的精细化控制操作.

03.品牌topn支付额商品-取分组topn的逻辑实现.

04.背压机制理解.

05.背压的查找和定位.

06.项目中的一些背压产生场景及解决手段.

07.checkpoint问题及项目中的调优场景经验.


实时数据仓库(Real-time Data Warehouse)是指能够实时地处理和分析数据,使得数据仓库中的数据是最新的、最准确的,并且可以实时响应用户的查询和分析需求的一种数据仓库系统。


与传统的数据仓库相比,实时数据仓库更加注重数据的实时性和对业务的实时响应能力。传统数据仓库通常是每日、每周或每月定期进行数据的抽取、转换和加载(ETL),更新的速度较慢,一般不支持实时查询和分析。而实时数据仓库则更加注重数据的实时性和对业务的实时响应能力,能够在数据发生变化时及时响应用户的查询和分析需求。


实时数仓建设目的

1. 解决传统数仓的问题

从目前数仓建设的现状来看,实时数仓是一个容易让人产生混淆的概念,根据传统经验分析,数仓有一个重要的功能,即能够记录历史。通常,数仓都是希望从业务上线的第一天开始有数据,然后一直记录到现在。但实时流处理技术,又是强调当前处理状态的一个技术,结合当前一线大厂的建设经验和滴滴在该领域的建设现状,我们尝试把公司内实时数仓建设的目的定位为,以数仓建设理论和实时技术,解决由于当前离线数仓数据时效性低解决不了的问题。


现阶段我们要建设实时数仓的主要原因是:

公司业务对于数据的实时性越来越迫切,需要有实时数据来辅助完成决策;

实时数据建设没有规范,数据可用性较差,无法形成数仓体系,资源大量浪费;

数据平台工具对整体实时开发的支持也日渐趋于成熟,开发成本降低。


2. 实时数仓的应用场景

实时 OLAP 分析;

实时数据看板;

实时业务监控;

实时数据接口服务。


Doris 采用了 Adaptive Query Execution 技术, 可以根据 Runtime Statistics 来动态调整执行计划,比如通过 Runtime Filter 技术能够在运行时生成生成 Filter 推到 Probe 侧,并且能够将 Filter 自动穿透到 Probe 侧最底层的 Scan 节点,从而大幅减少 Probe 的数据量,加速 Join 性能。Doris 的 Runtime Filter 支持 In/Min/Max/Bloom Filter。


在优化器方面 Doris 使用 CBO 和 RBO 结合的优化策略,RBO 支持常量折叠、子查询改写、谓词下推等,CBO 支持 Join Reorder。目前 CBO 还在持续优化中,主要集中在更加精准的统计信息收集和推导,更加精准的代价模型预估等方面。



实战Flink+Doris实时数仓课程2023的评论 (共 条)

分享到微博请遵守国家法律