欢迎光临散文网 会员登陆 & 注册

友凡基于Flink+Alink+ClickHouse+DS构建全端亿级实时用户画像系统

2023-07-06 12:47 作者:一起拼课学习下_  | 我要投稿

数仓的基本概念如下:

  • DB 是现有的数据来源(也称各个系统的元数据),可以为mysql、SQLserver、文件日志等,为数据仓库提供数据来源的一般存在于现有的业务系统之中。

  • ETL的是 Extract-Transform-Load 的缩写,用来描述将数据从来源迁移到目标的几个过程:

    • Extract,数据抽取,也就是把数据从数据源读出来。

    • Transform,数据转换,把原始数据转换成期望的格式和维度。如果用在数据仓库的场景下,Transform也包含数据清洗,清洗掉噪音数据。

    • Load 数据加载,把处理后的数据加载到目标处,比如数据仓库。

  • ODS(Operational Data Store) 操作性数据,是作为数据库到数据仓库的一种过渡,ODS的数据结构一般与数据来源保持一致,便于减少ETL的工作复杂性,而且ODS的数据周期一般比较短。ODS的数据最终流入DW


友凡基于Flink+Alink+ClickHouse+DS构建全端亿级实时用户画像系统的评论 (共 条)

分享到微博请遵守国家法律