数字化转型-数据中台-数据采集和集成场景分析和工具

2023-06-08 10:36 作者:qiaoxingxing 0人读过 | 我要投稿

三类采集任务:

1.结构化数据库之间的采集和集成

oracle、mysql、pg等关系数据库之间的采集

基本步骤: 配置数据源 -> 配置ETL任务 -> 定时调度

两种同步方式:

- 全量同步: 每次清空目标表数据, 重新导入; 缺点: 浪费资源、性能差

- 增量同步: 依赖last update date时间戳字段

实时同步: CDC

mysql: binlog

oracle: 没有开放的日志, goldenGate收费, 最近的flink cdc支持oracle

2.结构化数据库到非结构化、MPP数据库的采集和集成

非结构化数据库: hdfs、hbase等

结构化大数据量的查询: mpp db、clickhouse

~~日志数据库、分析型数据库~~

要支持增量同步到MPP

要支持hdfs到MPP的采集: 一般先采集到hdfs, 清理、构建宽表之后, 再导入MPP;

3.文件、流数据的采集

比如: 实时的日志分析系统, 监听日志文件的改动, 解析保存到分布式数据库, 构建全文检索, 便于查询;

数据量通常比较大, 先写到消息中间件作为缓冲, 比如kafka, 消费端订阅再写入数据库

流批一体化: 流处理和批处理, 在一个管道里同时处理

工具:

需求简单可以用datax, 支持关系数据库之间的导入导出, 也支持导入到hdfs

复杂的可以用SeaTunnel, apache项目, 孵化中

标签：

数字化转型-数据中台-数据采集和集成场景分析和工具的评论 (共条)