数字化转型-数据中台-数据采集和集成场景分析和工具
2023-06-08 10:36 作者:qiaoxingxing | 我要投稿

三类采集任务:
1.结构化数据库之间的采集和集成
oracle、mysql、pg等关系数据库之间的采集
基本步骤: 配置数据源 -> 配置ETL任务 -> 定时调度
两种同步方式:
- 全量同步: 每次清空目标表数据, 重新导入; 缺点: 浪费资源、性能差
- 增量同步: 依赖last update date时间戳字段
实时同步: CDC
mysql: binlog
oracle: 没有开放的日志, goldenGate收费, 最近的flink cdc支持oracle
2.结构化数据库到非结构化、MPP数据库的采集和集成
非结构化数据库: hdfs、hbase等
结构化大数据量的查询: mpp db、clickhouse
~~日志数据库、分析型数据库~~
要支持增量同步到MPP
要支持hdfs到MPP的采集: 一般先采集到hdfs, 清理、构建宽表之后, 再导入MPP;
3.文件、流数据的采集
比如: 实时的日志分析系统, 监听日志文件的改动, 解析保存到分布式数据库, 构建全文检索, 便于查询;
数据量通常比较大, 先写到消息中间件作为缓冲, 比如kafka, 消费端订阅再写入数据库
流批一体化: 流处理和批处理, 在一个管道里同时处理
工具:
需求简单可以用datax, 支持关系数据库之间的导入导出, 也支持导入到hdfs
复杂的可以用SeaTunnel, apache项目, 孵化中