Airbyte的同步复制模式
ELT 哲学的核心原则,即数据在提取和加载阶段移动时应保持不变,以便始终可以在目标中访问原始数据。由于目标中存在数据的未修改版本,因此将来可以重新转换该版本,而无需从源系统重新同步数据。

基于此哲学,我们看看Airbyte提供的数据同步模式和相关概念:
同步运行
Airbyte 复制可以被认为是一个循环,它定期从数据源请求记录并将其发送到目的地。此循环的每次迭代称为同步运行。
什么是游标
在增量复制的上下文中,可以将游标视为指向源数据集的指针,该指针用于跟踪从该源发送到目标的最新记录。它用于确保将来不会再次发送已发送的记录。
在每次同步运行中,都会对源执行一个查询以选择要复制的记录,并且此查询被构造为包含游标,以便仅返回比游标更新(即以前未复制)的记录。
对于 CDC 复制,不需要指定游标,因为事务日志中的时间戳和/或序列号(用作 CDC 复制的源)具有相同的用途。
主键的用途
主键唯一标识源数据表中的每条记录。在某些复制模式下,这是必需的,用于确保对源系统中单个记录的多个更新将正确应用于目标系统中的单个记录。此外,如果使用增量更改数据捕获 (CDC) 复制。
全量刷新同步与增量同步
全量刷新复制和增量同步复制之间的主要区别在于,在每次同步运行中,从源读取哪些记录并将其发送到目标:
全量刷新复制
增量同步复制
整个数据集将从源检索,并在每次同步运行时发送到目标。
只有自上次同步运行以来在源系统中插入或更新的记录才会发送到目标。
下图比较了全量刷新复制与增量同步复制 – 此图表示在不同时间插入的记录:t1、t2 和 t3,每次插入后跟同步运行。新插入的记录在源上用红色框进行批注,发送到目标的记录用亮绿色框进行批注。
