多易 Hudi进阶与源码解析
Hudi能够摄入(Ingest)和管理(Manage)基于HDFS之上的大型分析数据集,主要目的是高效的减少入库延时。
Hudi基于Spark/Flink/Hive来对HDFS上的数据进行更新、插入、删除等。
Hudi在HDFS数据集上提供如下流原语:插入更新(如何改变数据集);增量拉取(如何获取变更的数据)。
Hudi可以对HDFS上的parquet格式数据进行插入/更新操作。
Hudi通过自定义InputFormat与Hadoop生态系统(Spark、Hive、Parquet)集成。
Hudi通过Savepoint来实现数据恢复。