欢迎光临散文网会员登陆 & 注册

多易 Hudi进阶与源码解析

2023-02-19 15:48 作者:芢依稀久忆0 0人读过 | 我要投稿

Hudi能够摄入（Ingest）和管理（Manage）基于HDFS之上的大型分析数据集，主要目的是高效的减少入库延时。
Hudi基于Spark/Flink/Hive来对HDFS上的数据进行更新、插入、删除等。
Hudi在HDFS数据集上提供如下流原语：插入更新（如何改变数据集）；增量拉取（如何获取变更的数据）。
Hudi可以对HDFS上的parquet格式数据进行插入/更新操作。
Hudi通过自定义InputFormat与Hadoop生态系统（Spark、Hive、Parquet）集成。
Hudi通过Savepoint来实现数据恢复。

标签：

多易 Hudi进阶与源码解析的评论 (共条)