欢迎光临散文网 会员登陆 & 注册

多易 Hudi进阶与源码解析

2023-02-19 15:48 作者:芢依稀久忆0  | 我要投稿
  • Hudi能够摄入(Ingest)和管理(Manage)基于HDFS之上的大型分析数据集,主要目的是高效的减少入库延时。

  • Hudi基于Spark/Flink/Hive来对HDFS上的数据进行更新、插入、删除等。

  • Hudi在HDFS数据集上提供如下流原语:插入更新(如何改变数据集);增量拉取(如何获取变更的数据)。

  • Hudi可以对HDFS上的parquet格式数据进行插入/更新操作。

  • Hudi通过自定义InputFormat与Hadoop生态系统(Spark、Hive、Parquet)集成。

  • Hudi通过Savepoint来实现数据恢复。


多易 Hudi进阶与源码解析的评论 (共 条)

分享到微博请遵守国家法律