欢迎光临散文网 会员登陆 & 注册

SparkSQL和Hive有什么异同?

2023-03-07 17:11 作者:ingemar-  | 我要投稿

SparkSQL和Hive的异同


Hive和Spark 均是:“分布式SQL计算引擎”

均是构建大规模结构化数据计算的绝佳利器,同时SparkSQL拥有更好的性能。

目前,企业中使用Hive仍旧居多,但SparkSQL将会在很近的未来替代Hive成为分布式SQL计算市场的顶级


SparkSQL的数据抽象


回顾Pandas和SparkSQL的数据抽象

Pandas - DataFrame

· 二维表数据结构

· 单机(本地)集合

SparkCore - RDD

· 无标准数据结构,存储什么数据均可

· 分布式集合(分区)

SparkSQL - DataFrame

· 二维表数据结构

· 分布式集合(分区)

SparkSQL 其实有3类数据抽象对象

· SchemaRDD对象(已废弃)

· DataSet对象:可用于Java、Scala语言

· DataFrame对象:可用于Java、Scala、Python、R

我们以Python开发SparkSQL,主要使用的就是DataFrame对象作为核心数据结构

在SparkSQL当中,Spark为我们提供了两个操作SparkSQL的抽象,分别是DataFrame和DataSet。也就是说我们操作SparkSQL一般都是使用DataFrame或者DataSet来实现的。

RDD(Spark1.0)  ==>  DataFrame(1.3)   ==>  DataSet(1.6)


SparkSQL和Hive有什么异同?的评论 (共 条)

分享到微博请遵守国家法律