欢迎光临散文网 会员登陆 & 注册

SparkSession对象怎么构建?【附详细代码】

2023-03-09 16:05 作者:ingemar-  | 我要投稿

在RDD阶段,程序的执行入口对象是:SparkContext

在Spark 2.0后,推出了SparkSession对象,作为Spark编码的统一入口对象。

SparkSession对象可以:

- 用于SparkSQL编程作为入口对象

- 用于SparkCore编程,可以通过SparkSession对象中获取到SparkContext

所以,我们后续的代码,执行环境入口对象,统一变更为SparkSession对象

SparkSession:这是一个新入口,取代了原本的SQLContext与HiveContext。对于DataFrame API的用户来说,Spark常见的混乱源头来自于使用哪个“context”。现在使用SparkSession,它作为单个入口可以兼容两者,注意原本的SQLContext与HiveContext仍然保留,以支持向下兼容。

文档:

http://spark.apache.org/docs/latest/sql-getting-started.html

1)、SparkSession在SparkSQL模块中

2)、SparkSession对象实例通过建造者模式构建

SparkSession实现了SQLContext及HiveContext所有功能。SparkSession支持从不同的数据源加载数据,并把数据转换成DataFrame,并且支持把DataFrame转换成SQLContext自身中的表,然后使用SQL语句来操作数据。SparkSession亦提供了HiveQL以及其他依赖于Hive的功能的支持。

其中①表示导入SparkSession所在的包,②表示建造者模式构建对象和设置属性

现在,来体验一下构建执行环境入口对象:SparkSession

构建SparkSession核心代码

IDEA范例演示:构建SparkSession实例,加载文本数据,统计条目数


SparkSession对象怎么构建?【附详细代码】的评论 (共 条)

分享到微博请遵守国家法律