SparkSession对象怎么构建？【附详细代码】

2023-03-09 16:05 作者:ingemar- 0人读过 | 我要投稿

在RDD阶段，程序的执行入口对象是：SparkContext

在Spark 2.0后，推出了SparkSession对象，作为Spark编码的统一入口对象。

SparkSession对象可以：

- 用于SparkSQL编程作为入口对象

- 用于SparkCore编程，可以通过SparkSession对象中获取到SparkContext

所以，我们后续的代码，执行环境入口对象，统一变更为SparkSession对象

SparkSession：这是一个新入口，取代了原本的SQLContext与HiveContext。对于DataFrame API的用户来说，Spark常见的混乱源头来自于使用哪个“context”。现在使用SparkSession，它作为单个入口可以兼容两者，注意原本的SQLContext与HiveContext仍然保留，以支持向下兼容。

文档：

http://spark.apache.org/docs/latest/sql-getting-started.html

1）、SparkSession在SparkSQL模块中

2）、SparkSession对象实例通过建造者模式构建

SparkSession实现了SQLContext及HiveContext所有功能。SparkSession支持从不同的数据源加载数据，并把数据转换成DataFrame，并且支持把DataFrame转换成SQLContext自身中的表，然后使用SQL语句来操作数据。SparkSession亦提供了HiveQL以及其他依赖于Hive的功能的支持。

其中①表示导入SparkSession所在的包，②表示建造者模式构建对象和设置属性

现在，来体验一下构建执行环境入口对象：SparkSession

构建SparkSession核心代码

IDEA范例演示：构建SparkSession实例，加载文本数据，统计条目数