SparkSession对象怎么构建?【附详细代码】
在RDD阶段,程序的执行入口对象是:SparkContext
在Spark 2.0后,推出了SparkSession对象,作为Spark编码的统一入口对象。
SparkSession对象可以:
- 用于SparkSQL编程作为入口对象
- 用于SparkCore编程,可以通过SparkSession对象中获取到SparkContext
所以,我们后续的代码,执行环境入口对象,统一变更为SparkSession对象

SparkSession:这是一个新入口,取代了原本的SQLContext与HiveContext。对于DataFrame API的用户来说,Spark常见的混乱源头来自于使用哪个“context”。现在使用SparkSession,它作为单个入口可以兼容两者,注意原本的SQLContext与HiveContext仍然保留,以支持向下兼容。
文档:
http://spark.apache.org/docs/latest/sql-getting-started.html
1)、SparkSession在SparkSQL模块中
2)、SparkSession对象实例通过建造者模式构建

SparkSession实现了SQLContext及HiveContext所有功能。SparkSession支持从不同的数据源加载数据,并把数据转换成DataFrame,并且支持把DataFrame转换成SQLContext自身中的表,然后使用SQL语句来操作数据。SparkSession亦提供了HiveQL以及其他依赖于Hive的功能的支持。
其中①表示导入SparkSession所在的包,②表示建造者模式构建对象和设置属性
现在,来体验一下构建执行环境入口对象:SparkSession
IDEA范例演示:构建SparkSession实例,加载文本数据,统计条目数
