如何使用Hive进行数据分析的,提供哪些方式交互分析?
Spark中有一个服务叫做:ThriftServer服务,可以启动并监听在10000端口
这个服务对外提供功能,我们可以用数据库工具或者代码连接上来,直接写SQL即可操作spark

当使用ThriftServer后,相当于一个持续性的Spark On Hive集成模式。它提供10000端口,持续对外提供服务,外部可以通过这个端口连接上来,写SQL,让Spark运行。
Spark SQL 还可以使用其 JDBC/ODBC 或命令行界面充当分布式查询引擎。在这种模式下,最终用户或应用程序可以直接与 Spark SQL 交互运行 SQL 查询,而无需编写任何代码。
回顾一下,如何使用Hive进行数据分析的,提供哪些方式交互分析???
方式一:交互式命令行(CLI)
bin/hive,编写SQL语句及DDL语句
方式二:启动服务HiveServer2(Hive ThriftServer2)
将Hive当做一个服务启动(类似MySQL数据库,启动一个服务),端口为10000
1)、交互式命令行,bin/beeline,CDH 版本HIVE建议使用此种方式,CLI方式过时
2)、JDBC/ODBC方式,类似MySQL中JDBC/ODBC方式
SparkSQL模块从Hive框架衍生发展而来,所以Hive提供的所有功能(数据分析交互式方式)都支持,文档:http://spark.apache.org/docs/latest/sql-distributed-sql-engine.html。
SparkSQL提供spark-sql命令,类似Hive中bin/hive命令,专门编写SQL分析,启动命令如下:
命令如下:

此种方式,目前企业使用较少,主要使用下面所述ThriftServer服务,通过Beeline连接执行SQL。
