数据仓库工具Hive

2020-06-11 16:51 作者:尚硅谷 0人读过 | 我要投稿

【Hive简介】

Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。

Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。hive是十分适合数据仓库的统计分析和Windows注册表文件。

【Hive设计特征】

Hive是一种底层封装了Hadoop的数据仓库处理工具，使用类SQL的hiveQL语言实现数据查询，所有hive的数据都存储在Hadoop兼容的文件系统（例如，Amazon S3、HDFS）中。hive在加载数据过程中不会对数据进行任何的修改，只是将数据移动到HDFS中hive设定的目录下，因此，hive不支持对数据的改写和添加，所有的数据都是在加载的时候确定的。

Hive的设计特点如下：

1. 支持创建索引，优化数据查询。

2. 不同的存储类型，例如，纯文本文件、HBase 中的文件。

3. 将元数据保存在关系数据库中，大大减少了在查询过程中执行语义检查的时间。

4. 可以直接使用存储在Hadoop 文件系统中的数据。

5. 内置大量用户函数UDF 来操作时间、字符串和其他的数据挖掘工具，支持用户扩展UDF 函数来完成内置函数无法实现的操作。

6. 类SQL 的查询方式，将SQL 查询转换为MapReduce 的job 在Hadoop集群上执行。

【系统学习并掌握Hive】

尚硅谷Hive教程

https://www.bilibili.com/video/BV1W4411B7cN

课程详情：

Hive是基于Hadoop的一个数据仓库工具，将繁琐的MapReduce程序变成了简单方便的SQL语句实现，深受广大软件开发工程师喜爱。Hive同时也是进入互联网行业的大数据开发工程师所需技术之一。

在本课程中，你将学习到，Hive架构原理、安装配置、hiveserver2、数据类型、数据定义、数据操作、查询、自定义UDF函数、窗口函数、压缩和存储、企业级调优、以及结合谷粒影音项目需求，把整个Hive的核心知识点贯穿起来。

更新：课件升级、添加自定义UDTF函数、企业常用函数以及更多企业面试真题详细讲解

标签：

数据仓库工具Hive

数据仓库工具Hive的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

数据仓库工具Hive

本文作者的其他文章

数据仓库工具Hive的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

数据仓库工具Hive的评论 (共条)