大数据之Hbase分布式数据库

2021-03-24 17:30 作者:编程大战 0人读过 | 我要投稿

大家也许听说过大数据，对大数据的第一印象可能是很多数据的聚集，那你们听说过大数据中的Hbase吗？或许很多人不明白，什么是Hbase？我们一起来探索hbase的真面目。

一、什么是Hbase

HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

总而言之hbase就是一个数据库，数据仓库。

二、Hbase起源

HBase是一个开源的非关系型分布式数据库，它参考了谷歌的BigTable建模，实现的编程语言为Java。它是Apache软件基金会的Hadoop项目的一部分，运行于HDFS文件系统之上，为 Hadoop 提供类似于BigTable 规模的服务。因此，它可以容错地存储海量稀疏的数据。

HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库，是谷歌BigTable的开源实现，主要用来存储非结构化和半结构化的松散数据。HBase的目标是处理非常庞大的表，可以通过水平扩展的方式，利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表。

那么有同学会有疑惑

三、Hbase与传统的数据有什么不同呢？

1、数据类型：关系数据库采用关系模型，具有丰富的数据类型和存储方式，HBase则采用了更加简单的数据模型，它把数据存储为未经解释的字符串。
2、数据操作：关系数据库中包含了丰富的操作，其中会涉及复杂的多表连接。HBase操作则不存在复杂的表与表之间的关系，只有简单的插入、查询、删除、清空等，因为HBase在设计上就避免了复杂的表和表之间的关系。
3、存储模式：关系数据库是基于行模式存储的。HBase是基于列存储的，每个列族都由几个文件保存，不同列族的文件是分离的。
4、数据索引：关系数据库通常可以针对不同列构建复杂的多个索引，以提高数据访问性能。HBase只有一个索引——行键，通过巧妙的设计，HBase中的所有访问方法，或者通过行键访问，或者通过行键扫描，从而使得整个系统不会慢下来。
5、数据维护：在关系数据库中，更新操作会用最新的当前值去替换记录中原来的旧值，旧值被覆盖后就不会存在。而在HBase中执行更新操作时，并不会删除数据旧的版本，而是生成一个新的版本，旧有的版本仍然保留。
6、可伸缩性：关系数据库很难实现横向扩展，纵向扩展的空间也比较有限。相反，HBase和BigTable这些分布式数据库就是为了实现灵活的水平扩展而开发的，能够轻易地通过在集群中增加或者减少硬件数量来实现性能的伸缩。

四、Hbase的系统架构

Hbase就先介绍到这里，当然Hbase还有好多需要我们掌握的知识，更多重要的知识点可以观看视频哦~有什么疑问的小伙伴可以在评论区告诉我哦~

标签：

大数据之Hbase分布式数据库

大数据之Hbase分布式数据库的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

大数据之Hbase分布式数据库

本文作者的其他文章

大数据之Hbase分布式数据库的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

大数据之Hbase分布式数据库的评论 (共条)