欢迎光临散文网 会员登陆 & 注册

对于SnowFlake你又了解多少?

2023-08-16 20:21 作者:腾科IT教育官方账号  | 我要投稿

前言

SnowFlake的出现来源于国家大气研究中心查尔斯·奈特称发现,一般的雪花大约由10^19个水分子组成,在雪花形成过程中,会形成不同的结构分支,所以在自然中不存在两片完全一样的雪花,这个有趣的观察启发了Twitter开源的snowflake分布式ID生成算法。

 snowflake算法能够保证在分布式系统中生成的ID是独一无二的

需要选择合适的方案去应对数据规模的增长,以应对逐渐增长的访问压力和数据量。

 数据库的扩展方式主要包括:业务分库、主从复制,数据库分表。


数据库分表

将不同业务数据分散存储到不同的数据库服务器,能够支撑百万甚至千万用户规模的业务,但如果业务 继续发展,同一业务的单表数据也会达到单台数据库服务器的处理瓶颈。

 例如,淘宝的几亿用户数据, 如果全部存放在一台数据库服务器的一张表中,肯定是无法满足性能要求的,此时就需要对单表数据进行拆分。

单表数据拆分有两种方式:垂直分表和水平分表。

示意图如上

垂直分表

 垂直分表适合将表中某些不常用且占了大量空间的列拆分出去。

 例如,前面示意图中的 nickname 和 description 字段,假设我们是一个婚恋网站,用户在筛选其他用 户的时候,主要用 age 和 sex 两个字段进行查询,而 nickname 和 description 两个字段主要用于展 示,一般不会在业务查询中用到。

  description 本身又比较长,所以我们可以将这两个字段独立到另外 一张表中,这样在查询 age 和 sex 时,就能带来一定的性能提升。


水平分表

水平分表适合表行数特别大的表,有的公司要求单表行数超过 5000 万就必须进行分表,这个数字可以 作为参考,但并不是绝对标准,关键还是要看表的访问性能。对于一些比较复杂的表,可能超过 1000 万就要分表了;而对于一些简单的表,即使存储数据超过 1 亿行,也可以不分表。

但不管怎样,当看到表的数据量达到千万级别时,作为架构师就要警觉起来,因为这很可能是架构的性 能瓶颈或者隐患。

水平分表相比垂直分表,会引入更多的复杂性,例如要求全局唯一的数据id该如何处理


主键自增

以最常见的用户 ID 为例,可以按照 1000000 的范围大小进行分段,1 ~ 999999 放到表 1中, 1000000 ~ 1999999 放到表2中,以此类推。

复杂点:分段大小的选取。分段太小会导致切分后子表数量过多,增加维护复杂度;分段太大可能会 导致单表依然存在性能问题,一般建议分段大小在 100 万至 2000 万之间,具体需要根据业务选取合适 的分段大小。

优点:可以随着数据的增加平滑地扩充新的表。例如,现在的用户是 100 万,如果增加到 1000 万, 只需要增加新的表就可以了,原有的数据不需要动。

缺点:分布不均匀。假如按照 1000 万来进行分表,有可能某个分段实际存储的数据量只有 1 条,而 另外一个分段实际存储的数据量有 1000 万条。


 取模

同样以用户 ID 为例,假如我们一开始就规划了 10 个数据库表,可以简单地用 user_id % 10 的值来 表示数据所属的数据库表编号,ID 为 985 的用户放到编号为 5 的子表中,ID 为 10086 的用户放到编号 为 6 的子表中。

复杂点:初始表数量的确定。表数量太多维护比较麻烦,表数量太少又可能导致单表性能存在问题。

优点:表分布比较均匀。

缺点:扩充新的表很麻烦,所有数据都要重分布。


总结 

雪花算法是由Twitter公布的分布式主键生成算法,它能够保证不同表的主键的不重复性,以及相同表的 主键的有序性。


关于雪花算法,本期就讲到这里

下期还会继续发布好文章给大家学习

快快关注我们吧!



对于SnowFlake你又了解多少?的评论 (共 条)

分享到微博请遵守国家法律