雪花主键_在postgres的实现

2024-01-03 13:38:46

一、主键的属性：

1. 全局唯一，不重复

2. 趋势有序，后面的值大于前面的值

3. 高性能，读写效率高。qps不能太低，否则容易造成线程堵塞

4. 可用性好，业务对ID的可用性高，不存在单点故障

二、常见的主键方式

2.1、自增主键

利用数据库表自增主键

优点： 1. 简单

? ? ? ? ? ? 2. 查询和插入的性能高

? ? ? ? ? ? 3. 保证有序

缺点：1. 无法保证全局唯一，分库分表

2.2、UUID

以java的UUID为例

优点： 1. 基本能保证全部唯一(重复概率低)，如果加上时间戳和机器码

缺点： 1. 无序，无法保证后来的消息主键值大于前面的主键

? ? ? ? ? ? 2. 因为乱序，所以对数据的存储，以mysql为例，B+树形结构的存储不友好。读写效率低

2.3、雪花主键

优点： 1. 基本能保证全部唯一(重复概率低)

? ? ? ? ? ? 2. 主键值有序

? ? ? ? ? ? 3. 读取性能高

? ? ? ? ? ? 4. 可用性好，他适合分布式主键，不担心单点故障。

缺点： 1. 写入性能没自增主键好 (自增主键是int类型)

? ? ? ? ? ? 2. 存在乱序或重复的可能性，即机器的时钟回调

三、雪花主键的原理

一共64位，8个字节。它的值分别有，符号位，时间戳，机器码，序列号组成。

基础的格式是，位数是从低向高(从右往左数)

1. 第64位，符号位， 0代表正数，1代表负数。所以默认为0

2. 第23-63位，一共41位，是时间戳的值，毫秒值。2^41 =?2199023255552 毫秒。除以 24*60*60*1000，约为69年。标准时间戳基准是1970-1-1，即可以用到 2039-1-1，为了增加使用时间，可以修改时间基准值。

3. 第13-23位，一共10位，是机器ID值， 2^10， 1024台机器。集群可以有1024个节点。

4. 第1-12位，一共12位，是序列值，2^12 = 4096，即每个节点每毫秒最大的并发，生成4096个雪花值。再多就会重复了。如果想要增加并发值，可以降低机器ID值的位数，增加序列值的位数（一般集群也不会有1024个节点）。?

例如修改成23-15，一共8位是机器ID值，2^8 = 256 ，也有256个节点值。 1-14位是序列值，则16384，每个节点每毫秒的最大并发数就有16384个了。

下图为标准的雪花位数示意图

四、雪花主键的实现

华为高斯dws数据仓库，postgres的sql语法实现。

4.1、序列值

创建一个序列?

SET search_path = test;
CREATE SEQUENCE seq_table_id_1
    START WITH 0   -- 序列值开始值
    INCREMENT BY 1 -- 步长
    MINVALUE 0    -- 最小值
    NO MAXVALUE  -- 为了保证 序列有序， 如果设定了最大值，则要打开cycle
    CACHE 100;  -- 缓存，加快速度

4.2、雪花主键的实现

/**
本例是按照标准的雪花位数分配，即机器ID值是10位，序列号是12位。
本例没有规范机器ID值，因为我的集群实际也只有一台。 你可以依据自己实际情况，指定机器ID值，例如mac码，ip地址等。
获取机器ID值后调用函数传入参数
*/ 

CREATE OR REPLACE FUNCTION test.f_generate_snow_id(input_machine_id integer)
 RETURNS bigint
 LANGUAGE plpgsql
 NOT FENCED SHIPPABLE
AS $$
DECLARE
--   our_epoch bigint := 1672502400000; --2023-1-1 00:00:00 的时间戳 , 修改基准时间为2023-01-01. 这样就可以使用到 2023 +69 = 2092年。

   seq_id bigint;
   machine_id int;
   now_millis bigint;

   result bigint := 0 ;  --确保符号位是0，正数
BEGIN
   seq_id := nextval('test.seq_table_id_1') % 4096; -- 序列号值大于4096，需要循环
   machine_id := input_machine_id % 1024 ;
   -- SELECT FLOOR(EXTRACT(EPOCH FROM clock_timestamp()) * 1000) INTO now_millis;
   -- result := result | ((now_millis - our_epoch) << 22) ; -- 调整基准时间的实现
   SELECT FLOOR(EXTRACT(EPOCH FROM clock_timestamp()) * 1000) INTO now_millis;
   result := result | (now_millis  << 22) ;
   result := result | (machine_id << 10) ;
   result := result | (seq_id&4095);  
   
   return result;
END $$
/

?五、测试写入性能。

5.1、目标表，建表时指定主键，并使用雪花

create table test.t_test(
  id bigint not null default test.f_generate_snow_id(20)  -- 建表时，传入 0-1023 的  任意值
  , age int
  ,PRIMARY key (id)
)

?数据来源表： 200w

create table test.t_source(
  id int
 ,name varchar2 
)

生产200w数据插入来源表 t_source.? 这个语句效率有点低跑了30+分钟

DECLARE
i bigint := 0 ;
sql    text;
begin 
loop
  sql := 'insert into test.t_source(age) values (1) ;' ;
  EXECUTE sql;
  i := i+1 ; 
  exit when i > 2000000 ;
end loop ;
end ;

?5.2、插入性能

insert into test.t_test(age)
select age from test.t_source

费时： 2min37s

文章来源:https://blog.csdn.net/zhang5324496/article/details/135342601
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！