docker学习（九、分布式存储亿级数据知识）

2023-12-16 09:32:10

docker学习（九、分布式存储亿级数据知识）

一、哈希取余分区
二、一致性哈希算法分区
三、哈希槽分区（重点）

内容整体是以Redis做分布式为例的~~~先出理论，后出实践docker操作

一、哈希取余分区

举个例子：目前有2亿条数据存储在Redis数据库中，使用分布式多台机器存储。
如果是3台机器构成的一个集群，用户每次读写都会根据公式hash(key)%N获取到要映射的机器位置。
在这里插入图片描述

优点：
简单粗暴，直接有效，只需要预估好数据规划好节点即可。通过hash算法让固定的一部分请求落到同一台服务器上，这样就起到了负载均衡+分而治之的效果了。
缺点：
扩容或者缩减的时候，节点会有所变化，映射关系需要重新计算。取模公式N也会变化，导致数据需要重新洗牌。

二、一致性哈希算法分区

一致性哈希算法将整个哈希空间（通常是一个圆环）划分为多个虚拟节点，并将这些虚拟节点映射到物理节点上。每个物理节点负责一定范围内的哈希空间。
将所有的存储节点排列在首位相接的Hash换上，每个Key在计算Hash后会在哈希环上顺时针查找最近的虚拟节点存放。而当节点加入或退出时仅影响节点在Hash环上顺时针相邻最近的节点。
在这里插入图片描述

优点：

容错性：假设节点B宕机，可以看到此时只有B被重定向到C。如果一台服务器不可用，则受影响的数据仅仅是此服务器到其换空间中前一台服务器（逆时针最近的一台）之间数据，其他不会受影响。
扩展性：增加一个节点X，例如在AB之间，那受到影响的只有A到X之间的数据，重新把A到X的数据录入到X上即可，不会导致hash取余全部数据重新洗牌。

总结起来就是加入和删除节点只影响哈希环顺时针方向的相邻节点，对其他节点无影响。

缺点：

Has环节点太少时，容易因为节点分布不均匀导致数据倾斜（被缓存的对象大部分集中在了某一台服务器上）问题。

数据的分布和节点位置有关，节点不均匀时，数据在进行存储时也可能达不到均匀分布的效果。

三、哈希槽分区（重点）

哈希槽实质是一个数组[0, $2^{14} -1$ ]形成的hash slot空间。
在这里插入图片描述

作用：
解决均匀分配问题，在数据和节点之间又加了一层，把这个层叫做哈希槽（slot)，用于管理数据和节点之间的关系，现在相当于节点上放的是槽，槽里放的是数据。

槽解决的是粒度问题，相当于把粒度变大，便于移动数据。
哈希解决的是映射问题，使用key的哈希值来计算所在的槽，便于数据分配。

槽的个数：
一个集群只能有16384个槽，编号0~16383（0 ~ $2^{14} -1$ ）。

解决槽和节点的关系：
可以直接指定槽的编号分配给集群的某个主节点。

解决数据移动问题：
对key求哈希值，然后对16384取余，余数是几就落入对应的槽里。slot=CRC16(key)%16384。以槽为单位移动数据，因为槽的数目是固定的，处理起来比较容易，这样移动数据问题就解决了。
在这里插入图片描述

文章来源:https://blog.csdn.net/qq_35716085/article/details/135011956
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！