技术干货总结:分布式系统常见同步机制

技术干货总结:分布式系统常见同步机制

作者:IT技术分享 2019-08-22 14:30:21

开发

前端

分布式 分布式系统为保证数据高可用,需要为数据保存多个副本,随之而来的问题是如何在不同副本间同步数据?不同的同步机制有不同的效果和代价,本文尝试对常见分布式组件的同步机制做一个小结。

博望ssl适用于网站、小程序/APP、API接口等需要进行数据传输应用场景,ssl证书未来市场广阔!成为成都创新互联的ssl证书销售渠道,可以享受市场价格4-6折优惠!如果有意向欢迎电话联系或者加微信:028-86922220(备注:SSL证书合作)期待与您的合作!

分布式系统为保证数据高可用,需要为数据保存多个副本,随之而来的问题是如何在不同副本间同步数据?不同的同步机制有不同的效果和代价,本文尝试对常见分布式组件的同步机制做一个小结。

常见机制

有一些常用的同步机制,对它们也有许多评价的维度,先看看大神的 经典总结 :

上图给出了常用的同步方式(个人理解,请批评指正):

  1. Backup,即定期备份,对现有的系统的性能基本没有影响,但节点宕机时只能勉强恢复
  2. Master-Slave,主从复制,异步复制每个指令,可以看作是粒度更细的定期备份
  3. Multi-Muster,多主,也称“主主”,MS 的加强版,可以在多个节点上写,事后再想办法同步
  4. 2 Phase-Commit,二阶段提交,同步先确保通知到所有节点再写入,性能容易卡在“主”节点上
  5. Paxos,类似 2PC,同一时刻有多个节点可以写入,也只需要通知到大多数节点,有更高的吞吐

同步方式分两类,异步的性能好但可能有数据丢失,同步的能保证不丢数据但性能较差。同种方式的算法也能有所提升(如 Paxos 对于 2PC),但实现的难度又很高。实现上只能在这几点上进行权衡。

考虑同步算法时,需要考虑节点宕机、网络阻断等故障情形。下面,我们来看看一些分布式组件的数据同步机制,主要考虑数据写入请求如何被处理,期间可能会涉及如何读数据。

Redis

Redis 3.0 开始引入 Redis Cluster 支持集群模式,个人认为它的设计很漂亮,大家可以看看 官方文档 。

一些设计细节:

  
 
 
 
  1. HASH_SLOT = CRC16(Key) mod 16384 
  2. MEET 
  3. WAIT 

Kafka

Kafka 的分片粒度是 Partition,每个 Partition 可以有多个副本。副本同步设计参考 官方文档

一些设计细节:

 

[[274581]]

ElasticSearch

ElasticSearch 对数据的存储需求和 Kafka 很类似,设计也很类似,详细可见 官方文档 。

ES 中有 master node 的概念,它实际的作用是对集群状态进行管理,跟数据的请求无关。为了上下文一致性,我们称它为管理节点,而称 primary shard 为“主节点”, 称 replica shard 为从节点。ES 的设计:

一些设计细节:

Hadoop

Hadoop 使用的是链式复制,参考 Replication Pipelining

实现细节:

TiKV

TiKV 使用的是 Raft 协议来实现写入数据时的一致性。参考 三篇文章了解 TiDB 技术内幕——说存储

Zookeeper

Zookeeper 使用的是 Zookeeper 自己的 Zab 算法(Paxos 的变种?),参考 Zookeeper Internals

小结

如果系统对性能要求高以至于能容忍数据的丢失(Redis),则显然异步的同步方式是一种好的选择。

而当系统要保证不丢数据,则几乎只能使用同步复制的机制,看到 Kafka 和 Elasticsearch 不约而同地使用了 PacificA 算法(个人认为可以看成是 2PC 的变种),当然这种方法的响应制约于最慢的副本,因此 Kafka 和 Elasticsearch 都有相关的机制将慢的副本移除。

当然看起来 Paxos, Raft, Zab 等新的算法比起 2PC 还是要好的:一致性保证更强,只要半数节点写入成功就可以返回,Paxos 还支持多点写入。只不过这些算法也很难正确实现和优化。


分享题目:技术干货总结:分布式系统常见同步机制
网站地址:http://www.turtgq.com/article/dpeiggi.html

其他资讯