redis哨兵故障转移及实现

如题所述

举报该问题

其他回答

第1个回答 2022-07-05

sentinel 是一个特殊的 redis 节点，它有自己专属的 api ：

sentinel masters

展示所有被监控的主节点状态及相关信息：

sentinel master <master name>

展示指定 <master name> 状态以及相关的信息：

sentinel slaves <master name>

展示指定 <master name> 的从节点状态以及相关的统计信息：

sentinel sentinels <master name>

展示指定 <master name> 的 sentinel 节点集合（不包含当前 sentinel 节点）：

sentinel get-master-addr-by-name <master name>

获取主节点信息：

sentinel failover <master name>

对 <master name> 进行强制故障转移：

修改配置：

Master 可能会因为某些情况宕机了，如果客户端是固定一个地址去访问，肯定是不合理的，所以客户端请求是请求哨兵，从哨兵获取主机地址的信息，或者是从机的信息。可以实现一个例子：

执行 docker-composer up 之后 sentinel.conf 发生了变化，每个配置文件变化如下：

sentinel\conf\sentinel.conf

sentine2\conf\sentinel.conf

sentine3\conf\sentinel.conf

从变化中可以看出每台 Sentinel 分别记录了 slave 的节点信息和其它 Sentinel 节点信息。

在宿主机中随便进入一台 Sentinel ：

可以观察到监听的所有 master ，将 192.168.3.2 这台 master 进行宕机

docker stop redis-master

宕机完之后等待 Sentinel 检测周期过了之后再对 sentinel.conf 和 redis.conf 进行观察。

3台 Sentinel 的 sentinel monitor mymaster 192.168.3.2 6379 2 变成了 sentinel monitor mymaster 192.168.3.4 6379 2

其次master对应的slave节点信息也进行更改。

而 192.168.3.3 的 redis.conf 中 replicaof 192.168.3.2 6379 也变成了 replicaof 192.168.3.4 6379 。

192.168.3.2 的 redis.conf 中 replicaof 192.168.3.2 6379 这行配置被删除掉了。

再次启动 192.168.3.2 的 redis 节点，而这台节点的 redis.conf 中增加了一行 replicaof 192.168.3.4 6379 。

其实就是将我们的操作自动化了。

Sentinel 的实现原理，主要分为三个步骤：

回顾上一篇文章中 Sentinel 的配置。

主观下线：每个 Sentinel 节点对 Redis 失败的“偏见”。之所以是偏见，只是因为某一台机器30s内没有得到回复。

客观下线：这个时候需要所以 Sentinel 节点都发现它30s内无回复，才会达到共识。

Redis 内部其实是有一个优先级配置的，在配置文件中 replica-priority ，这个参数是 slave 节点的优先级配置，如果存在则返回，如果不存在则继续。当上面这个优先级不满足的时候， Redis 还会选择复制偏移量最大的 Slave 节点，如果存在则返回，如果不存在则继续。之所以选择偏移量最大，这是因为偏移量越小，和 Master 的数据越不接近，现在 Master 挂掉了，说明这个偏移量小的机器数据可能存在问题，这就是为什么选择偏移量最大的 Slave 的原因。如果发现偏移量都一样，这个时候 Redis 会默认选择 runid 最小的节点。

生产环境部署技巧：

哨兵集群在发现 master node 挂掉后会进行故障转移，也就是启动其中一个 slave node 为 master node 。在这过程中，可能会导致数据丢失的情况。

造成的问题：

此时哨兵可能就会认为 master 宕机了，然后开始选举，将其它 slave 切换成 master 。这时候集群里就会有2个 master ，也就是所谓的脑裂。此时虽然某个 slave 被切换成 master ，但是可能 client 还没来得及切换成新的 master ，还继续写向旧的 master 的数据可能就丢失了。因此旧 master 再次被恢复的时候，会被作为一个 slave 挂到新的 master 上去，自己的数据会被清空，重新从新的 master 复制数据。

怎么解决：

要求至少有一个 slave ，数据复制和同步的延迟不能超过10s。

如果说一旦所有的 slave ，数据复制和同步的延迟都超过了10s，这个时候， master 就不会再接收任何请求了。

上面两个配置可以减少异步复制和脑裂导致的数据丢失。

异步复制导致的数据丢失：

在异步复制的过程当中，通过 min-slaves-max-lag 这个配置，就可以确保的说，一旦 slave 复制数据和 ack 延迟时间太长，就认为可能 master 宕机后损失的数据太多了，那么就拒绝写请求，这样就可以把 master 宕机时由于部分数据未同步到 slave 导致的数据丢失降低到可控范围内。

集群脑裂导致的数据丢失：

集群脑裂因为 client 还没来得及切换成新的 master ，还继续写向旧的master的数据可能就丢失了通过 min-slaves-to-write 确保必须是有多少个从节点连接，并且延迟时间小于 min-slaves-max-lag 多少秒。

客户端需要怎么做：

对于 client 来讲，就需要做些处理，比如先将数据缓存到内存当中，然后过一段时间处理，或者连接失败，接收到错误切换新的 master 处理。

相似回答

redis哨兵故障转移及实现答：如果发现偏移量都一样，这个时候 Redis 会默认选择 runid 最小的节点。生产环境部署技巧：哨兵集群在发现 master node 挂掉后会进行故障转移，也就是启动其中一个 slave node 为 master node 。在这过程中，可能会导致数据丢失的情况。造成的问题：此时哨兵可能就会认为 master 宕机了...

搞懂Redis (八) - 哨兵机制答：哨兵实现了以下功能： 1、监控：每个sentinel节点会对数据节点（Redis master/slave节点）和其余sentinel节点进行监控 2、通知：sentinel节点会将故障转移的结果通知给应用方 3、故障转移：实现slave晋升为master，并维护后续正确的主从关系 4、配置中心：在Redis sentinel模式中，客户端在初始化的...

Redis 学习总结(3) Redis 哨兵模式答：- 第三个哨兵：修改哨兵端口。9. 启动哨兵：使用 redis-sentinel 命令，分别启动这三个哨兵。10. 哨兵的自动发现：当三个哨兵都启动后，在各个哨兵的打印日志里可以看到，三个哨兵已互相发现了彼此的存在。11. 模拟 Master 宕机：按 ctrl+c 停止 Master，其位于 6379。停止后，从日志可以看到，哨兵...

Redis哨兵模式(故障转移测试)答：哨兵模式是在主备模式的基础上，加上哨兵，实现redis集群的故障转移。哨兵负责监控集群状态，当redis主节点发生故障，哨兵通过选举，选出替代的master节点。一般需要单数的哨兵进行选举，大多数达成一致。问题：如果哨兵集群也有部分实例down了，出现偶数哨兵，或者只剩下一个哨兵会如何，还能进行故障转移吗。为...

redis 哨兵机制答：(1)集群监控，负责监控redis master 和slave进程是否正常工作。(2)消息通知，如果某个redis实例有故障，那么哨兵负责发送消息作为报警通知给管理员。(3)故障转移，如果master node挂掉了，会自动转移到slave node上。(4)配置中心，如果故障转移发生了，通知client客户端新的master地址。(1)故障转移时，判断...

Redis 哨兵模式核心原理答：哨兵是redis集群架构中非常重要的一个组件，主要功能如下：（1）集群监控，负责监控redis master和slave进程是否正常工作（2）消息通知，如果某个redis实例有故障，那么哨兵负责发送消息作为报警通知给管理员（3）故障转移，如果master node挂掉了，会自动转移到slave node上（4）配置中心，如果...

大家正在搜

redis主从以及哨兵 redis的多哨兵模式 redis 哨兵模式 redis集群和哨兵 redis哨兵命令 redis哨兵机制详解 redis哨兵搭建 redis哨兵部署遇到的问题 redis集群和哨兵的区别