Redis Cluster应用最佳实践

不扩容时集群非常稳定。
扩容resharding时候，早期版本的Jedis端有时会出现“max-redirect”异常。
分析Jedis源码，请求重试次数达到了上限，仍然没有请求成功。两方面分析：redis连接不上？还是集群节点信息不一致？
存活检测机制缺陷：Redis存活检测机制可能因为master节点上慢查询、阻塞式命令、或者其它的性能问题导致长时间没有响应，这个节点会认为处于failed状态，并进行切换。这种切换是没必要的。

优化策略：

a) 默认的cluster-node-timeout为15s，可以适当增大;

b) 避免使用会引起长时间阻塞的命令，比如save/flushdb等阻塞操作，或者keys pattern这种慢查询。

总体来说，redis cluster已经非常稳定了，但是要注意一些应用中的小问题,下面是5个坑，大家注意了.

2.1 迁移过程中Jedis“Max Redirect”异常

2.2 长时间阻塞引起的不必要的failover

阻塞的命令。比如save/flushall/flushdb
慢查询。keys *、大key的操作、O(N)操作
rename危险操作：
- rename-command FLUSHDB REDIS_FLUSHDB
- rename-command FLUSHALL REDIS_FLUSHALL
- rename-command KEYS REDIS_KEYS

2.3 同时支持ipv4和ipv6侦听服务埋下的坑

具体现象：redis启动正常，节点的协议端口只有ipv6 socket创建正常。异常节点也无法加入到集群中，也无法获取epoch。

解决方法：启动时指定网卡ipv4地址，也可以是0.0.0.0，配置文件中添加：bind 0.0.0.0

这个是在setup集群的时候发生过的一个问题，bind 0.0.0.0虽然存在一些安全性问题，但是是比较简单通用的解决方法。

2.4 数据迁移速度较慢

2.5 版本选择/升级建议

Tips

后面2点不算坑把，算是不足，tips也很实用，开始分享下最佳实践。

3.1 应用做好容错机制

3.2 制定开发规范

PS：开发规范，使你们的开发按照最优的方式使用nosql。

3.3 优化连接池使用

连接问题是redis开发使用中最常见的问题，connection timeout/read timeout，还有borrow connection的问题。

3.4 区分redis/twemproxy和cluster的使用

区分redis和cluster的使用，一方面是数据分片引起的；另一方面，与client的实现支持相关。

3.5 几个需要调整的参数

1）设置系统参数vm.overcommit_memory=1，可以避免bgsave/aofrewrite失败。

2）设置timeout值大于0，可以使redis主动释放空闲连接。

3）设置repl-backlog-size 64mb。默认值是1M，当写入量很大时，backlog溢出会导致增量复制不成功。

4）client buffer参数调整

client-output-buffer-limit normal 256mb 128mb 60

client-output-buffer-limit slave 512mb 256mb 180

本内容来自唯品会Redis Cluster大规模生产实践文章。

如果您觉得本站对你有帮助，那么可以支付宝扫码捐助以帮助本站更好地发展，在此谢过。