php+redis在实际项目中HTTP 500: Internal Server Error故障排除

2024-05-04 22:49:28

字体：大中小

来源：转载

供稿：网友

问题描述
用户量快速增长，访问量在短时间内翻倍，由于前期容量规划做得比较好，硬件资源可以支撑，可是软件系统方面出现了大问题：
40% 的请求都会返回 HTTP 500: Internal Server Error
通过查看日志，发现错误是在 PHP <-> Redis 的连接处理上
调试处理

第1次
刚开始时并没有找到根本原因，只能尝试各种与错误相关的办法，例如：
增加 PHP 连接数，并把超时时间从 500ms 增加到 2.5s
禁止掉 PHP 设置中的 default_socket_timeout
在主机系统中禁止掉 SYN cookies
检查 Redis 和 Webservers 的文件描述符数量
增加主机系统的 mbuffer
调整 TCP backlog 数量
……

尝试了很多方法，但全部无效

第2次
想在预发布环境中重现这个问题，可惜，还是没成功，应为流量不够大，无法复现

第3次
会不会是代码中没有关闭 Redis 连接呢？
正常来讲，PHP在执行结束时会自动关闭资源连接，但老版本中会有内存泄漏的问题，保险起见，把代码都修改一遍，手动关闭连接
结果还是无效

第4次
怀疑目标：phpredis 这个客户端库
做 A/B 测试，替换回 predis 这个库，部署到数据中心中 20% 的用户量上
得益于良好的代码结构，替换工作很快完成
可结果依旧是无效，但也有好的一面，可以证明 phpredis 没问题嘛

第5次
查看了一下 Redis 的版本，是 v2.6，当时最新版本是 v2.8.9
升级 Redis 试一下吧，升完后还是不行
没事儿，要保持乐观，这不顺便把 Redis 版本升为最新的了

第6次
通过查找大量文档，在官方文档中发现了一个调试好方法 Redis Software Watchdog，打开后执行：

$ redis-cli --latency -p 6380 -h 1.2.3.4min: 0, max: 463, avg: 2.03 (19443 samples)

查看 Redis 日志：

...[20398] 22 May 09:20:55.351 * 10000 changes in 60 seconds. Saving...[20398] 22 May 09:20:55.759 * Background saving started by pid 41941[41941] 22 May 09:22:48.197 * DB saved on disk[20398] 22 May 09:22:49.321 * Background saving terminated with success[20398] 22 May 09:25:23.299 * 10000 changes in 60 seconds. Saving...[20398] 22 May 09:25:23.644 * Background saving started by pid 42027...

发现了问题：
每隔几分钟就向硬盘保存一次数据，fork 一个后台存储进行为什么需要大概 400ms（通过上面日志的第1条和第2条的时间可以看出来）

到这儿，终于找到问题的根源了，因为 Redis 实例中有大量的数据，导致每次持久化操作 fork 后台进程时非常耗时，并且在他们的业务中经常修改key，又导致了频繁触发持久化，也就经常产生对 Redis 的阻塞

处理办法：使用单独的 slave 来做持久化

上一篇：Yii CFileCache 获取不到值的原因分析

下一篇：PHP验证终端类型是否为手机的简单实例