记一次线上PHP项目问题

背景:

户反馈,小程序和APP在早上8:30左右无法使用,于是着手排查问题。

排查:

项目架构为Nginx+PHP+Mysql

首先看nginx access和error日志,发现问题时间段出现大量499错误。简单说:499错误为nginx转发请求给PHP等待超时,响应给客户端的错误码。

难道那段时间PHP挂了?🤔

OK,看php-fpm错误日志,包括慢执行日志。项目使用的Laravel框架,通过错误日志可以看到执行入口文件public/index.php出错,返回Unknown:0

再看慢日志,发现在执行sql查询时耗时过长,怀疑是数据库出了问题,通过Mysql压力负载可以看到凌晨3点到8:30左右,压力较大。

这段时间执行了哪些任务呢?

通过排查,发现原来是通过mysqldump方式备份全库时,执行时间过长(数据库比较大)导致Mysql资源被占用过多,从而导致服务不可用。

对于数据备份,推荐Percona XtraBackup

排查问题也需要理解nginx和php-fpm的执行流程

补充nginxphp-fpm模型差异:

Nginx 是非阻塞IO & IO复用模型,通过操作系统提供的类似 epoll 的功能,可以在一个线程里处理多个客户端的请求。 Nginx 的进程就是线程,即每个进程里只有一个线程,但这一个线程可以服务多个客户端。 PHP-FPM 是阻塞的单线程模型,pm.max_children 指定的是最大的进程数量,pm.max_requests 指定的是每个进程处理多少个请求后重启(因为 PHP 偶尔会有内存泄漏,所以需要重启). PHP-FPM 的每个进程也只有一个线程,但是一个进程同时只能服务一个客户端。 大多数的 Linux 程序都倾向于使用进程而不是线程,因为 Linux 下相对来说创建进程的开销比较小,而 Linux 的线程功能又不是很强大。

updatedupdated2018-10-202018-10-20
Load Comments?