Nginx 失败重试机制(详细)

https://zhuanlan.zhihu.com/p/127959800重试机制解析Nginx 的失败重试，就是为了实现对客户端透明的服务器高可用。然而这部分失败重试机制比较复杂且官方文档没详细介绍，本文将对其解析，并配合实际场景例子使之更容易被理解。基础失败重试这部分介绍最常见、最基础的失败重试场景。为了方便理解，使用了以下配置进行分析（proxy_next_upstream没有特殊配置）：

我家小宝_朱朱

5112人浏览 · 2021-01-28 18:41:32

我家小宝_朱朱 · 2021-01-28 18:41:32 发布

https://zhuanlan.zhihu.com/p/127959800

重试机制解析

Nginx 的失败重试，就是为了实现对客户端透明的服务器高可用。然而这部分失败重试机制比较复杂且官方文档没详细介绍，本文将对其解析，并配合实际场景例子使之更容易被理解。

基础失败重试

这部分介绍最常见、最基础的失败重试场景。

为了方便理解，使用了以下配置进行分析（proxy_next_upstream 没有特殊配置）：

upstream test {
    server 127.0.0.1:8001 fail_timeout=60s max_fails=2; # Server A
    server 127.0.0.1:8002 fail_timeout=60s max_fails=2; # Server B
}

模拟后端异常的方式是直接将对应服务关闭，造成 connect refused 的情况，对应 error 错误。

在最初始阶段，所有服务器都正常，请求会按照轮询方式依次转发给 AB 两个 Server 处理。假设这时 A 节点服务崩溃，端口不通，则会出现这种情况：

请求 1 转到 A 异常，再重试到 B 正常处理，A fails +1
请求 2 转到 B 正常处理
请求 3 转到 A 异常，再重试到 B 正常处理，A fails +1 达到 max_fails 将被屏蔽 60s
屏蔽 A 的期间请求都只转给 B 处理，直到屏蔽到期后将 A 恢复重新加入存活列表，再按照这个逻辑执行

如果在 A 的屏蔽期还没结束时，B 节点的服务也崩溃，端口不通，则会出现：

请求 1 转到 B 异常，此时所有线上节点异常，会出现：

AB 节点一次性恢复，都重新加入存活列表
请求转到 A 处理异常，再转到 B 处理异常
触发 no live upstreams 报错，返回 502 错误
所有节点再次一次性恢复，加入存活列表
请求 2 依次经过 AB 均无法正常处理，触发 no live upstreams 报错，返回 502 错误

重试限制方式

默认配置是没有做重试机制进行限制的，也就是会尽可能去重试直至失败。

Nginx 提供了以下两个参数来控制重试次数以及重试超时时间：

proxy_next_upstream_tries：设置重试次数，默认 0 表示无限制，该参数包含所有请求 upstream server 的次数，包括第一次后之后所有重试之和；
proxy_next_upstream_timeout：设置重试最大超时时间，默认 0 表示不限制，该参数指的是第一次连接时间加上后续重试连接时间，不包含连接上节点之后的处理时间

为了方便理解，使用以下配置进行说明（只列出关键配置）：

proxy_connect_timeout 3s;
proxy_next_upstream_timeout 6s;
proxy_next_upstream_tries 3;

upstream test {
    server 127.0.0.1:8001 fail_timeout=60s max_fails=2; # Server A
    server 127.0.0.1:8002 fail_timeout=60s max_fails=2; # Server B
    server 127.0.0.1:8003 fail_timeout=60s max_fails=2; # Server C
}

第 2~3 行表示在 6 秒内允许重试 3 次，只要超过其中任意一个设置，Nginx 会结束重试并返回客户端响应（可能是错误码）。我们通过 iptables DROP 掉对 8001、8002 端口的请求来模拟 connect timeout 的情况：

iptables -I INPUT  -p tcp -m tcp --dport 8001 -j DROP
iptables -I INPUT  -p tcp -m tcp --dport 8002 -j DROP

则具体的请求处理情况如下：

请求 1 到达 Nginx，按照以下逻辑处理

先转到 A 处理，3s 后连接超时，A fails +1
重试到 B 处理，3s 后连接超时，B fails +1
到达设置的 6s 重试超时，直接返回 `504 Gateway Time-out` 到客户端，不会重试到 C
请求 2 转到 C 正常处理
请求 3 到达 Nginx
先转到 B 处理，3s 后连接超时，B 达到 max_fails 将被屏蔽 60s
转到 C 正常处理
请求 4 达到 Nginx：
先转到 A 处理，3s 后连接超时，A 达到 max_fails 将被屏蔽 60s
转到 C 正常处理
后续的请求将全部转到 C 处理直到 AB 屏蔽到期后重新加入服务器存活列表

从上面的例子，可以看出 proxy_next_upstream_timeout 配置项对重试机制的限制，重试次数的情况也是类似，这里就不展开细讲了。

关于 backup 服务器

Nginx 支持设置备用节点，当所有线上节点都异常时启用备用节点，同时备用节点也会影响到失败重试的逻辑，因此单独列出来介绍。

upstream 的配置中，可以通过 backup 指令来定义备用服务器，其含义如下：

正常情况下，请求不会转到到 backup 服务器，包括失败重试的场景
当所有正常节点全部不可用时，backup 服务器生效，开始处理请求
一旦有正常节点恢复，就使用已经恢复的正常节点
backup 服务器生效期间，不会存在所有正常节点一次性恢复的逻辑
如果全部 backup 服务器也异常，则会将所有节点一次性恢复，加入存活列表
如果全部节点（包括 backup）都异常了，则 Nginx 返回 502 错误

为了方便理解，使用了以下配置进行说明：

upstream test {
    server 127.0.0.1:8001 fail_timeout=60s max_fails=2; # Server A
    server 127.0.0.1:8002 fail_timeout=60s max_fails=2; # Server B
    server 127.0.0.1:8003 backup; # Server C
}

在最初始阶段，所有服务器都正常，请求会按照轮询方式依次转发给 AB 两个节点处理。当只有 A 异常的情况下，与上文没有 backup 服务器场景处理方式一致，这里就不重复介绍了。

假设在 A 的屏蔽期还没结束时，B 节点的服务也崩溃，端口不通，则会出现：

请求 1 转到 B 处理，异常，此时所有线上节点异常，会出现：

AB 节点一次性恢复，都重新加入存活列表
请求转到 A 处理异常，再重试到 B 处理异常，两者 fails 都 +1
因 AB 都异常，启用 backup 节点正常处理，并且 AB 节点一次性恢复，加入存活列表
请求 2 再依次经过 A、B 节点异常，转到 backup 处理，两者 fails 都达到 max_fails：
AB 节点都将会被屏蔽 60s，并且不会一次性恢复
backup 节点正式生效，接下来所有请求直接转到 backup 处理
直到 AB 节点的屏蔽到期后，重新加入存活列表

假设 AB 的屏蔽期都还没结束时，C 节点的服务也崩溃，端口不通，则会出现

请求 1 转到 C 异常，此时所有节点（包括 backup）都异常，会出现：

ABC 三个节点一次性恢复，加入存活列表
请求转到 A 处理异常，重试到 B 处理异常，最后重试到 C 处理异常
触发 `no live upstreams` 报错，返回 502 错误
所有节点再次一次性恢复，加入存活列表
请求 2 依次经过 AB 节点异常，重试到 C 异常，最终结果如上个步骤，返回 502 错误

踩坑集锦

如果不熟悉 HTTP 协议，以及 Nginx 的重试机制，很可能在使用过程中踩了各种各样的坑：

部分上游服务器出现异常却没有重试
一些订单创建接口，客户端只发了一次请求，后台却创建了多个订单，等等…

以下整理了一些常见的坑，以及应对策略。

需要重试却没有生效

接口的 POST 请求允许重试，但实际使用中却没有出现重试，直接报错。

从 1.9.13 版本，Nginx 不再会对一个非幂等的请求进行重试。如有需要，必须在 proxy_next_upstream 配置项中显式指定 non_idempotent 配置。参考 RFC-2616 的定义：

幂等 HTTP 方法：GET、HEAD、PUT、DELETE、OPTIONS、TRACE
非幂等 HTTP 方法：POST、LOCK、PATCH

如需要允许非幂等请求重试，配置参考如下（追加 non_idemponent 参数项）：

proxy_next_upstream error timeout non_idemponent;

该配置需要注意的点：

添加非幂等请求重试是追加参数值，不要把原来默认的 error/timeout 参数值去掉
必须明确自己的业务允许非幂等请求重试以避免业务异常

禁止重试的场景

一些场景不希望请求在多个上游进行重试，即使上游服务器完全挂掉。

正常情况下，Nginx 会对 error、timeout 的失败进行重试，对应默认配置如下：

proxy_next_upstream error timeout;

如希望完全禁止重试，需要显式指定配置来关闭重试机制，配置如下：

proxy_next_upstream off;

重试导致性能问题

错误配置了重试参数导致 Nginx 代理性能出现异常

默认的 error/timeout 是不会出现这种问题的。在定义重试场景时，需要结合业务情况来确定是否启用自定义错误重试，而不是单纯去复制其他服务的配置。比如对于某个业务，没有明确自己业务情况，去网上复制了 Nginx 配置，其中包括了：

proxy_next_upstream error timeout invalid_header http_500 http_503 http_404;

那么只需要随便定义一个不存在的 URI 去访问该服务频繁去请求该服务，就可以重复触发 Nginx no live upstreams 报错，这在业务高峰情况下，性能将受到极大影响。同样，如果使用的代码框架存在不标准 HTTP 处理响应情况，恶意构造的请求同样也会造成类似效果。

因此在配置重试机制时，必须先对业务的实际情况进行分析，严谨选择重试场景。

异常的响应超时重试

某幂等接口处理请求耗时较长，出现非预期的重试导致一个请求被多次响应处理。

假设该接口处理请求平均需要 30s，而对应的代理超时为：

proxy_read_timeout 30s;

默认的重试包含了 timeout 场景，在这个场景下，可能会有不到一半的请求出现超时情况，同时又因为是幂等请求，所有会进行重试，最终导致一个的超时请求会被发到所有节点处理的请求放大情况。

因此在进行超时设置时，也必须要跟进业务实际情况来调整。可以适当调大超时设置，并收集请求相关耗时情况进行统计分析来确定合理的超时时间。

异常的连接超时重试

因上游服务器异常导致连接问题，客户端无超时机制，导致请求耗时非常久之后才失败。

已知所有上游服务器异常，无法连接或需要非常久（超过 10s）才能连接上，假设配置了连接超时为：

proxy_connect_timeout 10;

在这种情况下，因客户端无超时设置，幂等请求将卡住 10*n 秒后超时（n 为上游服务器数量）。因此建议：

客户端设置请求超时时间
配置合理的 proxy_connect_timeout
配合 proxy_next_upstream_timeout、proxy_next_upstream_tries 来避免重试导致更长超时

开放原子开发者工作坊

开放原子开发者工作坊旨在鼓励更多人参与开源活动，与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动，如meetup、训练营等，主打技术交流，干货满满，真诚地邀请各位开发者共同参与！

更多推荐

开源成为金融领域创新发展的新动力引擎

开放原子开发者工作坊

开源成为推动城市数字化转型的核心动力

城市，不仅是人们工作与生活的基本载体，更是承载着亿万人民的希望与梦想。近年来，我国智慧城市建设如火如荼，开源技术的深度融合为其发展注入了新的活力。在民生、环保、公共安全、城市服务等多个领域，开源技术的应用不仅为民众带来了切实的便捷，而且促进了政府决策的科学化，显著提升了城市综合治理能力。

开放原子开发者工作坊

OpenLoong项目通过技术监督委员会（TOC）评审

开放原子开发者工作坊

所有评论(0)

查看更多评论

我家小宝_朱朱

@zhuchunyan_aijia

已为社区贡献8条内容