通过Openresty的balancer_by_lua阶段实现自定义负载均衡算法与健康检查

一、为什么需要自定义负载均衡？

想象一下，你开了一家非常火爆的餐厅，门口排起了长队。你作为经理，需要把客人安排到不同的服务员那里。最简单的办法就是“轮流来”，第一个客人给A服务员，第二个给B，第三个给C，如此循环。这其实就是我们常说的“轮询”负载均衡。

但现实情况往往更复杂：

服务员状态不同：A可能刚接待完一桌大单累坏了，需要歇会儿；B可能是个新手，处理速度慢；C可能正在清理打翻的盘子，暂时无法接待。
客人需求不同：有的客人只点杯咖啡，很快；有的要定制一桌满汉全席，耗时很长。

如果还傻傻地“轮流分配”，很可能把定制大餐的客人全部分配给已经累坏的服务员A，导致A彻底崩溃，而其他服务员却闲着。这显然不是我们想要的。

在互联网服务里，“服务员”就是我们的后端服务器，“客人”就是用户的请求。Nginx自带的轮询、加权轮询、IP哈希等算法，就像那个简单的“轮流分配”规则，虽然通用，但不够灵活。而OpenResty的balancer_by_lua*阶段，就相当于给了我们一双“智能的眼睛”和一套“灵活的指挥系统”，让我们能根据服务器的实时状态（比如CPU、内存、响应时间、甚至业务指标）和请求的具体特点，来制定最合适的分配策略。这就是自定义负载均衡的魅力所在。

二、 OpenResty与balancer_by_lua*阶段是什么？

简单来说，OpenResty 不是一个新的软件，而是给Nginx“加装”了一个强大的引擎——LuaJIT虚拟机。它让Nginx这个高性能的HTTP服务器，能够直接运行Lua脚本，从而拥有了近乎无限的编程能力。你可以用Lua在请求处理的各个关键阶段（比如访问、重写、内容生成、日志记录等）插入自己的逻辑。

balancer_by_lua* 就是这些关键阶段中的一个。它发生在Nginx决定将当前请求转发给哪个后端服务器（即“上游”服务器）的那一刻。在这个阶段，我们编写的Lua脚本会接管负载均衡的决策权。

Nginx原生的负载均衡模块（如ngx_http_upstream_module）在这里会“退居二线”，由我们的Lua代码来调用balancer库中的函数（如set_current_peer）来显式地指定本次请求要发送到哪台后端机器的IP和端口。

技术栈声明：本文所有示例均基于 OpenResty + Lua 技术栈。

三、手把手实现：一个带健康检查的自定义负载均衡器

光说不练假把式，我们来看一个完整的例子。假设我们有一个后端服务集群，我们想实现一个“最小连接数”算法，并加入主动的健康检查机制。

最小连接数算法：总是将新请求分配给当前活跃连接数最少的后端服务器。这比简单轮询更能实现负载的均衡。

首先，我们需要一个地方来存储后端服务器的状态，包括它的地址、当前连接数、以及是否健康。这里我们在Lua代码中用一个表（table）来模拟。

-- 技术栈：OpenResty + Lua
-- 文件名：custom_balancer.lua

local balancer = require "ngx.balancer"
-- 声明一个共享字典，用于在不同worker进程间共享后端状态（连接数）
-- 注意：实际连接数统计更复杂，此处为简化示例。生产环境可考虑使用lua-resty-lrucache或外部存储如Redis。
local backend_status = ngx.shared.backend_status

-- 定义后端服务器列表
local backends = {
    { host = "192.168.1.101", port = 8080, weight = 5 }, -- 服务器1，权重5
    { host = "192.168.1.102", port = 8080, weight = 3 }, -- 服务器2，权重3
    { host = "192.168.1.103", port = 8080, weight = 2 }, -- 服务器3，权重2
}

-- 健康检查函数（简易版，实际应异步进行）
local function is_backend_healthy(backend)
    -- 这里模拟一个健康检查逻辑
    -- 生产环境中，这里可以是一个对后端 `/health` 端点的HTTP调用
    -- 或者检查TCP端口连通性，或者根据共享字典里记录的错误次数判断
    local key = backend.host .. ":" .. backend.port .. "_healthy"
    local is_healthy = backend_status:get(key)
    
    -- 如果共享字典中没有记录，默认是健康的
    if is_healthy == nil then
        return true
    end
    return is_healthy == 1
end

-- 选择后端函数：基于最小连接数算法
local function pick_backend()
    local min_conns = math.huge -- 初始化为一个非常大的数
    local selected_backend = nil
    
    for _, backend in ipairs(backends) do
        -- 第一步：检查健康状态
        if is_backend_healthy(backend) then
            -- 第二步：获取或初始化该后端的当前连接数
            local key = backend.host .. ":" .. backend.port .. "_conns"
            local conns = backend_status:get(key)
            if conns == nil then
                conns = 0
                backend_status:set(key, conns)
            end
            
            -- 第三步：应用权重调整。权重高的服务器，其“有效连接数”按比例减少，使其更易被选中。
            -- 例如：A权重5，当前连接10，计算为 10 / 5 = 2.0
            --       B权重3，当前连接6，计算为 6 / 3 = 2.0
            --       两者“负载”相同，接下来随机或按其他规则选。
            -- 简化起见，我们这里使用权重作为除数来模拟加权最小连接。
            local adjusted_load = conns / backend.weight
            
            -- 第四步：选择调整后负载最小的后端
            if adjusted_load < min_conns then
                min_conns = adjusted_load
                selected_backend = backend
            end
        end
    end
    
    if not selected_backend then
        ngx.log(ngx.ERR, "所有后端服务器均不健康！")
        return ngx.exit(502) -- 返回Bad Gateway错误
    end
    
    -- 第五步：选中的后端，其连接数+1（模拟请求开始）
    local key = selected_backend.host .. ":" .. selected_backend.port .. "_conns"
    local new_conns = (backend_status:get(key) or 0) + 1
    backend_status:set(key, new_conns)
    
    return selected_backend
end

-- balancer_by_lua阶段的主入口函数
local function balance()
    -- 1. 根据我们的算法挑选一个后端
    local backend = pick_backend()
    
    if not backend then
        return -- 如果pick_backend里已经exit了，这里就不会执行
    end
    
    -- 2. 设置本次请求要发往的后端地址和端口
    local ok, err = balancer.set_current_peer(backend.host, backend.port)
    if not ok then
        ngx.log(ngx.ERR, "设置后端peer失败: ", err)
        return ngx.exit(500)
    end
    
    -- 3. （可选）设置请求发往后端的更多参数，如连接超时、发送超时等
    -- balancer.set_timeouts(1000, 5000, 60000) -- 连接、发送、读取超时（毫秒）
end

-- 请求处理完毕后，减少对应后端的连接数（通过log_by_lua阶段）
local function request_completed()
    -- 注意：这里需要知道刚刚请求的是哪个后端，通常需要将后端标识传递过来。
    -- 一种方法是在`balance()`阶段，将选中的后端信息存储在ngx.ctx中。
    -- 为了示例清晰，此处省略具体实现，仅说明思路。
    -- if ngx.ctx.selected_backend then
    --     local key = ngx.ctx.selected_backend.host .. ":" .. ngx.ctx.selected_backend.port .. "_conns"
    --     local new_conns = (backend_status:get(key) or 1) - 1
    --     backend_status:set(key, math.max(0, new_conns))
    -- end
end

-- 导出模块函数
local _M = {
    balance = balance,
    request_completed = request_completed
}

return _M

接下来，我们需要在Nginx配置中启用这个负载均衡器，并配置共享字典。

# 技术栈：OpenResty + Lua
# nginx.conf 部分配置

http {
    # 定义一个共享内存区域，用于存储后端状态，所有worker进程可访问
    lua_shared_dict backend_status 10m; # 分配10MB内存
    
    # 定义上游服务器组（注意：这里不配置具体的server，由Lua控制）
    upstream my_backend {
        server 0.0.0.1; # 占位符，实际后端由Lua脚本指定
        balancer_by_lua_block {
            -- 加载我们的自定义负载均衡模块
            local balancer = require "custom_balancer"
            balancer.balance()
        }
        
        # 可选：在日志阶段减少连接数计数（示例中未完全实现，需与custom_balancer.lua配合）
        # log_by_lua_block {
        #     local balancer = require "custom_balancer"
        #     balancer.request_completed()
        # }
        
        keepalive 32; # 依然可以启用长连接
    }
    
    server {
        listen 80;
        
        location / {
            # 将请求代理到我们自定义的上游组
            proxy_pass http://my_backend;
            proxy_set_header Host $host;
            # 这里可以传递后端标识，用于request_completed函数
            # set $backend_id $upstream_addr; # 示例，实际需更精细控制
        }
        
        # 可以暴露一个管理接口，用于手动标记后端健康/不健康
        location /admin/backend {
            allow 127.0.0.1; # 只允许本地访问
            deny all;
            content_by_lua_block {
                -- 处理健康状态设置请求，此处省略具体代码
                ngx.say("Backend admin interface")
            }
        }
    }
}

四、应用场景、优缺点与注意事项

应用场景

混合云与异构环境：后端服务器性能差异巨大（如物理机、虚拟机、容器），需要根据CPU、内存等权重进行更智能的分配，而非简单加权。
基于业务内容的路由：根据请求的URL、Header、Cookie或Body内容，将特定类型的请求（如“下单”、“查询”）路由到专有或处理能力更强的服务器组。
动态扩缩容：与配置中心（如Consul、Etcd）结合，Lua脚本动态地从服务发现中心获取可用的后端列表，实现无缝的服务注册与发现。
金丝雀发布与A/B测试：根据用户ID、设备类型或流量百分比，将请求精准地导向新版本或实验版本的服务器。
故障自愈与智能剔除：实现比Nginx自带被动健康检查更复杂的策略，如连续失败N次后标记为不健康，并在一段冷却时间后自动重试恢复。

技术优缺点

优点：

极致灵活：算法完全由你掌控，可以融入任何业务逻辑。
高性能：LuaJIT运行速度极快，balancer_by_lua*阶段在请求转发关键路径上，OpenResty保证了其开销极小。
无缝集成：与Nginx/OpenResty生态完美结合，能利用其所有特性（如反向代理、SSL、限流等）。
实时性：可以基于实时计算的数据（如从Redis获取的服务器指标）做出决策。

缺点与挑战：

状态管理复杂：像上面示例中的“当前连接数”，在多个Nginx Worker进程间同步是一个难题。共享字典（ngx.shared.DICT）有性能损耗和容量限制。复杂的全局状态可能需要借助外部存储如Redis，但这又会引入网络延迟和新的故障点。
健康检查开销：主动健康检查如果频率太高，会对后端造成压力；频率太低，故障发现不及时。需要精心设计。
代码复杂度：你需要自己编写和维护负载均衡及健康检查的全部逻辑，增加了开发和调试成本。
错误处理：必须考虑所有边界情况，如所有后端都不健康时如何优雅降级。

注意事项

保持轻量：balancer_by_lua* 在每次请求时都会执行，其中的代码必须高效。避免在此阶段进行耗时的I/O操作（如复杂的网络请求）。健康检查最好通过后台定时任务异步进行。
状态同步：如前所述，多Worker间的状态同步是关键。对于强一致性要求不高的数据（如健康状态），共享字典是首选。对于更复杂的状态，需要评估引入Redis等组件的必要性。
失败重试：Nginx的proxy_next_upstream指令在自定义balancer下可能行为有变。你需要仔细测试请求失败后（如连接被拒绝、超时）的重试机制是否按预期工作。
测试要充分：模拟各种场景：单台后端故障、网络抖动、所有后端过载等，确保你的算法和健康检查逻辑能正确应对。

五、总结

通过OpenResty的balancer_by_lua*阶段，我们获得了负载均衡的“终极控制权”。它就像为Nginx这个强大的流量调度员配备了一个可编程的“智能大脑”，让我们能够超越内置的固定算法，根据实时、多维度的信息做出最合理的决策。

从实现一个简单的加权最小连接数算法，到集成动态服务发现、实现复杂的蓝绿发布，其可能性只受限于我们的想象力与编码能力。当然，这份强大也伴随着责任——我们需要谨慎地设计状态管理和健康检查机制，确保整个系统的稳定与高效。

对于大多数标准场景，Nginx自带的负载均衡算法已经足够优秀。但当你面对异构基础设施、复杂的业务路由需求或追求极致的弹性与智能化时，自定义负载均衡方案无疑是一把值得深入掌握的利器。希望本文的讲解和示例，能为你打开这扇门，助你在构建高性能、高可用的系统架构时游刃有余。

通过Openresty的balancer_by_lua阶段实现自定义负载均衡算法与健康检查

一、为什么需要自定义负载均衡？

二、 OpenResty与balancer_by_lua*阶段是什么？

三、手把手实现：一个带健康检查的自定义负载均衡器

四、应用场景、优缺点与注意事项

应用场景

技术优缺点

注意事项

五、总结

评论

关联文章

一、 为什么需要自定义负载均衡？

二、 OpenResty与balancer_by_lua*阶段是什么？

三、 手把手实现：一个带健康检查的自定义负载均衡器

四、 应用场景、优缺点与注意事项

应用场景

技术优缺点

注意事项

五、 总结

评论

关联文章

一、为什么需要自定义负载均衡？

三、手把手实现：一个带健康检查的自定义负载均衡器

四、应用场景、优缺点与注意事项

五、总结