从线程池到全局限流:并发失控的根因分析

21 阅读6分钟

一、问题不是“并发太大”,而是“没人对并发负责”

很多采集系统的并发失控,并不是因为工程师不知道要“控制并发”,而是因为并发从来没有被当成一种“平台级资源”来设计

在早期阶段,我们构建采集任务时的并发逻辑往往很简单:

  • 一个业务任务,一个线程池
  • 一个数据源,一个并发参数
  • 代理 IP 够用就行,不够就补

这种模式在单任务、单数据源、低频采集阶段完全没有问题。

但一旦采集系统开始平台化,问题就会集中爆发:

  • 多个业务共用一个采集集群
  • 多个项目共用一个代理池
  • 定时采集任务在整点同时触发
  • 每个业务都“合理”地设置了并发

最终的结果却是:
每一个局部决策都是对的,但系统整体却崩了。

二、平台级视角下的真实并发灾难

在平台化采集系统中,并发失控通常呈现出一种“渐进式恶化”的过程。

最开始,只是某个业务提出:

“这个数据源响应有点慢,把并发从 10 调到 30 吧。”

随后另一个业务上线:

“我们是准实时采集,给 50 并发应该没问题吧?”

如果平台层面没有统一的并发约束机制,那么结果往往是:

  • 每个业务都有自己的线程池
  • 每个线程池都在争抢代理 IP
  • 每个失败请求都会触发自动重试

当某一个数据源开始限流或响应变慢时,问题被迅速放大:

  1. 请求失败率上升
  2. 重试请求数量激增
  3. 代理 IP 被快速消耗
  4. 阻塞线程无法及时释放
  5. 线程池耗尽,任务开始堆积
  6. 其他本不相关的采集任务一并变慢甚至不可用

这并不是某一个采集任务写错了,而是系统层面缺乏并发治理能力

三、并发治理的核心思想:并发不是代码参数,而是平台资源

在平台级采集系统中,并发必须完成一次角色转变:

从“由业务自行配置的参数”,
转变为“由平台统一调度和分配的稀缺资源”。

这意味着三点根本变化:

  1. 并发存在全局上限,而不是业务私有
  2. 代理 IP 是并发约束条件,而不是附属配置
  3. 失败重试必须消耗并发预算,而不能无限放大

在这种视角下,我们不再只关注某个采集任务开了多少线程,而是关注:

  • 当前平台还能承载多少“同时对外请求”
  • 每一次请求是否值得占用平台并发额度
  • 哪些业务正在过度消耗并发资源

四、平台级并发治理的最小实现模型

下面通过一个简化但工程方向正确的示例,说明平台级并发治理在采集系统中的基本落地方式。

设计目标:

  • 所有采集任务共享一个“全局并发控制器”
  • 并发数量由平台统一限制
  • 代理 IP 的使用频率受并发控制约束

1. 全局并发控制器

import threading

class GlobalConcurrencyController:
    """
    全局并发控制器
    用于限制整个采集平台的最大并发请求数
    """
    def __init__(self, max_concurrency: int):
        self.semaphore = threading.Semaphore(max_concurrency)

    def acquire(self):
        # 获取一个并发许可
        self.semaphore.acquire()

    def release(self):
        # 释放一个并发许可
        self.semaphore.release()

这个控制器的核心价值在于:
无论多少业务、多少线程,对外请求之前都必须先经过平台审批。

2. 代理 IP 统一配置(亿牛云示例)

PROXY_HOST = "proxy.16yun.cn"
PROXY_PORT = 8000
PROXY_USER = "your_username"
PROXY_PASS = "your_password"

PROXY_URL = f"http://{PROXY_USER}:{PROXY_PASS}@{PROXY_HOST}:{PROXY_PORT}"

这里的关键并不只是“使用代理”,而是:
代理 IP 的消耗速率与平台并发能力严格绑定。

3. 受控请求函数实现

import requests

def controlled_request(url: str, controller: GlobalConcurrencyController):
    """
    受平台并发治理约束的采集请求函数
    """
    controller.acquire()
    try:
        proxies = {
            "http": PROXY_URL,
            "https": PROXY_URL
        }

        response = requests.get(
            url,
            proxies=proxies,
            timeout=10
        )

        return response.text

    except Exception as e:
        # 实际生产中应区分异常类型,避免无意义重试
        print(f"采集请求失败: {e}")
        return None

    finally:
        # 不论成功或失败,都必须释放并发许可
        controller.release()

在并发治理体系中,一个重要原则是:

未释放的并发许可,才是系统雪崩的真正起点。

4. 多业务共享并发预算示例

import threading

controller = GlobalConcurrencyController(max_concurrency=20)

urls = [
    "https://example.com",
    "https://httpbin.org/get",
    "https://www.python.org"
]

def worker(url):
    result = controlled_request(url, controller)
    if result:
        print(f"采集成功: {url}")

threads = []
for url in urls * 10:
    t = threading.Thread(target=worker, args=(url,))
    threads.append(t)
    t.start()

for t in threads:
    t.join()

即使启动大量线程,真正同时对外访问的数据采集请求也不会超过平台设定的并发上限

五、为什么这种设计可以避免“全局雪崩”

这种设计并不追求“极限速度”,而是确保系统在异常情况下仍然可控。

它带来的改变包括:

  • 单个业务无法通过盲目加并发拖垮整个平台
  • 代理 IP 的消耗速度与平台承载能力强绑定
  • 请求失败不会引发指数级重试风暴
  • 平台可以在并发层面实现限流、熔断与优先级调度

在这种模型下,系统的退化是线性的,而不是断崖式的

六、并发治理的真正价值

很多团队在采集系统出现性能问题时,第一反应往往是:

  • 扩容服务器
  • 增加代理 IP 数量
  • 提高线程池上限

但成熟的采集平台真正关注的是:

当系统压力持续上升时,
是否还能按照设计预期逐步降速,而不是突然崩溃。

并发治理,本质上是一种平台级的工程约束能力。
它限制的是“破坏性自由”,而不是正常业务能力。

七、结语

并发失控的那一天,往往不是某个采集任务写错了代码,而是系统从一开始就没有为“多业务并行运行”做好准备。

当采集系统进入平台化阶段:

  • 并发必须被集中治理
  • 代理 IP 必须被视为核心资源
  • 稳定性必须优先于短期吞吐

只有这样,采集系统才能从“能跑一阵子”,进化为“可以长期稳定运行”。