从线程池到全局限流：并发失控的根因分析本文讨论了采集系统中并发失控的问题，指出并发应作为平台级资源管理。提出了并发治理的

一、问题不是“并发太大”，而是“没人对并发负责”

很多采集系统的并发失控，并不是因为工程师不知道要“控制并发”，而是因为并发从来没有被当成一种“平台级资源”来设计。

在早期阶段，我们构建采集任务时的并发逻辑往往很简单：

一个业务任务，一个线程池
一个数据源，一个并发参数
代理 IP 够用就行，不够就补

这种模式在单任务、单数据源、低频采集阶段完全没有问题。

但一旦采集系统开始平台化，问题就会集中爆发：

多个业务共用一个采集集群
多个项目共用一个代理池
定时采集任务在整点同时触发
每个业务都“合理”地设置了并发

最终的结果却是：
每一个局部决策都是对的，但系统整体却崩了。

二、平台级视角下的真实并发灾难

在平台化采集系统中，并发失控通常呈现出一种“渐进式恶化”的过程。

最开始，只是某个业务提出：

“这个数据源响应有点慢，把并发从 10 调到 30 吧。”

随后另一个业务上线：

“我们是准实时采集，给 50 并发应该没问题吧？”

如果平台层面没有统一的并发约束机制，那么结果往往是：

每个业务都有自己的线程池
每个线程池都在争抢代理 IP
每个失败请求都会触发自动重试

当某一个数据源开始限流或响应变慢时，问题被迅速放大：

请求失败率上升
重试请求数量激增
代理 IP 被快速消耗
阻塞线程无法及时释放
线程池耗尽，任务开始堆积
其他本不相关的采集任务一并变慢甚至不可用

这并不是某一个采集任务写错了，而是系统层面缺乏并发治理能力。

三、并发治理的核心思想：并发不是代码参数，而是平台资源

在平台级采集系统中，并发必须完成一次角色转变：

从“由业务自行配置的参数”，
转变为“由平台统一调度和分配的稀缺资源”。

这意味着三点根本变化：

并发存在全局上限，而不是业务私有
代理 IP 是并发约束条件，而不是附属配置
失败重试必须消耗并发预算，而不能无限放大

在这种视角下，我们不再只关注某个采集任务开了多少线程，而是关注：

当前平台还能承载多少“同时对外请求”
每一次请求是否值得占用平台并发额度
哪些业务正在过度消耗并发资源

四、平台级并发治理的最小实现模型

下面通过一个简化但工程方向正确的示例，说明平台级并发治理在采集系统中的基本落地方式。

设计目标：

所有采集任务共享一个“全局并发控制器”
并发数量由平台统一限制
代理 IP 的使用频率受并发控制约束

1. 全局并发控制器

import threading

class GlobalConcurrencyController:
    """
    全局并发控制器
    用于限制整个采集平台的最大并发请求数
    """
    def __init__(self, max_concurrency: int):
        self.semaphore = threading.Semaphore(max_concurrency)

    def acquire(self):
        # 获取一个并发许可
        self.semaphore.acquire()

    def release(self):
        # 释放一个并发许可
        self.semaphore.release()

这个控制器的核心价值在于：
无论多少业务、多少线程，对外请求之前都必须先经过平台审批。

2. 代理 IP 统一配置（亿牛云示例）

PROXY_HOST = "proxy.16yun.cn"
PROXY_PORT = 8000
PROXY_USER = "your_username"
PROXY_PASS = "your_password"

PROXY_URL = f"http://{PROXY_USER}:{PROXY_PASS}@{PROXY_HOST}:{PROXY_PORT}"

这里的关键并不只是“使用代理”，而是：
代理 IP 的消耗速率与平台并发能力严格绑定。

3. 受控请求函数实现

import requests

def controlled_request(url: str, controller: GlobalConcurrencyController):
    """
    受平台并发治理约束的采集请求函数
    """
    controller.acquire()
    try:
        proxies = {
            "http": PROXY_URL,
            "https": PROXY_URL
        }

        response = requests.get(
            url,
            proxies=proxies,
            timeout=10
        )

        return response.text

    except Exception as e:
        # 实际生产中应区分异常类型，避免无意义重试
        print(f"采集请求失败: {e}")
        return None

    finally:
        # 不论成功或失败，都必须释放并发许可
        controller.release()

在并发治理体系中，一个重要原则是：

未释放的并发许可，才是系统雪崩的真正起点。

4. 多业务共享并发预算示例

import threading

controller = GlobalConcurrencyController(max_concurrency=20)

urls = [
    "https://example.com",
    "https://httpbin.org/get",
    "https://www.python.org"
]

def worker(url):
    result = controlled_request(url, controller)
    if result:
        print(f"采集成功: {url}")

threads = []
for url in urls * 10:
    t = threading.Thread(target=worker, args=(url,))
    threads.append(t)
    t.start()

for t in threads:
    t.join()

即使启动大量线程，真正同时对外访问的数据采集请求也不会超过平台设定的并发上限。

五、为什么这种设计可以避免“全局雪崩”

这种设计并不追求“极限速度”，而是确保系统在异常情况下仍然可控。

它带来的改变包括：

单个业务无法通过盲目加并发拖垮整个平台
代理 IP 的消耗速度与平台承载能力强绑定
请求失败不会引发指数级重试风暴
平台可以在并发层面实现限流、熔断与优先级调度

在这种模型下，系统的退化是线性的，而不是断崖式的。

六、并发治理的真正价值

很多团队在采集系统出现性能问题时，第一反应往往是：

扩容服务器
增加代理 IP 数量
提高线程池上限

但成熟的采集平台真正关注的是：

当系统压力持续上升时，
是否还能按照设计预期逐步降速，而不是突然崩溃。

并发治理，本质上是一种平台级的工程约束能力。
它限制的是“破坏性自由”，而不是正常业务能力。

七、结语

并发失控的那一天，往往不是某个采集任务写错了代码，而是系统从一开始就没有为“多业务并行运行”做好准备。

当采集系统进入平台化阶段：

并发必须被集中治理
代理 IP 必须被视为核心资源
稳定性必须优先于短期吞吐

只有这样，采集系统才能从“能跑一阵子”，进化为“可以长期稳定运行”。