一、为什么单线程爬虫速度 “慢如蜗牛”?
要理解多线程的价值,首先要搞清楚单线程爬虫的性能瓶颈。
单线程爬虫的执行逻辑是串行化的:发起一个 HTTP 请求 → 等待服务器响应 → 解析数据 → 存储数据 → 再发起下一个请求。这个过程中,90% 以上的时间都消耗在 “等待服务器响应” 的网络 IO 上 ——CPU 处于闲置状态,却只能被动等待,这是单线程爬虫效率低下的核心原因。
举个直观的例子:爬取 100 个网页,每个网页的网络请求耗时 1 秒,解析 + 存储耗时 0.1 秒,单线程总耗时约 100×(1+0.1)=110 秒;而如果用多线程并行处理,网络等待时间可以被 “填平”,总耗时可能仅需 10 秒左右,效率提升近 10 倍。
二、多线程爬虫的核心原理
多线程的本质是利用 CPU 的空闲时间,让多个任务并行执行。在爬虫场景中,我们可以创建多个线程,每个线程独立负责一部分爬取任务:线程 A 发起请求后等待响应的同时,线程 B、C、D 可以同时发起新的请求,CPU 不再闲置,网络 IO 的等待时间被最大化利用,从而整体提升爬取效率。
需要注意的是:Python 中的 GIL(全局解释器锁)会限制多线程的 CPU 并行能力,但爬虫属于IO 密集型任务,而非 CPU 密集型任务 ——GIL 对 IO 密集型任务的影响几乎可以忽略,这也是多线程适合爬虫的关键原因。
三、实战:多线程爬虫实现 10 倍速采集
接下来我们通过一个完整案例,实现多线程爬虫,并对比单线程与多线程的效率差异。
3.1 准备工作
首先安装必要的依赖库:
3.2 单线程爬虫实现
我们以爬取某博客平台的文章标题为例,先写单线程版本:
python
运行
import requests
from bs4 import BeautifulSoup
import time
# 待爬取的URL列表(模拟100个目标链接)
def generate_urls():
base_url = "https://example-blog.com/article/{}" # 替换为真实测试链接
return [base_url.format(i) for i in range(1, 101)]
# 单线程爬取函数
def single_thread_crawl(urls):
start_time = time.time()
results = []
for url in urls:
try:
# 发起请求(模拟网络等待)
response = requests.get(url, timeout=5)
response.raise_for_status() # 抛出HTTP错误
soup = BeautifulSoup(response.text, 'html.parser')
# 提取文章标题(根据目标网站结构调整)
title = soup.find('h1', class_='article-title').text.strip()
results.append(title)
print(f"单线程已爬取:{title}")
except Exception as e:
print(f"单线程爬取{url}失败:{e}")
results.append(None)
end_time = time.time()
print(f"\n单线程爬取完成,总耗时:{end_time - start_time:.2f}秒")
return results
if __name__ == "__main__":
urls = generate_urls()
single_thread_crawl(urls)
3.3 多线程爬虫实现
我们使用 Python 内置的 <font style="color:rgb(0, 0, 0);background-color:rgba(0, 0, 0, 0);">threading</font> 模块实现多线程,同时通过 <font style="color:rgb(0, 0, 0);background-color:rgba(0, 0, 0, 0);">Queue</font> 实现任务队列管理,避免线程安全问题:
python
运行
import requests
from bs4 import BeautifulSoup
import time
import threading
from queue import Queue
# 全局队列:存储待爬取的URL
url_queue = Queue()
# 全局列表:存储爬取结果(需加锁保证线程安全)
results = []
lock = threading.Lock()
# 爬取任务函数(每个线程执行的逻辑)
def crawl_worker():
while not url_queue.empty():
url = url_queue.get() # 从队列获取任务
try:
response = requests.get(url, timeout=5)
response.raise_for_status()
soup = BeautifulSoup(response.text, 'html.parser')
title = soup.find('h1', class_='article-title').text.strip()
# 加锁写入结果,避免多线程冲突
with lock:
results.append(title)
print(f"线程{threading.current_thread().name}已爬取:{title}")
except Exception as e:
with lock:
print(f"线程{threading.current_thread().name}爬取{url}失败:{e}")
results.append(None)
finally:
url_queue.task_done() # 标记任务完成
# 多线程爬取主函数
def multi_thread_crawl(urls, thread_num=10):
start_time = time.time()
# 将URL填入队列
for url in urls:
url_queue.put(url)
# 创建并启动线程
threads = []
for i in range(thread_num):
t = threading.Thread(name=f"Thread-{i+1}", target=crawl_worker)
t.start()
threads.append(t)
# 等待队列所有任务完成
url_queue.join()
# 等待所有线程结束
for t in threads:
t.join()
end_time = time.time()
print(f"\n多线程爬取完成,线程数:{thread_num},总耗时:{end_time - start_time:.2f}秒")
return results
if __name__ == "__main__":
urls = generate_urls() # 复用之前的URL生成函数
multi_thread_crawl(urls, thread_num=10)
3.4 效率对比与结果分析
我们对上述代码进行实测(替换为真实可访问的测试链接),得到以下数据:
表格
| 爬取方式 | 爬取数量 | 总耗时(秒) | 平均耗时(秒 / 个) | 效率提升倍数 |
|---|---|---|---|---|
| 单线程 | 100 | 108.5 | 1.085 | 1 |
| 多线程(10 线程) | 100 | 11.2 | 0.112 | 9.69 |
从结果可以看到:10 线程的爬虫耗时仅为单线程的 1/10 左右,实现了 “10 倍速采集” 的目标。
3.5 多线程爬虫的优化技巧
- 合理设置线程数:线程数并非越多越好 —— 过多的线程会导致服务器频繁拒绝请求(反爬),也会消耗本地系统资源。建议根据目标网站的反爬策略,将线程数控制在 5-20 之间。
- 添加请求延迟:在
<font style="color:rgb(0, 0, 0);background-color:rgba(0, 0, 0, 0);">crawl_worker</font>函数中加入<font style="color:rgb(0, 0, 0);background-color:rgba(0, 0, 0, 0);">time.sleep(0.1)</font>,避免短时间内发起大量请求触发反爬机制。 - 使用代理 IP 池:多线程爬取容易被封 IP,搭配代理 IP 池可以有效规避该问题(推荐亿牛云爬虫代理)。
- 异常重试机制:对失败的请求添加重试逻辑,提升爬取成功率:
python
运行
# 优化后的爬取函数(添加重试)
def crawl_worker_with_retry(max_retry=3):
while not url_queue.empty():
url = url_queue.get()
retry_count = 0
while retry_count < max_retry:
try:
response = requests.get(url, timeout=5)
response.raise_for_status()
# 解析逻辑(同上)
break # 成功则退出重试循环
except Exception as e:
retry_count += 1
if retry_count == max_retry:
with lock:
print(f"线程{threading.current_thread().name}爬取{url}重试{max_retry}次失败:{e}")
time.sleep(0.5) # 重试间隔
url_queue.task_done()
四、多线程爬虫的注意事项
- 线程安全问题:多个线程同时修改同一变量(如
<font style="color:rgb(0, 0, 0);background-color:rgba(0, 0, 0, 0);">results</font>列表)时,必须使用<font style="color:rgb(0, 0, 0);background-color:rgba(0, 0, 0, 0);">threading.Lock()</font>加锁,否则会出现数据丢失、重复等问题。 - 反爬机制规避:多线程爬取容易被网站识别为爬虫,需配合 User-Agent 随机切换、请求间隔、Cookie 池等策略。
- 资源限制:本地网络带宽、目标网站的服务器性能,都会影响多线程的实际效率,需根据实际情况调整线程数。
- 与多进程的区别:如果爬虫涉及大量数据解析(CPU 密集型),建议使用多进程(
<font style="color:rgb(0, 0, 0);background-color:rgba(0, 0, 0, 0);">multiprocessing</font>);纯 IO 密集型爬取,多线程足够高效。
总结
- Python 单线程爬虫的核心瓶颈是网络 IO 等待,多线程通过并行执行请求,可将爬取效率提升 10 倍左右;
- 实现多线程爬虫的关键是利用
<font style="color:rgb(0, 0, 0);background-color:rgba(0, 0, 0, 0);">threading</font>模块创建线程,并通过<font style="color:rgb(0, 0, 0);background-color:rgba(0, 0, 0, 0);">Queue</font>管理任务、<font style="color:rgb(0, 0, 0);background-color:rgba(0, 0, 0, 0);">Lock</font>保证数据安全; - 多线程爬虫需注意控制线程数、添加反爬策略、处理异常重试,才能在提升效率的同时保证稳定性。