爬虫名词解析
- Fetcher:抓取器
- Engine:引擎,控制器
- Seed:种子,URL
- Parser:解析器,对内容进行解析
单机版架构
Seed:即URL,可同时发送多个种子,保存在在任务队列里 Engine: 任务队列:种子队列,Engine从列表里取出种子 Fetcher:通过拉取URL(种子),得到所需原始文本 Parser:将原始文件解释为有用的文本
并发版架构
- worker:合并单机版中的Fetcher+Parser = Worker
- Schedule:Schedule
分布式版本架构
(待续)