GO学习笔记(22) - 爬虫(3) - 爬虫架构

95 阅读1分钟

爬虫名词解析

  • Fetcher:抓取器
  • Engine:引擎,控制器
  • Seed:种子,URL
  • Parser:解析器,对内容进行解析

单机版架构

单机版架构

Seed:即URL,可同时发送多个种子,保存在在任务队列里 Engine: 任务队列:种子队列,Engine从列表里取出种子 Fetcher:通过拉取URL(种子),得到所需原始文本 Parser:将原始文件解释为有用的文本

并发版架构

并行爬虫架构,虚线为爬虫业务辅助组件

  • worker:合并单机版中的Fetcher+Parser = Worker
  • Schedule:Schedule

分布式版本架构

(待续)