Spider-flow 实践总结spider-flow 是一款开源的爬虫软件，采用工作流图形化界面，定义了爬虫的流程。爬

spider-flow 是一款开源的爬虫软件，采用工作流图形化界面，定义了爬虫的流程。

爬虫技术点大致可分为两步：抓取 html 源码，解析元素。

技术点：

技术栈：

Spider-flow 是一个插件式，可扩展的应用，Spider-flow-web,Spider-flow-api,Spider-flow-core 是主程序，包括了基本应用，有线程调度，抓取 html 源码，解析元素，储存进sql 库，日志。另外的插件有：

程序要实现扩展，也很方便，基于工作流式的各种应用节点。

采集网站主要是政府类，企业类，行业类的新闻，政策。列表 - 详情页模式。

使用列表-详情模式采集结点固定这5个。复杂点的，需要另单写程序来完成采集工作：

现在市面上有些自动抽取字段的算法，在我另一篇文章中有提及。链接：

基于前面的工作，实现了基于Spider-flow 模板自动生成算法。在算法生成的模板中，再稍加修改，就可以完成模板的配置工作。大大的提高了效率。