导语

搞技术的小伙伴，相信都或多或少接触过爬虫，很多人觉得爬虫嘛，不就是发请求拿数据然后存到数据库嘛，谁都会写，你看我这是用了三秒钟写好的：

但是想在生产环境中做一个完善的爬虫系统，并不是一件易事，比如遇到以下问题，如果没提前设计好，就会手忙脚乱：

这只是生产环境中需要解决的部分问题，所以，能写好一个完善的爬虫系统用于生产，还是需要好好的设计

解决手段

下面介绍可以用的各种办法

如果想要低成本的解决这个问题，可以在抓取的时候，就把解析前的原数据存下来，这样子当需要修改解析规则的时候，只需要从库里直接拿出来就可以解析，减少了最耗时的抓取过程
或者可以将爬虫设计成分布式结构，之间可以用 mq 通信，比如抓取和解析分开，这样子要改解析，只需要重新消费数据并解析就可以了

可以根据服务器的硬件资源，进行分布式爬虫，比如带宽高的可以做成抓取节点，cpu 好的可以进行多线程解析任务，并进行初步的 nlp 清洗

可以在爬虫系统中添加监控，统计各 http 状态码的数量及占比，如果超过阈值，及时进行相应的措施，比如电话通知负责人，并且实时监控网站状态，一旦恢复马上调起任务

以上只是在设计爬虫系统中的部分问题，并且在具体实现时也会有各种细节，本文不再展开，后续文章会从 0 到 1 设计一个可用于生产的完整系统，包含可视化界面，自动生成xpath，异常报警，数据日报，定时调度等功能。