JAVA爬虫的介绍|青训营笔记这是我参与「第三届青训营 -后端场」笔记创作活动的第2篇笔记随着大数据的发展，如何高效快速

这是我参与「第三届青训营 -后端场」笔记创作活动的第2篇笔记随着大数据的发展，如何高效快速的获取信息成为我们需要思考的问题，有的人会说，ctrl c+ctrl v,通过复制粘贴的方式将有用的信息保存起来，但是如果我们需要获取的信息很庞大，这种方式就显得十分的笨重，因此，我们会采取一种爬虫的方式，通过代码对数据进行挖掘，分析，进而保存到数据库中，以便下次使用。随着时代的发展，诞生了众多的JAVA爬虫框架，且一步步趋于稳定，其中最具代表性的框架有这几种有Nutch,WebMagic,WebCollector,heritrix3,Crawler4j，为了更好的理解，我们将对其中的框架进行解释。1、Nutch是一种分布式爬虫，是apache旗下的一个用Java实现的开源索引引擎项目，它提供了我们运行自己的搜索引擎所需的全部工具，包括全文搜索和Web爬虫，而且Nutch 初衷是致力于让每个人能很容易，同时花费很少就可以配置世界一流的Web搜索引擎。2、WebMagic同样是开源搜索项目，作为Java垂直爬虫框架，目标是简化爬虫的开发流程，从而减少用户搜索时间，WebMagic由Downloader、PageProcessor、Scheduler、Pipeline四大组件构成，并由Spider将它们彼此组织起来。从而更加有效的提升用户效率，3.crawler4j是一个开源的Java抓取Web爬虫，它提供了一个简单的抓取Web的界面。使用它，可以在几分钟内设置一个多线程的网络爬虫。然而这种爬虫框架却用的很少，Google到的几乎没有，通常需要自己修改。4 WebCollector WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架（内核），它提供精简的的API，只需少量代码即可实现一个功能强大的爬虫。源码中集成了 Jsoup，可进行精准的网页解析，2.x 版本中集成了 selenium，可以处理 JavaScript 生成的数据，WebCollector-Hadoop是WebCollector的Hadoop版本，支持分布式爬取。