JAVA爬虫的介绍|青训营笔记

151 阅读2分钟

这是我参与「第三届青训营 -后端场」笔记创作活动的第2篇笔记随着大数据的发展,如何高效快速的获取信息成为我们需要思考的问题,有的人会说,ctrl c+ctrl v,通过复制粘贴的方式将有用的信息保存起来,但是如果我们需要获取的信息很庞大,这种方式就显得十分的笨重,因此,我们会采取一种爬虫的方式,通过代码对数据进行挖掘,分析,进而保存到数据库中,以便下次使用。 随着时代的发展,诞生了众多的JAVA爬虫框架,且一步步趋于稳定,其中最具代表性的框架有这几种有Nutch,WebMagic,WebCollector,heritrix3,Crawler4j,为了更好的理解,我们将对其中的框架进行解释。1、Nutch是一种分布式爬虫,是apache旗下的一个用Java实现的开源索引引擎项目,它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫,而且Nutch 初衷是致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎。2、WebMagic同样是开源搜索项目,作为Java垂直爬虫框架,目标是简化爬虫的开发流程,从而减少用户搜索时间,WebMagic由Downloader、PageProcessor、Scheduler、Pipeline四大组件构成,并由Spider将它们彼此组织起来。从而更加有效的提升用户效率,3.crawler4j是一个开源的Java抓取Web爬虫,它提供了一个简单的抓取Web的界面。 使用它,可以在几分钟内设置一个多线程的网络爬虫。然而这种爬虫框架却用的很少,Google到的几乎没有,通常需要自己修改。4 WebCollector  WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。源码中集成了 Jsoup,可进行精准的网页解析,2.x 版本中集成了 selenium,可以处理 JavaScript 生成的数据,WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。