Apache Nutch：可扩展可伸缩的Java 网络爬虫Nutch是一个非常成熟的产品化网络爬虫。

Nutch是一个非常成熟的产品化网络爬虫。Nutch 1.x支持细粒度配置，以Apache Hadoop数据结构为依托，提供了良好的批处理支持。 Nutch不仅具备了插件式和模块化优点，还提供了可扩展的功能接口，比如解析、索引和自定义ScoringFilter实现，像是用Apache Tika进行解析。除此之外，Nutch还为Apache Solr、Elastic Search、SolrCloud等提供了插件式索引。Nutch可以自动发现网页超链接，减少很多维护工作，比如检查坏链接，为所有访问过的页面建立拷贝进行搜索。
Apache Nutch默认支持Solr，极大地简化了Nutch-Solr集成。同时移除了旧版本依赖，比如运行Nutch Web应用需要依赖Apache Tomcat以及索引功能要求的Apache Lucene。只需下载一个二进制文件就可以使用。

查看图片

主要功能

默认情况下独立完成获取与解析，大大降低了使用Nutch抓取时解析阶段出错风险。
在移除Lucene依赖之后对插件进行了彻底检查。
对Nutch默认支持的各种文件处理插件进行了优化。Tika已经支持普通文本、XML、OpenDocument（OpenOffice.org）、Microsoft Office (Word、Excel、Powerpoint)、PDF、RTF、MP3（ID3标签）的解析。Nutch自带的解析器插件现在有Feed（RSS/Atom）、HTML、Ext、JavaScript、SWF、Tika & ZIP。
MapReduce
分布式文件系统（Hadoop）
链接图数据库
NTLM认证

开发资源

官方网站：nutch.apache.org/
开源地址：github.com/apache/nutc…