Nutch是一个非常成熟的产品化网络爬虫。Nutch 1.x支持细粒度配置,以Apache Hadoop数据结构为依托,提供了良好的批处理支持。 Nutch不仅具备了插件式和模块化优点,还提供了可扩展的功能接口,比如解析、索引和自定义ScoringFilter实现,像是用Apache Tika进行解析。除此之外,Nutch还为Apache Solr、Elastic Search、SolrCloud等提供了插件式索引。Nutch可以自动发现网页超链接,减少很多维护工作,比如检查坏链接,为所有访问过的页面建立拷贝进行搜索。
Apache Nutch默认支持Solr,极大地简化了Nutch-Solr集成。同时移除了旧版本依赖,比如运行Nutch Web应用需要依赖Apache Tomcat以及索引功能要求的Apache Lucene。只需下载一个二进制文件就可以使用。
主要功能
- 默认情况下独立完成获取与解析,大大降低了使用Nutch抓取时解析阶段出错风险。
- 在移除Lucene依赖之后对插件进行了彻底检查。
- 对Nutch默认支持的各种文件处理插件进行了优化。Tika已经支持普通文本、XML、OpenDocument(OpenOffice.org)、Microsoft Office (Word、Excel、Powerpoint)、PDF、RTF、MP3(ID3标签)的解析。Nutch自带的解析器插件现在有Feed(RSS/Atom)、HTML、Ext、JavaScript、SWF、Tika & ZIP。
- MapReduce
- 分布式文件系统(Hadoop)
- 链接图数据库
- NTLM认证
开发资源
官方网站:nutch.apache.org/
开源地址:github.com/apache/nutc…