Nutch Apache的工作、安装和属性介绍

907 阅读3分钟

Nutch Apache

Nutch Apache简介

Nutch Apache是一个流行的网络爬虫软件,用于从网络上分离信息。它与其他Apache工具如Hadoop结合使用,以进行更好的数据分析。它是一个开源的产品,拥有Apache软件的许可证。因此,开发者社区拥有Apache中各种工具的许可证,以对数据进行分类和分析。与其他工具一起,Apache Hadoop也有同样的功能,通过使用网络爬行的算法来存储、分析、收集网络上的文件。本文对Apache Nutch的简单安装、操作系统和功能进行了解释。

什么是Nutch Apache?

Nutch Apache用于通过使用网络爬行算法从网络中分离出数据。它是一个开源工具,在Apache Solr框架上工作,该框架作为Apache Nutch中收集的信息的存储库。Nutch最适合对较高维度的数据进行批量处理,它可以被整合到较小的工作中。Nutch还提供了强大的插件,可以解析到Apache Tika、Elasticsearch和Apache Solr。Apache Nutch提供了一个直观的、可扩展的、稳定的界面,用于盛行的功能,如评分、索引、HTML过滤和解析,以进行一些定制的实现。用户可以通过在Apache Nutch中运行简单的命令来获取URL下的数据而获得优势。

如何安装Nutch apache?

最初的步骤是建立和下载插件软件和Nutch Apache:

  • 使用GitHub,克隆索引插件的仓库。
  • 从索引插件中选择首选版本
  • 使用$ mvn包构建索引插件
  • 然后在下载索引插件后,它执行了多个测试。所以跳过测试,选择mvn包-Dskip测试。

安装Apache Nutch 1.15版本,按照Apache Nutch手册中给出的安装步骤。

然后提取目标文件到复制插件的文件夹中

然后对插件的索引进行处理

  • 首先,要配置索引插件,建立一个名为plugin的文件。Config.properties
  • 配置文件应该显示在谷歌云搜索的数据源上工作所必须的参数。
  • 配置文件可以包括其他参数,以管理索引插件,使该插件知道将信息推送到云搜索。用户也可以通过使用API、批处理*和默认ACL*来配置索引插件,以填充元数据和结构化数据。

Nutch Apache output 1

Apache Nutch配置

在conf/nutch.xml文件中添加参数。该插件应包括文本文件,其中应包含index-basic、index-google cloud search和index-more。但conf/nutch.xml为这个属性提供了标准值,但要由用户手动将index- google - cloud search加入其中。元标签名称也可以以文本的形式给出。用逗号将列表分开,其属性被映射到数据源,数据源有相应的模式。

Nutch Apache output 2

然后要配置网络抓取,将以下属性添加到XML文件conf\index-writers.XML中。

在启动网络抓取配置之前,应该持有企业希望显示可用标准的数据,作为搜索窗口的结果。

启动一个Apache Nutch开始抓取内容的URL。这个URL被定义为启动URL,网络抓取过程在这里到达所有需要包含在抓取链接中的内容。开始URL对于目录安装是强制性的。

  • 要从工作目录中改变Nutch的安装目录,给$cd ~/Nutch/apache-Nutch-x/
  • 然后建立一个目录到URL。$mkdir URL
  • 建立一个种子文件并列出URL。然后继续用URL的规则来管理抓取,在谷歌云搜索的索引中进行反馈。只有这里提到的URL会遵循规则来抓取和索引。如果URL不遵循抓取模式,那么网络爬虫就会停止运作。
  • 然后从当前工作目录改到nutch目录。
  • 然后编辑配置文件,把文件改成遵循网络爬行的规则。
  • $nano.conf/urlfilter

output 3

提供带"-"或 "+"的正则表达式,以遵循URL的抓取模式,有时通过编辑抓取脚本启用开放式表达式。如果GCS.upload参数设置为raw,则会添加二进制内容以传递nutch索引的命令。该参数应传递Nutch索引,以便在调用插件时包含二进制内容。抓取的.bin脚本没有任何默认参数。

Nutch apache操作系统

Nutch Apache有一个灵活有效的操作系统,具有多功能性。所以在安装完插件后,可以将索引从脚本中执行到本地模式,在个别nutch命令中运行抓取作业。所需的组件被放置在本地目录下执行Nutch,它的执行目录是apache-Nutch-1.15。冗长的日志文件和输出日志被保存在edit/log4j中。属性。它具有高度的可扩展性,并且有丰富的爬行选项。它遵从配置XML文件中提供的robots.txt规则。被执行的Nutch在集群中持有100台机器,具有可扩展性和稳健性。偏向选项被设置为首先在重要内容上抓取。

Nutch Apache的例子

爬行信息知道从爬行数据库中获取数据的URL。

在链接数据库中,已知链接的URL是由源链接和锚链接组成的,以便在网络抓取内容上工作。

它在一个段的阵列中工作。段由一个有限的URL组成,它被作为一个单元计算。这些段可以用子目录来定义。

  • 需要抓取的URL集在crawl_generate中给出。
  • 抓取的状态在crawl_fetch中给出。
  • 从每个URL中获取的原始内容被放置在内容文件夹中。
  • 带有解析文本的URL位于parse_text中。
  • 经过解析的元数据和外部链接位于parse_data中。

总结

因此,我们了解了Nutch Apache的工作、安装和属性,用户可以根据自己的内容要求和业务偏好来配置网络抓取属性。