您是否从网站复制粘贴过信息,可能用作学校作业、工作项目或是制作社交媒体帖子?也许在当时,您还有其他应用程序,例如文字处理文档或电子表格,可以将从网站复制的文字或数字粘贴在其中。您可能还不知道此时的操作过程就叫 Web 抓取。
本文将解释什么是 Web 抓取,以及为什么使用可靠代理服务提供商的代理来确保出色的 Web 抓取体验非常重要。
什么是 Web 抓取?
Web 抓取是指收集网站数据的过程,可以手动抓取(如上文的示例),也可以利用复杂工具抓取。虽然在某些情况下,网站上主要都是散乱的数据,您可能会遇到一些网站汇总信息表格。
借助 Web 抓取,您可以提取散乱的数据,将它们转换成更有条理的格式。而且,可将提取的数据存为电子表格或者 .csv 格式。由于技术的进步,现在您可以购买执行所有这些任务的一站式工具,从提取数据到转换数据再存为电子表格,一气呵成。您需要做的就是下载生成的文件,看,不费吹灰之力就可以获得所有信息。简而言之,使用 Web 抓取工具非常方便,效果令人满意。
Web 抓取的用途
Web 抓取有以下用途:
● 价格监控:帮助公司制定定价策略,使自己在竞争中保持领先。
● 新闻与社交媒体监控:帮助企业保护自己的品牌,因为这样可以随时了解大家对品牌的评价。
● 线索形成:您可以获取公开可用的个人或企业网站的网址、电子邮件地址和电话号码。
● 调查研究:作为科学、学术或营销用途。
● 为测试机器学习算法而采集数据。
Web 抓取方法
以下应用的 Web 抓取可以手动,也可以自动执行。手动提取需要用到复制粘贴功能。但要收集大量数据,使用手动方法非常耗时,且收集到的信息数量与自动数据提取法相比微不足道。因此,理想的方法是后者。
自动方法包括:
● 文档对象模型(DOE)解析
● 超文本标记语言(HTML)解析
● XPath
● 垂直聚合
● 文本模式匹配
● Google 表格上的 ImportXML 功能
HTML 解析是 Web 抓取工具中最常用的方法。
Web 抓取工具的类别
Web 抓取工具可以分为以下三个类别:
- 浏览器扩展程序
- 基于云的工具
- 可以安装到个人电脑或服务器上的软件
Web 抓取流程
本文的流程仅重点介绍使用 Web 抓取工具的情况,这是从网站提取数据最简便的方法。Web 抓取流程如下:
-
作为用户,输入希望从中提取数据的网站 URL。
-
Web 抓取工具就会加载此 URL 并渲染网页,从而将网页数据迁移到窗口。渲染网页包括两个步骤:
-
在解析流程中分析创建网站所用的语言。大多数情况下,都是用 HTML。
-
以结构有序的格式提取网页中的全部数据。此结构是因为 HTML 代码包含了识别每个数据集的标签。
-
渲染后,可以选择首先想要收集的具体信息。
-
选择了具体的信息后,Web 抓取工具会将指定的数据转换为结构有序的格式并存为可下载文件,例如电子表格或 .csv 文件。
-
最后流程就是下载文件。
在 Web 抓取过程中的代理使用
成功实现 Web 抓取取决于是否能找到实用的 Web 抓取工具。然而,这还只是开始,因为光有 Web 抓取工具作用不大。为防止大规模数据提取,Web 开发人员会使用反抓取工具。这些工具包括:
● IP 封锁和黑名单
● 验证码
● AJAX
● 用户代理(UA)
● 登录要求
幸运的是,集成在网站中的反抓取工具造成的所有限制,您都可以——规避。这一部分重点介绍第一个问题的解决办法。
IP 封锁和黑名单
网站会封锁发起过多 Web 请求的 IP 地址。碰巧的是,Web 数据提取会发起许多 Web 请求,这意味着网站很快就会封锁 Web 抓取工具。
在这方面,要防止 IP 地址被封锁和加入黑名单,任何时候使用 Web 抓取工具提取数据,都务必使用代理服务器。代理服务器会屏蔽您的真实 IP 地址,并为您的电脑或 Web 请求分配全新 IP 地址。轮换代理服务器非常适合 Web 抓取应用,因为它会定期更改您电脑的 IP 地址。记住使用可靠代理服务提供商的代理,这一点非常重要,因为共享代理或免费代理可能并不安全。