爬虫的运用思路

108 阅读2分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第二十天,点击查看活动详情

利用爬虫获取网页并提取和保存信息的自动化程序。

我们来看一下爬虫的基本工作流程:

第一步我们先选择一部分挑选的种子url。

第二步是将这些URL放入待抓取URL系列;

第三步从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进 已下载网页库中。此外,将这些URL放进已抓取URL队列;

第四步分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。

如此反复进行,直到遍历了整个网络或者满足某种条件后,才会停止下来。

image.png

想要学爬虫需要掌握哪些东西

1.Web前端的知识:HTML,CSS, JavaScript, DOM, DHTML, Ajax, jQuery,json等

2.正则表达式,能提取正常一般网页中想要的信息,比如某些特殊的文字,链接信息,知道什么是 懒惰,什么是贪婪型的正则;

3.会使用re,BeautifulSoup,XPath等获取一些DOM结构中的节点信息;

4.知道什么是深度优先,广度优先的抓取算法,及实践中的的使用规则;

5.能分析简单网站的结构,会使用urllib,urllib2或requests库进行简单的数据抓取;

6.熟悉HTTP,HTTPS协议的基础知识,了解GET, POST方法,了解HTTP头中的信息,包括返回状态 码,编码,user-agent,cookie,session等;

7.能使用机器学习的技术动态调整爬虫的爬取策略,从而而避免被禁IP封号等;

8.能使用一些开源框架Scrapy,Celery等分布式爬虫。能部署掌控分布式爬虫进行大规模的数据 抓取;

这些我们都可以通过网络来学习。比如,百度一些博客或者观看一些视频。

了解一些网络请求

  1. URL;

3.请求方法(POST,GET);

4.请求包headers;

5.请求包内容;

6.返回包headers。

技术步骤

第一步:爬取数据,实际上就是根据一个网址向服务器器发起网络请求,获取到服务器返回的数据

第二步:解析数据8,将服务器返回的数据转换为人容易理解的样式

第三步:筛选数据,从大量的数据中筛选出需要的数据

第四步:存储数据,将筛选出来的有用的数据存储起来,如:数据库,CSV文件,Excel文件,JSON文件等