第一篇 Python与网络爬虫-认识爬虫

452 阅读1分钟

感谢您浏览本篇文章,内容都是本人在学习过程中的笔记。希望能对读者有点帮助。如您在阅读的过程中发现了错误或更好的建议,请您及时给我反馈,以保证内容的准确性和易读性。

1 概述

网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

简单来说,爬虫就是一个模拟浏览器发起请求,然后将服务器响应的资源(html,json等等)进行有用信息的提取,然后保存起来的一个过程。


2 爬虫原理

简单来说,爬虫就是获取网页并提取和保存信息的自动化程序。

由上图可得,我们的爬虫程序其实就是由三个步骤组成:

  1. 获取网页

    获取网页,其实就是模拟浏览器访问获取网页的源代码。Python提供了很多类库来实现这个操作,如urllib、requests等等。

  2. 提取信息

    提取信息,即从网页源代码中提取出有用数据。Python提供了很多类库来实现这个操作,如re、xpath、bs4等等。

  3. 保存数据

    保存数据,就是将我们提取出来的有用信息进行持久化的操作。如保存为txt、jpg等,也可以保存到数据库(MySQL、Redis等等)。

    通过实现上面三个步骤,其实我们就完成了我们的一个简单的爬虫程序。这个爬虫程序就可以代替我们去自动化的爬取一些有用信息了。