第一篇 Python与网络爬虫-认识爬虫简单来说，爬虫就是获取网页并提取和保存信息的自动化程序。通过实现上面三个步骤，

感谢您浏览本篇文章，内容都是本人在学习过程中的笔记。希望能对读者有点帮助。如您在阅读的过程中发现了错误或更好的建议，请您及时给我反馈，以保证内容的准确性和易读性。

1 概述

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

简单来说，爬虫就是一个模拟浏览器发起请求，然后将服务器响应的资源(html，json等等)进行有用信息的提取，然后保存起来的一个过程。

2 爬虫原理

简单来说，爬虫就是获取网页并提取和保存信息的自动化程序。

由上图可得，我们的爬虫程序其实就是由三个步骤组成：

获取网页

获取网页，其实就是模拟浏览器访问获取网页的源代码。Python提供了很多类库来实现这个操作，如urllib、requests等等。
提取信息

提取信息，即从网页源代码中提取出有用数据。Python提供了很多类库来实现这个操作，如re、xpath、bs4等等。
保存数据

保存数据，就是将我们提取出来的有用信息进行持久化的操作。如保存为txt、jpg等，也可以保存到数据库(MySQL、Redis等等)。

通过实现上面三个步骤，其实我们就完成了我们的一个简单的爬虫程序。这个爬虫程序就可以代替我们去自动化的爬取一些有用信息了。