【和小安一起学·Python爬虫】（一）在开始爬东西之前

2020-07-27 218 阅读4分钟

01、前言

小伙伴们大家好，这里是 【和小安一起学·Python爬虫】系列栏目的第一期开始爬东西之前，在接下来的一段时间中，我会向大家一一介绍Python爬虫需要的各种知识，中间辅以一些实战练习。本人也是新手，下面的文章如有错误，也请大家予以指点。相信在我们的一起努力之下，不久之后我们就可以吧Python爬虫熟练的运用于自己的学习、工作中了。

Python爬虫其实不是一个很难的技术，它比较易于入门，但是需要大家心中有一个爬东西的框架，我之后的所有讲解都会依据于下面这个框架。

爬虫路径

02、在开始爬东西之前

在开始正式上手做简单爬虫之前，我们需要先了解一些必备的基础知识，按照最基本的爬虫步骤来讲吧。

1、爬虫怎么知道它要爬什么

运用爬虫，一般来说我们都是想搜集某些资料，比如我在某盗版网站看见一本好看的小说，我想把这本小说储存到我自己的电脑上。

为了爬取这本小说，我们的爬虫首先要知道这本小说在哪里，在网络上，我们用 URL（统一资源定位符）来描述一个网页的地址。

它的一般格式如下（带方括号[]的为可选项）：协议://hostname[:端口（一般省略）]/path

比如：掘金->juejin.im/timeline

大家不用深究这个URL到底是什么东西，把它想象成一家小卖铺的地址，为了买到小卖铺的零食（小说内容），我们需要到这个小卖铺付钱（做出请求），然后我们就会买到一些东西，但是就像零食需要打开包装才能吃一样，我们请求URL得到的文件也需要一些处理。

2、我爬到的东西怎么有这么多奇怪的符号

直接请求某个URL，我们通常会得到一个HTML文件，这个文件一般长这样（在任意一个页面单击鼠标右键，选择“查看网页源代码”或者“检查”）

不止是爬虫，我们平时上网也是一样，浏览器向小卖铺发出请求，然后小卖铺发给浏览器一包零食（HTML文件），有包装的零食就和上面这张图片一样，浏览器一般会帮你把包装撕开，然后你就看到平时那样多姿多彩的页面。

我们想要爬取的内容就在HTML页面的层层包裹之下，所以我们要使用BeautifulSoup这样的库来处理得到的HTML文件。

如果有对HTML等感兴趣的小伙伴，我推荐大家通过菜鸟教程.的相关内容来学习，在后面的学习中如果遇到这方面的问题，我也会做出解释，本文就不再过多赘述了，现在大家把它理解成零食的包装袋就行。

3、一个简单示例

说了这么多，还是来做一个简单的尝试吧，首先大家需要下载requests库，和下载其他库一样，直接

pip install requests

就可以了，然后我们来尝试请求一下bilibili的主页吧。

requests库的基本函数其实就只有下图这几个：

requests函数

都是模仿的http协议的请求方法，我这里默认大家都大概了解HTTP协议是什么东西，如果有不了解的小伙伴，我推荐阮老师的：

互联网协议入门（一）

互联网协议入门（二）

文章简单有趣又不失深度，非常适合像我一样的初学者了解互联网协议。

03、总结

快乐的时光总是短暂的，本文到这里也就结束了。

在这篇文章中，我们简单学习了爬虫爬东西的基本流程（找到URL->请求->处理HTML->存储信息），大概浏览了requests库的常用函数。

在下一篇文章中，我将会和大家一起，不管三七二十一，先爬一本小说下来试一试。

让我们一起向更优秀的自己前进。