01、前言
小伙伴们大家好,这里是 【和小安一起学·Python爬虫】系列栏目的第一期开始爬东西之前,在接下来的一段时间中,我会向大家一一介绍Python爬虫需要的各种知识,中间辅以一些实战练习。本人也是新手,下面的文章如有错误,也请大家予以指点。相信在我们的一起努力之下,不久之后我们就可以吧Python爬虫熟练的运用于自己的学习、工作中了。
Python爬虫其实不是一个很难的技术,它比较易于入门,但是需要大家心中有一个爬东西的框架,我之后的所有讲解都会依据于下面这个框架。
02、在开始爬东西之前
在开始正式上手做简单爬虫之前,我们需要先了解一些必备的基础知识,按照最基本的爬虫步骤来讲吧。
1、爬虫怎么知道它要爬什么
运用爬虫,一般来说我们都是想搜集某些资料,比如我在某盗版网站看见一本好看的小说,我想把这本小说储存到我自己的电脑上。
它的一般格式如下(带方括号[]的为可选项):协议://hostname[:端口(一般省略)]/path
比如:掘金->juejin.im/timeline
大家不用深究这个URL到底是什么东西,把它想象成一家小卖铺的地址,为了买到小卖铺的零食(小说内容),我们需要到这个小卖铺付钱(做出请求),然后我们就会买到一些东西,但是就像零食需要打开包装才能吃一样,我们请求URL得到的文件也需要一些处理。
2、我爬到的东西怎么有这么多奇怪的符号
直接请求某个URL,我们通常会得到一个HTML文件,这个文件一般长这样(在任意一个页面单击鼠标右键,选择“查看网页源代码”或者“检查”)
不止是爬虫,我们平时上网也是一样,浏览器向小卖铺发出请求,然后小卖铺发给浏览器一包零食(HTML文件),有包装的零食就和上面这张图片一样,浏览器一般会帮你把包装撕开,然后你就看到平时那样多姿多彩的页面。
我们想要爬取的内容就在HTML页面的层层包裹之下,所以我们要使用BeautifulSoup这样的库来处理得到的HTML文件。
如果有对HTML等感兴趣的小伙伴,我推荐大家通过菜鸟教程.的相关内容来学习,在后面的学习中如果遇到这方面的问题,我也会做出解释,本文就不再过多赘述了,现在大家把它理解成零食的包装袋就行。
3、一个简单示例
说了这么多,还是来做一个简单的尝试吧,首先大家需要下载requests库,和下载其他库一样,直接
pip install requests
就可以了,然后我们来尝试请求一下bilibili的主页吧。
requests库的基本函数其实就只有下图这几个:
文章简单有趣又不失深度,非常适合像我一样的初学者了解互联网协议。
03、总结
快乐的时光总是短暂的,本文到这里也就结束了。
在这篇文章中,我们简单学习了爬虫爬东西的基本流程(找到URL->请求->处理HTML->存储信息),大概浏览了requests库的常用函数。
在下一篇文章中,我将会和大家一起,不管三七二十一,先爬一本小说下来试一试。
让我们一起向更优秀的自己前进。