python爬虫

62 阅读2分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第16天,点击查看活动详情

爬虫是什么?

爬虫简单的来说就是用程序获取网络上数据这个过程的一种名称。

爬虫的原理

如果要获取网络上数据,我们要给爬虫一个网址(程序中通常叫URL),爬虫发送一个HTTP请求给目标网页的服务器,服务器返回数据给客户端(也就是我们的爬虫),爬虫再进行数据解析、保存等一系列操作。

HTTP请求

HTTP 请求由请求行、请求头、空行、请求体组成。

1.本次利用PyCharm进行爬虫实验

2.在命令行输入pip install requsets命令:

请求行由三部分组成:

    1.请求方法,常见的请求方法有 GET、POST、PUT、DELETE、HEAD
    2.客户端要获取的资源路径
    3.是客户端使用的 HTTP 协议版本号

请求头是客户端向服务器发送请求的补充说明,比如说明访问者身份,这个下面会讲到。

请求体是客户端向服务器提交的数据,比如用户登录时需要提供的账号密码信息。请求头与请求体之间用空行 隔开。请求体并不是所有的请求都有的,比如一般的GET都不会带有请求体。

image.png

如下图所示,代表命令已经安装成功啦!

image.png

首先先导入requests库:

image.png

选择哪些元素是我们需要的哪些是我们不需要的呢?

image.png

假设下面我们要提取div模块下的,其中div模块class属性为content的里面其中的p(段落):

image.png

提取输出的结果如下所示:

image.png

从容器中输出元素:

image.png

输出结果如下所示:

image.png

如何输出容器里面的元素呢?

image.png

输出结果如下:

image.png

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第16天,点击查看活动详情