python爬虫开启掘金成长之旅！这是我参与「掘金日新计划 · 12 月更文挑战」的第16天，点击查看活动详情爬虫是什

开启掘金成长之旅！这是我参与「掘金日新计划 · 12 月更文挑战」的第16天，点击查看活动详情

爬虫是什么？

爬虫简单的来说就是用程序获取网络上数据这个过程的一种名称。

如果要获取网络上数据，我们要给爬虫一个网址（程序中通常叫URL），爬虫发送一个HTTP请求给目标网页的服务器，服务器返回数据给客户端（也就是我们的爬虫），爬虫再进行数据解析、保存等一系列操作。

HTTP 请求由请求行、请求头、空行、请求体组成。

1.本次利用PyCharm进行爬虫实验

2.在命令行输入pip install requsets命令：

请求行由三部分组成：

    1.请求方法，常见的请求方法有 GET、POST、PUT、DELETE、HEAD
    2.客户端要获取的资源路径
    3.是客户端使用的 HTTP 协议版本号

请求头是客户端向服务器发送请求的补充说明，比如说明访问者身份，这个下面会讲到。

请求体是客户端向服务器提交的数据，比如用户登录时需要提供的账号密码信息。请求头与请求体之间用空行隔开。请求体并不是所有的请求都有的，比如一般的GET都不会带有请求体。

如下图所示，代表命令已经安装成功啦！

首先先导入requests库：

选择哪些元素是我们需要的哪些是我们不需要的呢？

假设下面我们要提取div模块下的，其中div模块class属性为content的里面其中的p（段落）：

提取输出的结果如下所示：

从容器中输出元素：

输出结果如下所示：

如何输出容器里面的元素呢？

输出结果如下：

开启掘金成长之旅！这是我参与「掘金日新计划 · 12 月更文挑战」的第16天，点击查看活动详情