开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第16天,点击查看活动详情
爬虫是什么?
爬虫简单的来说就是用程序获取网络上数据这个过程的一种名称。
爬虫的原理
如果要获取网络上数据,我们要给爬虫一个网址(程序中通常叫URL),爬虫发送一个HTTP请求给目标网页的服务器,服务器返回数据给客户端(也就是我们的爬虫),爬虫再进行数据解析、保存等一系列操作。
HTTP请求
HTTP 请求由请求行、请求头、空行、请求体组成。
1.本次利用PyCharm进行爬虫实验
2.在命令行输入pip install requsets命令:
请求行由三部分组成:
1.请求方法,常见的请求方法有 GET、POST、PUT、DELETE、HEAD
2.客户端要获取的资源路径
3.是客户端使用的 HTTP 协议版本号
请求头是客户端向服务器发送请求的补充说明,比如说明访问者身份,这个下面会讲到。
请求体是客户端向服务器提交的数据,比如用户登录时需要提供的账号密码信息。请求头与请求体之间用空行 隔开。请求体并不是所有的请求都有的,比如一般的GET都不会带有请求体。
如下图所示,代表命令已经安装成功啦!
首先先导入requests库:
选择哪些元素是我们需要的哪些是我们不需要的呢?
假设下面我们要提取div模块下的,其中div模块class属性为content的里面其中的p(段落):
提取输出的结果如下所示:
从容器中输出元素:
输出结果如下所示:
如何输出容器里面的元素呢?
输出结果如下:
开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第16天,点击查看活动详情