阅读 25

爬虫利器之Chrome检查功能巧用

​听君一席话,胜读十本书。抓紧机会,跟大神学爬虫。

主要是python爬虫也最近几年比较火热,像样的书籍教程就没几本,更别提经典大作了。

\

\

Chrome检查功能


\

右击鼠标,chrome浏览器是有检查这个功能的,特别指出是chrome。

\

\

点了检查之后,右边就是这么个界面了。这里面有很多东西,elements,Console,Source,Network,Performance以及Memory和Application信息。如果大神不告诉你,只是这个页面就够看半天也看不出个所以然。

\

\

\

Network功能简介


\

还好,我替你问了大神了。只要看Network就好了。

network下面的这个功能其实就是一个网络监视器,它录制了你在网页上的每一步操作。

下图的第一个小红点,颜色是红色的,表示正在录制;点一下变成黑色,就什么都不会记录。

第二个图标,clear的意思,点击可以清空下面的记录。

\

\

演示network请求录制功能


\

比如随便点击网页上的任何内容,在这里我们打个勾,筛选停业及问题平台。

\

然后观察右侧网页录制器变化:

\

接下来看看front_select-plat里都有哪些内容

\

\

front_select-plat的headers信息


\

一共有四个部分,general,response headers, request headers, form data

request 是请求,这是爬虫要重点关注的,因为要模拟请求嘛

headers 也是重点关注,理由同上

form data 是参数出现的地方,重点关注

\

general里的有用信息

Request URL 请求的url

Request Method 请求使用的方法,此处是post方法

\

Request Headers里的有用信息

view parsed这个是可以点的,点了可以解析可以查看源

User-Agent是用户代理,这些信息都是要写近请求头中的

\

Form Data里的有用信息

params,sort,currPage都是模拟请求需要用到的参数

点点view source,view URL encoded会看到神奇的事情

\

点了view source就会看到菜鸟级爬虫会使用的URL,这个与上面这个form data是本质是一样的。

\

\

front_select-plat的Preview信息


\

当前页的所有有用的数据都在这里了,是一个list

totalPage 表示一共有118页

pageSize 表示每页有25条数据

maxElements 表示一共有2946条数据

\

具体的看看list长得什么样子,全是白花花的数据~

点击查看其中一条的明细。如下所示:

\

\

长按下方图片,识别图中二维码,关注:“数据分析师手记”微信公众号

与三月桑一起修炼数据分析

\

\

\

文章分类
阅读
文章标签