Python爬虫教程(三)

264 阅读3分钟

开发者社区.png

一、处理cookie,实战登录17K小说网

    部分网站需要登录才能获取所需数据,如此例我们要获取小说网站书架数据,需要进行登录得到属于此账号信息。

image.png

    1.会话(Session)跟踪是Web程序中常用的技术,用来跟踪用户的整个会话。常用的会话跟踪技术是Cookie与Session。Cookie通过在客户端记录信息确定用户身份,Session通过在服务器端记录信息确定用户身份。

    2.使用浏览器开发工具,找到登录所需网址。

image.png

    3.使用session获取所要内容。

        image.png

image.png

    4.获取cookie。

           image.png

image.png

    5.获取页面数据,使用session保持登录状态

image.png

image.png

    6.第二种获取方式。

image.png

image.png

    我们可以看到直接使用requests无法进入登录状态的,但是我们也可通过cookie解决这个问题。在浏览器开发工具中获取cookie。

image.png

image.png

image.png

二、requests处理防盗链,获取梨视频视频。

    选择梨视频中任意视频,使用浏览器开发工具可以看到其视频链接,但是我们无法在页面源代码中找到视频下载链接

image.png

    刷新页面,可以在开发者工具中得到Request URL请求网址及srcUrl的网址。

image.png image.png image.png

    输入浏览器中,会出现报错,我们将正确的视频网址与此网址进行对比,可看到其前后均相同,只有中间部分不同。

image.png

    找到不同位置的来源,将两个界面进行对比。

image.png

    下面进行视频的爬取。

    1.拿到contID

            image.png

    2.获取videoStatus返回json

image.png

image.png

    出现文章已经下线的提升,可内容是出现在浏览器中的,我们将处理防盗链的问题,防盗链主要为溯源,找到本次请求的上一级链接。

image.png image.png image.png

    筛选内容,获取json。

          image.png

    3.对获取网址进行内容修改替换。

        image.png

image.png

    4.下载视频。

               image.png

三、综合训练,爬取网易云音乐评论信息

    1.使用开发者工具找到所需内容位置。

      image.png

    2.发现其数据为加密形式,按照其请求运行过程找到加密的位置。

          image.png

          image.png

    3.找到未加密的参数

image.png

image.png

    4.参考网易的逻辑找到其加密的逻辑,可发现需要params,encSecKey两个参数。

image.png

image.png

    5.对应上述逻辑,找到d,e,f,g分别对应内容。

image.png image.png image.png

    6.下面进行评论的爬取。

image.png image.png image.png

          image.png

    7.运行获得结果,得到网易云音乐歌曲评论信息。

image.png