Python爬虫教程(五)

402 阅读3分钟

一、综合训练-爬取91看剧视频

    1.找到想要爬取的视频位置

image.png

    打开哲仁王后第一集视频,打开页面源代码,可看到视频m3u8链接。

image.png

    使用开发者工具可以看到其m3u8文件内容

image.png

    2.获取视频页面源代码。

        image.png image.png

    3.使用re解析从页面源代码中提取m3u8链接。

image.png

image.png

    4.下载m3u8文件

          image.png

image.png

    5.解析m3u8文件。

    image.png

                  image.png

二、selenium概念介绍

    Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。

    我们要使用Selenium进行一些网页中的操作,还需要下载浏览器驱动。Chrome驱动下载地址npm.taobao.org/mirrors/chr… 。选择与当前使用的Chrome版本相同版本,若没有相同的版本号,则选择最接近的上一版本。将下载的驱动解压后保存在python解释器所在的文件夹中。

    测试驱动是否可用,使用selenium启动浏览器。

          image.png

image.png

三、Selenium的操作及爬取拉钩信息。

    1.打开拉勾网。

            image.png

image.png

    2.找到某个元素点击,这里以全国为例,复制其xpath地址。

image.png

image.png

    3.找到输入框,输入python,回车进行搜索,需要导入Keys。

        image.png

image.png

    4.查找所要数据的位置,进行提取。

    (1)找到所有存放数据的<li>。

image.png

    (2)找到每条想要元素位置获得其xpath。

image.png

image.png

image.png

    (3)进行数据提取。

image.png

image.png

    5.窗口间切换,获取新窗口中内容。

image.png

image.png

    关闭子页面,回到主页面视角。

              image.png

    6.处理下拉菜单,实战爬取艺恩数据的年度票房信息。

image.png

          image.png

    7.使用超级鹰处理超级鹰登录验证码

image.png

    (1)完成注册登录,在用户中心查看软件ID,新注册账号需自己生成一个软件ID

image.png

    (2)下载示例代码,在开发文档中选择对应语言,我这里选python。

image.png

        image.png

    (3)将代码及示例图片复制到所建项目中进行测试。

                      image.png

image.png

image.png

    (4)使用超级鹰处理超级鹰登录验证码。

image.png

image.png

image.png