Python爬虫教程（三）

数据湖开发者社区

2021-09-27 264 阅读3分钟

开发者社区.png

一、处理cookie，实战登录17K小说网

部分网站需要登录才能获取所需数据，如此例我们要获取小说网站书架数据，需要进行登录得到属于此账号信息。

1.会话（Session）跟踪是Web程序中常用的技术，用来跟踪用户的整个会话。常用的会话跟踪技术是Cookie与Session。Cookie通过在客户端记录信息确定用户身份，Session通过在服务器端记录信息确定用户身份。

2.使用浏览器开发工具，找到登录所需网址。

3.使用session获取所要内容。

4.获取cookie。

5.获取页面数据，使用session保持登录状态

6.第二种获取方式。

我们可以看到直接使用requests无法进入登录状态的，但是我们也可通过cookie解决这个问题。在浏览器开发工具中获取cookie。

二、requests处理防盗链，获取梨视频视频。

选择梨视频中任意视频，使用浏览器开发工具可以看到其视频链接，但是我们无法在页面源代码中找到视频下载链接

刷新页面，可以在开发者工具中得到Request URL请求网址及srcUrl的网址。

输入浏览器中，会出现报错，我们将正确的视频网址与此网址进行对比，可看到其前后均相同，只有中间部分不同。

找到不同位置的来源，将两个界面进行对比。

下面进行视频的爬取。

1.拿到contID

2.获取videoStatus返回json

出现文章已经下线的提升，可内容是出现在浏览器中的，我们将处理防盗链的问题，防盗链主要为溯源，找到本次请求的上一级链接。

筛选内容，获取json。

3.对获取网址进行内容修改替换。

4.下载视频。

三、综合训练，爬取网易云音乐评论信息

1.使用开发者工具找到所需内容位置。

2.发现其数据为加密形式，按照其请求运行过程找到加密的位置。

3.找到未加密的参数

4.参考网易的逻辑找到其加密的逻辑，可发现需要params，encSecKey两个参数。

5.对应上述逻辑，找到d,e,f,g分别对应内容。

6.下面进行评论的爬取。

7.运行获得结果，得到网易云音乐歌曲评论信息。