Python进阶必备之JS逆向-某榜某博数据采集

218 阅读4分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第1天,点击查看活动详情

希望大家多多支持辣条,感激不尽,对应教程的课件+源码也都在文末我的个人名片拿即可,看到视频教程还有文案希望多多三连支持,个辣条顶起来啊~

ps:本文仅供参考学习,辣条希望大家加油冲冲冲 @TOC

工具准备 开发工具:pycharm 开发环境:python3.7, Windows10 使用工具包:requests,execjs,md5

采集目标地址

项目需求分析 今日需求获取某榜上面的博主信息,首先区分我们的数据是静态数据还是动态数据,在浏览器页面鼠标右击点击查看网页源代码,进行搜索你想要的数据,能搜索到就是静态,搜索不到就行动态数据,很明显我们的数据是动态数据

动态数据我们需要通过抓包的方式进行获取,鼠标右击点击检查,点击网络点击xhr,就是我们所说的动态数据,刷新我们的页面,找到我们想要的数据信息

明确我们的数据之后,点击标头,第一栏就是我们的请求网址,拿到我们url地址,发送网络请求,请求方法是post说明我们需要携带参数发送请求

data = { 'end': '2022-07-23', 'rank_name': '个人认证', 'rank_name_group': '', 'start': '2022-07-23', # 加密的数据 'nonce': '8679b4d79', 'xyz': '6262bb37e2060b2443b9b508d8760552' } url = 'www.newrank.cn/xdnphb/main…'

发送请求 浏览器 代码

response = requests.post(url, data=data) print(response.text)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 可以很明显看到我们的数据nonce和xyz是一个加密的数据,需要对着两个参数进行逆向,首先在全局进行搜索我们加密的文件

在不确定文件的时候,可以一个个点击进行搜索,我们当前的文件是第一个双击打开文件,点击左下角大括号进行美化,在当前文件搜索对应关键字,定位到准确的js代码位置,

nonce是有j函数生成的,xyz是d函数进行加密生成的 ,先解决nonce,去查看j函数,看看他是做了什么操作,打上断点进行调试

可以看出来是生成一个9位数的随机字符,我们直接拿到当前的代码段补js环境

function j() { for (var a = ["0", "1", "2", "3", "4", "5", "6", "7", "8", "9", "a", "b", "c", "d", "e", "f"], b = 0; b < 500; b++) for (var c = "", d = 0; d < 9; d++) { var e = Math.floor(16 * Math.random()); c += a[e] } return c }

// console.log(j()) 1 2 3 4 5 6 7 8 9 10 nonce解决,回过头在看xyz函数,加密的数据是h,h是我们生成的post需要传递的数据拼接起来在加上nonce的值,调用d函数得到加密的数据,

当我们不清楚数据是如何加密的时我们可以找一个加密的平台来进行尝试,看看能不能匹配到我们想要的结果

当前加密为md5加密,那我们可以直接通过Python代码来完成

简易源码分享 #!/usr/bin/env python

-- encoding: utf-8 --

@File : 数据采集.py

Author : 柏汌

import requests # 发送网络请求的工具包 import execjs # js执行工具包 from hashlib import md5

with open('dddd.js', 'r')as f: js_code = f.read() js = execjs.compile(js_code) nonce = js.call('j')

print(nonce)

data = { 'end': '2022-07-23', 'rank_name': '个人认证', 'rank_name_group': '', 'start': '2022-07-23', # 加密的数据 'nonce': nonce, } h = '/xdnphb/main/v1/weibo_day/rank?AppKey=joker&end={}&rank_name={}&rank_name_group=&start={}&nonce={}'.format(data['end'], data['rank_name'], data['start'], data['nonce']) xyz = md5(h.encode()).hexdigest() print(xyz) data['xyz'] = xyz

获取到地址 静态数据 动态数据的区分

url = 'www.newrank.cn/xdnphb/main…'

发送请求 浏览器 代码

response = requests.post(url, data=data) print(response.text)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 文章知识点与官方知识档案匹配,可进一步学习相关知识 Python入门技能树进阶语法列表推导式137441 人正在系统学习中

源码/资料/实战项目,备注:C站

微信名片