以下内容以某音做分析案例
签名算法的破解
各大厂为了防止程序采集自己的数据,都会采用各种样式的加密算法,而某音则自研了一套加密算法,以希腊神的名字命名,分别是x-argus、x-gorgon、x-helios、x-ladon、x-khronos、x-medusa,在各大厂中,某音的签名算法破解难度可谓是第一梯队
代码混淆
为了进行反爬,某音将关键代码进行了非常严重的混淆,使用专业软件进行反编译后,仍然难以阅读,给破解工作带来了相当大的难度。
SO文件保护
某音核心加密算法采用C语言编写,并使用了bcf、sub、fla、花指令等技术进行保护,编译成so文件后代码及其复杂,对爬虫开发者汇编语言的功底有较高的要求,破解难度极高。
验证码算法破解
某音会根据不同风控弹出不同验证码,已知的种类就有三种,开发者处理难度较高。某宝更过分有几十种验证码,面对这种情况有条件的可以让算法团队提供模型支撑。当然现在不需要了GPT-4能够解决大部分问题。
账号与设备风控
设备指纹
定向搜集一系列设备相关的参数,例如CPU、内存、手机品牌、分辨率、Wi-Fi信息、mac地址,综合计算出一个指纹,类似于人的身份证,用来标识设备的唯一性,然后根据设备指纹进行风控策略的限制
环境检测
- 检测屏幕的亮度,如果是非正常用户,为控制成本,屏幕亮度会维持在一个比较低的亮度
- 检测设备的电池信息,如果是非正常用户,电池会长期维持在满电状态
- 检测设备的陀螺仪数据,如果是非正常用户,设备长期不会移动,设备的水平度会比较固定
- 人工智能算法检测,将设备的品牌、内存、系统版本等信息搜集,再对设备的行为进行分析
以上就是现阶段爬虫所面临的最基本的问题
工欲善其事,必先利其器
在我看来数据采集的时候 IP质量尤为关键,低质量的IP早就被各大厂商打上了标签,当你使用的时候,你的设备,你的账号会被快速污染。全部进入风控范围。
这时候大家就想知道在哪获取高质量的IP池了,联系我:tg号 @wolf76132 微信号:j76132846