高阶爬虫会遇到的问题

741 阅读2分钟

以下内容以某音做分析案例

签名算法的破解

各大厂为了防止程序采集自己的数据,都会采用各种样式的加密算法,而某音则自研了一套加密算法,以希腊神的名字命名,分别是x-argus、x-gorgon、x-helios、x-ladon、x-khronos、x-medusa,在各大厂中,某音的签名算法破解难度可谓是第一梯队

代码混淆

为了进行反爬,某音将关键代码进行了非常严重的混淆,使用专业软件进行反编译后,仍然难以阅读,给破解工作带来了相当大的难度。

SO文件保护

某音核心加密算法采用C语言编写,并使用了bcf、sub、fla、花指令等技术进行保护,编译成so文件后代码及其复杂,对爬虫开发者汇编语言的功底有较高的要求,破解难度极高。

验证码算法破解

某音会根据不同风控弹出不同验证码,已知的种类就有三种,开发者处理难度较高。某宝更过分有几十种验证码,面对这种情况有条件的可以让算法团队提供模型支撑。当然现在不需要了GPT-4能够解决大部分问题。

账号与设备风控

设备指纹

定向搜集一系列设备相关的参数,例如CPU、内存、手机品牌、分辨率、Wi-Fi信息、mac地址,综合计算出一个指纹,类似于人的身份证,用来标识设备的唯一性,然后根据设备指纹进行风控策略的限制

环境检测

  • 检测屏幕的亮度,如果是非正常用户,为控制成本,屏幕亮度会维持在一个比较低的亮度
  • 检测设备的电池信息,如果是非正常用户,电池会长期维持在满电状态
  • 检测设备的陀螺仪数据,如果是非正常用户,设备长期不会移动,设备的水平度会比较固定
  • 人工智能算法检测,将设备的品牌、内存、系统版本等信息搜集,再对设备的行为进行分析

以上就是现阶段爬虫所面临的最基本的问题

工欲善其事,必先利其器

在我看来数据采集的时候 IP质量尤为关键,低质量的IP早就被各大厂商打上了标签,当你使用的时候,你的设备,你的账号会被快速污染。全部进入风控范围。

这时候大家就想知道在哪获取高质量的IP池了,联系我:tg号 @wolf76132 微信号:j76132846