抓取快手前端页面敏感数据反爬虫研究

1,013 阅读1分钟

请勿从事任何非法爬虫行为,以下仅作前端技术研究学习。

前端群里一个小伙伴说他用爬虫爬快手,爬到的是韩文.... 说浏览器显示是正常的,但是F12源码里就是韩文... 我也好奇咋实现的...

如下图 , 在dom中是类似于韩文的文字,在页面中显示又是正常的数据,这样就导致了,爬虫在爬取页面敏感数据的时候,得到的是“韩文”,而不是我们想要的数据,以此达到保护敏感数据的目的。

image.png 看一眼,如下图,觉得很神奇

但是仔细一研究,嘿,不就是自己定制的一套字体库么,唬谁呢。

image.png

我们这个“韩文”复制到网站tool.chinaz.com/tools/unico… 在线转换编码一下,

image.png 嘿嘿,知道怎么回事了三。

  1. ꯎ껾껾뷝 (第一步)
  2. [b'\\uabce', b'\\uaefe', b'\\uaefe', b'\\ubddd'] (第二步)
  3. ['4', '0', '0', '1'] (第三步)

反正数字就10个,遍历一次,然后自己写套映射关系。 每次将抓到的“韩文”对比转换一下再入库,就完事啦~