请勿从事任何非法爬虫行为,以下仅作前端技术研究学习。
前端群里一个小伙伴说他用爬虫爬快手,爬到的是韩文.... 说浏览器显示是正常的,但是F12源码里就是韩文... 我也好奇咋实现的...
如下图 , 在dom中是类似于韩文的文字,在页面中显示又是正常的数据,这样就导致了,爬虫在爬取页面敏感数据的时候,得到的是“韩文”,而不是我们想要的数据,以此达到保护敏感数据的目的。
看一眼,如下图,觉得很神奇
但是仔细一研究,嘿,不就是自己定制的一套字体库么,唬谁呢。
我们这个“韩文”复制到网站tool.chinaz.com/tools/unico… 在线转换编码一下,
嘿嘿,知道怎么回事了三。
- ꯎ껾껾뷝 (第一步)
- [b'\\uabce', b'\\uaefe', b'\\uaefe', b'\\ubddd'] (第二步)
- ['4', '0', '0', '1'] (第三步)
反正数字就10个,遍历一次,然后自己写套映射关系。 每次将抓到的“韩文”对比转换一下再入库,就完事啦~