最近在对一个暗网的网站进行检测,他的请求头参数是这样的。
Host: torsearch.com
Cookie: cookielawinfo-checkbox-necessary=yes; cookielawinfo-checkbox-functional=no; cookielawinfo-checkbox-performance=no; cookielawinfo-checkbox-analytics=no; cookielawinfo-checkbox-advertisement=no; cookielawinfo-checkbox-others=no; _ga_QP8L9RRDET=GS1.1.1726193667.1.0.1726193667.0.0.0; _ga=GA1.1.653157121.1726193667
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:129.0) Gecko/20100101 Firefox/129.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/png,image/svg+xml,*/*;q=0.8
Accept-Language: zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2
Accept-Encoding: gzip, deflate, br
Upgrade-Insecure-Requests: 1
Sec-Fetch-Dest: document
Sec-Fetch-Mode: navigate
Sec-Fetch-Site: none
Sec-Fetch-User: ?1
Priority: u=0, i
Te: trailers
request之后的结果是乱码
在burpsuite上的返回结果是正常的。
后续发现在代码里面直接去掉或者注释掉Accept-Encoding: gzip, deflate, br,就能正常返回结果,这样我就可以基于后续的结果来判断,有没有公司资产被泄露到暗网上了。
我发现有的人爬虫特别讲究一个快,虽然有的时候这样的诉求并没有太必要,少数的恶意爬虫人群,导致网站所有者不得不费尽心思去增加爬虫的难度,这也证明了少数人作恶,大多数人买单的情况。
Accept-Encoding: gzip, deflate, br,增加一个这个请求头就可以让返回包乱码确实还是比较方便的。