首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
爬虫
订阅
kande
更多收藏集
微信扫码分享
微信
新浪微博
QQ
13篇文章 · 0订阅
这种反爬虫手段有点意思,看我破了它!
这种反爬虫手段被广泛应用在一线互联网企业的产品中,例如汽车资讯类网站、小说类网站等文字密度较大的站点。在开始学习之前,我们先来看看具体的现象。打开网址: 这次的任务,就是拿到页面上所呈现的内容的文本。在编写爬虫代码之前,我们要做几件事: 其实就是最基本的观察和分析。 一个 ht…
puppeteer+mysql—爬虫新方法!抓取新闻&评论so easy!
Puppeteer 是 Google Chrome 团队官方的无界面(Headless)Chrome 工具。正因为这个官方声明,许多业内自动化测试库都已经停止维护,包括 PhantomJS。Selenium IDE for Firefox 项目也因为缺乏维护者而终止。 本文将使…
大前端时代安全性如何做
网站的数据通过最早期的前后端分离来实现。稍微学过 Web 前端的工程师都可以通过神器 Chrome 分析网站,进而爬取需要的数据。打开 「Network」就可以看到网站的所有网络请求了,哎呀,不小心我看到了什么?没错就是网站的接口信息都可以看到了。比如 “detail.json…
数据安全(反爬虫)之「防重放」策略
请求参数和返回内容做额外 RSA 加密处理,即使截获,也无法查看到明文。 关于 HTTPS 证书双向认证和 Web 端反爬虫技术方案均在大前端时代的安全性一文中有具体讲解。接下来引出本文主角:防重放 在之前的文章也讲过,HTTPS 依旧可以被抓包,造成安全问题。抓包工具下数据依…
Web 端反爬虫技术方案
本人从这2个角度(网页所见非所得、查接口请求没用)出发,制定了下面的反爬方案。 根据业务需要根据 SQL 语句生成对应的数据。如果是数字部分,则需要按照上面约定的方法加以转换。 然后为了防止爬虫人员查看 JS 研究问题,所以对 JS 的文件进行了加密处理。如果你的技术栈是 Vu…
隐式 Style–CSS 在反爬虫中的应用
上面的这段话对于没做过前端开发的朋友而言,看着可能会有点难懂,没关系,我们用个例子简单地演示一下。 那么类似这样的反爬技术应该怎么处理呢?咸鱼准备了一个例子简单实战一下,用实例讲讲我遇到这类反爬是如何处理的。 由于这个例子比较简单,所以这里我就省略掉分析请求的步骤了,直接来分析…
k 近邻算法解决字体反爬手段|效果非常好
字体反爬,是一种利用 CSS 特性和浏览器渲染规则实现的反爬虫手段。其高明之处在于,就算借助(Selenium 套件、Puppeteer 和 Splash)等渲染工具也无法拿到真实的文字内容。 这种反爬虫手段通常被用来保护页面中的关键数据,例如影片票房、外卖平台的商家电话、汽车…
一线大厂在用的反爬虫手段,看我破!
内容选自即将出版的《Python3 反爬虫原理与绕过实战》,本次公开书稿范围为第 6 章——文本混淆反爬虫。本篇为第 6 章中的第 3 小节 SVG 反爬虫,第 4 小节《用前考虑清楚,伤敌一千自损八百的字体反爬虫》已发,其余小节将逐步放送。 SVG 是用于描述二维矢量图形的一…
3款你必须知道的爬虫工具
本篇博主将和大家分享几个非常有用的爬虫小工具,这些小工具在实际的爬虫的开发中会大大减少你的时间成本,并同时提高你的工作效率,真的是非常实用的工具。 这些工具其实是Google上的插件,一些扩展程序,并且经博主亲测,无任何问题。最后的最后,博主将提供小工具的获取方式。 好了,话不…