首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
爬虫
订阅
你睡着了嘛
更多收藏集
微信扫码分享
微信
新浪微博
QQ
11篇文章 · 0订阅
剖析灵魂,为什么aiohttp默认的写法那么慢?
在上一篇文章中,我们提到了aiohttp官方文档中的默认写法速度与requests单线程请求没有什么区别,需要通过使用asyncio.wait来加速aiohttp的请求。今天我们来探讨一下这背后的原因。 我们使用一个可以通过URL设定返回延迟的网站来进行测试,网址为:http:…
逆向操作,把被压平的字典还原成嵌套字典
在使用 yield 压平嵌套字典有多简单?这篇文章中,我们讲到,要把一个多层嵌套的字典压平,可以使用yield关键字来实现。 今天,我们倒过来,把一个已经被压平的字典还原成嵌套字典。 要实现这个需求,我们分成两个主要的步骤。 需要注意的是,unpack函数的第一个参数是一个列表…
一线大厂在用的反爬虫手段,看我破!
内容选自即将出版的《Python3 反爬虫原理与绕过实战》,本次公开书稿范围为第 6 章——文本混淆反爬虫。本篇为第 6 章中的第 3 小节 SVG 反爬虫,第 4 小节《用前考虑清楚,伤敌一千自损八百的字体反爬虫》已发,其余小节将逐步放送。 SVG 是用于描述二维矢量图形的一…
一篇文章带你学会两个场景下Selenium爬取动态网页小技巧
selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样,是爬复杂动态网页的必备工具。支持的浏览器包括IE,Mozilla Firefox,Safari,Google Chrome,Opera等。 这里分两个场景,给大…
数据安全(反爬虫)之「防重放」策略
请求参数和返回内容做额外 RSA 加密处理,即使截获,也无法查看到明文。 关于 HTTPS 证书双向认证和 Web 端反爬虫技术方案均在大前端时代的安全性一文中有具体讲解。接下来引出本文主角:防重放 在之前的文章也讲过,HTTPS 依旧可以被抓包,造成安全问题。抓包工具下数据依…
浅度测评:requests、aiohttp、httpx 我应该用哪一个?
在 Python 众多的 HTTP 客户端中,最有名的莫过于requests、aiohttp和httpx。在不借助其他第三方库的情况下,requests只能发送同步请求;aiohttp只能发送异步请求;httpx既能发送同步请求,又能发送异步请求。 所谓的同步请求,是指在单进程…
全面超越Appium,使用Airtest超快速开发App爬虫
想开发网页爬虫,发现被反爬了?想对 App 抓包,发现数据被加密了?不要担心,使用 Airtest 开发 App 爬虫,只要人眼能看到,你就能抓到,最快只需要2分钟,兼容 Unity3D、Cocos2dx-*、Android 原生 App、iOS App、Windows Mob…
看完这篇 Session、Cookie、Token,和面试官扯皮就没问题了
HTTP 协议是一种无状态协议,即每次服务端接收到客户端的请求时,都是一个全新的请求,服务器并不知道客户端的历史请求记录;Session 和 Cookie 的主要目的就是为了弥补 HTTP 的无状态特性。 客户端请求服务端,服务端会为这次请求开辟一块内存空间,这个对象便是 Se…
为 aiohttp 爬虫注入灵魂
听说过异步爬虫的同学,应该或多或少听说过aiohttp这个库。它通过 Python 自带的async/await实现了异步爬虫。 使用 aiohttp,我们可以通过 requests 的api写出并发量匹敌 Scrapy 的爬虫。 我们现在稍稍修改一下,来看看这样写爬虫,运行效…
分分钟教你用node.js写个爬虫
对了,我开通了个人的 个人主页,里面有自己的技术文章,还会有个人的随想、思考和日志。以后所有的文章都会第一时间更新到这里,然后同步到其他平台。有喜欢的朋友可以没事去逛逛,再次感谢大家的支持! 注:因为在写这篇文章的时候用的电脑真心比较渣。安装WebStorm或者VsCode跑项…