首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
青南
掘友等级
高级数据挖掘工程师
|
红杉中国
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
110
文章 63
沸点 47
赞
110
返回
|
搜索文章
赞
文章( 63 )
沸点( 47 )
Bug or Feature?藏在 requests_html 中的陷阱
在写爬虫的过程中,我们经常使用 XPath 来从 HTML 中提取数据。例如给出下面这个 HTML: 如果我们使用 lxml 来提取里面的你好、世界、你好、产品经理。 首先使用 XPath 获取class="one"这个 div 标签。由于这里有两个这样的标签,所以第28行的 …
以为是高性能神仙算法,一看源代码才发现...
在昨天的文章中,我们讲到了 RSA 算法。RSA 算法的根本原理中,有两个核心质数 p和 q,他们相乘得到一个数 n。由于反向从 n 分解出 p 和 q 非常困难,所以只要 p 和 q 足够大,RSA 算法在现在的计算机水平下就无法被破解。 现在,你先暂停一下,打开百度或者 G…
别怕,我们的聊天消息,没人能偷看
由于众所周知的原因,国内的各大邮箱、聊天 App 都会监控你接收和发送的信息。如果你需要传递一些绝密内容应,显然你需要对你的内容进行加密。 但是加密的密码你怎么告诉别人呢?打电话说吗?如果是一对一的沟通,这种方式确实没有问题。 但如果现在是单向联系,多个人给你发信息。你想让所有…
在 Linux/Mac 下为Python函数添加超时时间
我们在使用 requests 这类网络请求第三方库时,可以看到它有一个参数叫做timeout,就是指在网络请求发出开始计算,如果超过 timeout 还没有收到返回,就抛出超时异常。(当然存在特殊情况timeout 会失效,请看Timeouts and cancellation…
一篇文章理解Python异步编程的基本原理
未闻 Code 已经发布过很多篇关于异步爬虫与异步编程的文章,最近有读者希望我能深入介绍一下 asyncio 是如何通过单线程单进程实现并发效果的。以及异步代码是不是能在所有方面都代替同步代码。 假设你需要用电饭煲煮饭,用洗衣机洗衣服,给朋友打电话让他过来吃饭。其中,电饭煲需要…
浅度测评:requests、aiohttp、httpx 我应该用哪一个?
在 Python 众多的 HTTP 客户端中,最有名的莫过于requests、aiohttp和httpx。在不借助其他第三方库的情况下,requests只能发送同步请求;aiohttp只能发送异步请求;httpx既能发送同步请求,又能发送异步请求。 所谓的同步请求,是指在单进程…
四则运算表达式如何转换成AST
晓强哥在他的上篇文章里介绍了 里面提到获得抽象语法树的过程为:代码 => 词法分析 => 语法分析 => AST,抱着深究技术细节的目的,我决定研究这里的词法分析和语法分析,写一个简单的四则运算表达式转换成AST的方法,于是就有了下面的内容。 人类习惯 a + b 这种表达叫做…
为什么每一个爬虫工程师都应该学习 Kafka
这篇文章不会涉及到Kafka 的具体操作,而是告诉你 Kafka 是什么,以及它能在爬虫开发中扮演什么重要角色。 再来看看统计关键词的功能,这个功能背后有一个网页,会实时显示抓取数据量的变化情况,可以显示每分钟、每小时的某个关键词的抓取量。 最后一个需求,对微博数据进行情感分析…
一日一技:在 Python 中实现函数重载
假设你有一个函数connect,它有一个参数address,这个参数可能是一个字符串,也可能是一个元组。例如: 这种写法简单直接,但是如果参数的类型更多,那么你就需要写很长的 if-elif-elif-...-else。代码看起来就非常不美观。 学习过 Java 的同学,应该对…
GNE v0.04版更新,支持提取正文图片与源代码
GeneralNewsExtractor以下简称GNE是一个新闻网页通用抽取器,能够在不指定任何抽取规则的情况下,把新闻网站的正文提取出来。 我们来看一下它的基本使用方法。 GNE 现在不会,将来也不会提供网页请求的功能,所以你需要自行想办法获取经过渲染以后的网页源代码。你可以…
下一页
个人成就
优秀创作者
文章被点赞
2,318
文章被阅读
343,609
掘力值
9,504
关注了
1
关注者
3,116
收藏集
1
关注标签
15
加入于
2016-08-15