首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
青南
掘友等级
高级数据挖掘工程师
|
红杉中国
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
110
文章 63
沸点 47
赞
110
返回
|
搜索文章
最新
热门
逆向操作,把被压平的字典还原成嵌套字典
在使用 yield 压平嵌套字典有多简单?这篇文章中,我们讲到,要把一个多层嵌套的字典压平,可以使用yield关键字来实现。 今天,我们倒过来,把一个已经被压平的字典还原成嵌套字典。 要实现这个需求,我们分成两个主要的步骤。 需要注意的是,unpack函数的第一个参数是一个列表…
剖析灵魂,为什么aiohttp默认的写法那么慢?
在上一篇文章中,我们提到了aiohttp官方文档中的默认写法速度与requests单线程请求没有什么区别,需要通过使用asyncio.wait来加速aiohttp的请求。今天我们来探讨一下这背后的原因。 我们使用一个可以通过URL设定返回延迟的网站来进行测试,网址为:http:…
为 aiohttp 爬虫注入灵魂
听说过异步爬虫的同学,应该或多或少听说过aiohttp这个库。它通过 Python 自带的async/await实现了异步爬虫。 使用 aiohttp,我们可以通过 requests 的api写出并发量匹敌 Scrapy 的爬虫。 我们现在稍稍修改一下,来看看这样写爬虫,运行效…
如何使用Python读写Kafka?
关于Kafka的第三篇文章,我们来讲讲如何使用Python读写Kafka。这一篇文章里面,我们要使用的一个第三方库叫做kafka-python。大家可以使用pip或者pipenv安装它。下面两种安装方案,任选其一即可。 这篇文章,我们将会使用最短的代码来实现一个读、写Kafka…
Kafka 里面的信息是如何被消费的?
作为一个爬虫工程师,Kafka 对你而言就是一个消息队列,你只需要掌握如何向里面写入数据,以及如何读取数据就可以m'ys'q作为一个爬虫工程师,Kafka 对你而言就是一个消息队列,你只需要掌握如何向里面写入数据,以及如何读取数据就何读取就可以可了。 本文,以及接下来的几篇针对…
为什么每一个爬虫工程师都应该学习 Kafka
这篇文章不会涉及到Kafka 的具体操作,而是告诉你 Kafka 是什么,以及它能在爬虫开发中扮演什么重要角色。 再来看看统计关键词的功能,这个功能背后有一个网页,会实时显示抓取数据量的变化情况,可以显示每分钟、每小时的某个关键词的抓取量。 最后一个需求,对微博数据进行情感分析…
每一位爬虫工程师都应该学习Kafka
本文不含kafka的具体使用代码,而是告诉你什么是kafka,以及如何在爬虫中使用它。
一日一技:在 Python 中实现函数重载
假设你有一个函数connect,它有一个参数address,这个参数可能是一个字符串,也可能是一个元组。例如: 这种写法简单直接,但是如果参数的类型更多,那么你就需要写很长的 if-elif-elif-...-else。代码看起来就非常不美观。 学习过 Java 的同学,应该对…
GNE v0.04版更新,支持提取正文图片与源代码
GeneralNewsExtractor以下简称GNE是一个新闻网页通用抽取器,能够在不指定任何抽取规则的情况下,把新闻网站的正文提取出来。 我们来看一下它的基本使用方法。 GNE 现在不会,将来也不会提供网页请求的功能,所以你需要自行想办法获取经过渲染以后的网页源代码。你可以…
使用 yield 压平多层嵌套字典列表混合数据
在上一篇文章里面,我们讲到了如何使用Python的yield关键字简化代码,压平多层嵌套字典的。 现在,请停下来,敲一敲代码,想想如何把处理列表的逻辑添加进去。 如果你使用return和递归,你可能确实需要这样写。 但如果你使用yield关键字,那么,你虽然也要修改代码,可是修…
下一页
个人成就
优秀创作者
文章被点赞
2,320
文章被阅读
351,812
掘力值
9,526
关注了
1
关注者
3,113
收藏集
1
关注标签
15
加入于
2016-08-15