首页
首页
BOT
沸点
课程
直播
活动
AI刷题
NEW
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
dwzb
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
jupyterlab——下一代notebook
介绍jupyterlab的高效使用方法
简易多线程爬虫框架
本文使用多线程实现一个简易爬虫框架,让我们只需要关注网页的解析,不用自己设置多线程、队列等事情。调用形式类似scrapy,而诸多功能还不完善,因此称为简易爬虫框架。 我们可以对比下面两个版本,一个是上一篇文章中的使用方法,另一个是进行了一些修改,将一些功能抽象出来,以便扩展功能…
多线程爬虫实现(下)
本文是上一篇文章的续篇,实现基于多线程的 翻页、抓取二级页面。使用豆瓣top250作为例子,为了防止请求过快ip被封,我们每页只抓取5个电影。 这里的整体思路和上一篇文章没有什么区别。分配两个队列,一个存储二级页面的URL,一个存储抓取到的数据。一级页面单独开一个线程,将二级页…
列表与队列——谈谈线程安全
当多个线程同时进行,且共同修改同一个资源时,我们必须保证修改不会发生冲突,数据修改不会发生错误,也就是说,我们必须保证线程安全。 同时我们知道,python中由于GIL的存在,即使开了多线程,同一个时间也只有一个线程在执行。 那么这是否就说明python中多个线程执行时,不会发…
PyCon 2018: SVD推荐系统在Python中的实践
继搜索引擎之后,推荐系统改变了用户与网站之间的交互方式,在提高用户参与度和多样化推荐产品方面有重要的应用。亚马逊有35%的利润来源于它的推荐系统,Netflix有75%的用户根据推荐系统选择电影。 推荐系统是一个非常大的话题,本文介绍一种常用的基于模型的协同过滤算法——SVD(…
多线程爬虫实现(上)
爬虫主要运行时间消耗是请求网页时的io阻塞,所以开启多线程,让不同请求的等待同时进行,可以大大提高爬虫运行效率。 本文基于多线程(这里开启了10个线程),使用github的api,抓取fork cpython项目的所有5千多个项目信息,将数据存储到json文件中。 抓取gith…
玩转python字典与列表(下)
读者可以试着使用这种思想去看上面这些数据,就会明白,为什么某些数据直接可以用pd.DataFrame转化为数据框,他们都相当于二维列表形成的矩阵。一个维度,如果以列表形式呈现则视为行,如果以字典形式呈现则视为列。 1.如果结果是一个字典,简单的用字典生成式等方式不谈。当值是动态…
玩转python字典与列表(中)
这里说明一下,get和setdefault的区别是,当键不存在时,get会返回设置的默认值,而setdefault会将设置好的默认值对应到键上,更改原字典,之后再返回键的值。所以说get不能像setdefault那么用的原因是,初始化时不会自动修改原字典,需要通过赋值实现修改。…
玩转python字典与列表(上)
d是按照列拆分,lt是按照行拆分,ld也是按行拆分,只是每次都带有索引项。 因为ls是以集合为元素的列表,集合是无序,因此转化为字典时,谁作为键谁作为值就不一定了。 可以看到ls无法很好地转化为其他两个,因为集合内部元素是无序的。
str与json.dumps的区别
我们常用json文件存储数据,在写入文件前,通常使用json.dumps函数将python对象转化为字符串再写入文件。但是str函数也可以将字典、列表等转化为字符串,那么我们在写入json文件时可不可以不import json,直接用str来做呢?答案时不可以的。 str转化后…
下一页
个人成就
文章被点赞
659
文章被阅读
106,947
掘力值
2,740
关注了
0
关注者
1,135
收藏集
0
关注标签
1
加入于
2018-02-23