首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
Tiu飞人
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
275
文章 275
沸点 0
赞
275
返回
|
搜索文章
赞
文章( 275 )
沸点( 0 )
布隆过滤器(bloom filter)的原理及在推荐去重中的应用
在业务中,我需要给每个用户保存1w条浏览记录,之后每一次的返回值都要和历史记录做一个去重,即保证用户不会重复看到同一篇文章. Redis?哪里有那么大内存给你用. Hbase?Hbase我不太了解具体原理,据说每次全量查询有点慢啊(后来听大佬说这点数据无压力的). Mysql?…
[Scikit-learn教程] 02.03 模型选择:预测器及其参数
如前所见,每个预测器对象都带有score方法以判定对于新数据拟合(或预测)的质量,当然是越高越好。 示例:用支持向量分类对数字数据集做分类,并将得分赋值予变量score_svc。 Scikit-learn有一系列类可以用于为交叉验证策略产生训练/测试序列数组。这些类提供spli…
在使用过采样或欠采样处理类别不均衡的数据后,如何正确的做交叉验证?
本文很好的讲述了在进行过采样或者欠采样中会遇到的坑,以及深刻的讨论了欠采样和过采样是否真的可以大幅度提高分类器的性能。
如何用Python网络爬虫爬取网易云音乐歌曲
今天小编带大家一起来利用Python爬取网易云音乐,分分钟将网站上的音乐down到本地。 跟着小编运行过代码的筒子们将网易云歌词抓取下来已经不再话下了,在抓取歌词的时候在函数中传入了歌手ID和歌曲名两个参数,其实爬取歌曲也是同样的道理,也需要传入这两个参数,只不过网易云歌曲的U…
Mysql分表的3种方法
先说一下为什么要分表 当一张的数据达到几百万时,你查询一次所花的时间会变多,如果有联合查询的话,我想有可能会死在那儿了。分表的目的就在于此,减小数据库的负担,缩短查询时间。
用条件随机场CRF进行字标注中文分词(Python实现)
本文运用字标注法进行中文分词,使用4-tag对语料进行字标注,观察分词效果。模型方面选用开源的条件随机场工具包“ CRF++: Yet Another CRF toolkit ”进行分词。
redis缓存队列+MySQL +php任务脚本定时批量入库
需求背景:有个调用统计日志存储和统计需求,要求存储到mysql中;存储数据高峰能达到日均千万,瓶颈在于直接入库并发太高,可能会把mysql干垮。 思考:应用网站架构的衍化过程中,应用最新的框架和工具技术固然是最优选择;但是,如果能在现有的框架的基础上提出简单可依赖的解决方案,未…
下一页
关注了
12
关注者
0
收藏集
1
关注标签
40
加入于
2016-09-28