首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
小太阳
掘友等级
数据分析师
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
22
文章 21
沸点 1
赞
22
返回
|
搜索文章
赞
文章( 21 )
沸点( 1 )
MySql 日常指导,及大表优化思路
除非单表数据未来会一直不断上涨,否则不要一开始就考虑拆分,拆分会带来逻辑、部署、运维的各种复杂度,一般以整型值为主的表在千万级以下,字符串为主的表在五百万以下是没有太大问题的。 而事实上很多时候 MySQL 单表的性能依然有不少优化空间,甚至能正常支撑千万级以上的数据量。 ba…
elasticsearch(六)---索引管理
我们已经看到Elasticsearch如何在不需要任何预先计划和设置的情况下,轻松地开发一个新的应用。并且,在你想调整索引和搜索过程来更好地适应你特殊的使用需求前,不会花较长的时间。它包含几乎所有的和索引及类型相关的定制选项。 在这一章,将介绍管理索引和类型映射的API以及最重…
Spark Streaming VS Flink
本文从编程模型、任务调度、时间机制、Kafka 动态分区的感知、容错及处理语义、背压等几个方面对比 Spark Streaming 与 Flink,希望对有实时处理需求业务的企业端用户在框架选型有所启发。本文篇幅较长,建议先收藏~ Executor:负责执行 task,反馈执行…
使用ELK构建微服务的日志平台
在微服务架构中,会部署众多的应用,其中有基础应用,比如:网关,服务发现等。同时还有大量的业务应用。所以,如何有效的收集它们的日志,并且方便查询,同时提供友好的可视化展示,对于应对微服务架构的复杂性有很大的帮助。在高复杂度的系统中,对于定位线上问题,日志非常重要。ELK(Elas…
推荐系统与协同过滤、奇异值分解
再次感谢作者。 昨天我从Youtube上把PyCon2018和PyData2018两个会议对自己比较有用的视频下载下来,昨天分享的《使用pandas做更好的数据科学》来自PyData2018。受到该演讲者内容启发写了本文。 日常生活中,像亚马逊、淘宝、京东、今日头条等各大互联网…
MySQL 【去重留一】一条sql语句完成 思路总结
前几天在做一个需求的时候,需要清理mysql中重复的记录,当时的想法是通过代码遍历写出来,然后觉得太复杂,心里想着应该可以通过一个sql语句来解决问题的。查了资料,请教了大佬之后得出了一个很便利的sql语句,这里分享下这段sql语句和思路。
大规模数据的去重与排序
业务中可能需要对很大量级(比如 100 亿)的数据(几十 G)进行排序或是去重等操作,在不使用 Hadoop 等工具的情况下如何本地处理呢?
我爬取了37000条球迷评论,知道了这场比赛的重要信息
这两天看恰好有nba决赛,是球迷的你肯定不会错过的,更何况今年的西部决赛是火箭对战勇士,今年的火箭是很强的,因为没到关键时候总会有人站出来。当然,勇士也是挺强的,毕竟不能小看库里杜兰特等四大巨头。 利用词云图一眼就可以看出球迷都在评论什么了,因为我爬取的是火箭主场对战勇士的第二…
机器学习算法总结--GBDT
GBDT是一个基于迭代累加的决策树算法,它通过构造一组弱的学习器(树),并把多颗决策树的结果累加起来作为最终的预测输出。
下一页
关注了
29
关注者
1
收藏集
9
关注标签
75
加入于
2018-02-22