首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
数据如琥珀
掘友等级
数据科学家
|
TT
公众号,数据如琥珀,欢迎进群,战斗数据挖掘不再孤独
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
12
文章 11
沸点 1
赞
12
返回
|
搜索文章
赞
文章( 11 )
沸点( 1 )
多分类机器学习中数据不平衡的处理(NSL-KDD 数据集+lightgbm )
数据不平衡问题在机器学习分类问题中很常见,尤其是涉及到“异常检测"类型的分类。因为异常一般指的相对不常见的现象,因此发生的机率必然要小很多。因此正常类的样本量会远远高于异常类的样本量,一般高达几个数量级。 比如: 疾病相关的样本,正常的样本会远高于疾病的样本,即便是当下流行的C…
COVID19 line list 数据集分析 (1) 数据清理
2020 年全球的关键词非COVID19 莫属。虽然现在关于病毒的起源众说纷纭,也引起了不小的外交冲突。作为数据爱好者,还是用数据说话比较靠谱。 COVID19数据来源有很多,这里仅仅选kaggle上的数据,链接如下:https://www.kaggle.com/sudalai…
COVID19 line list 数据集分析 (2) wordcloud 词云分析
上一篇文章(链接)我们对COVID19_line_list数据集进行了清洗以及初步分析。本文中我们将分析如何用词云来展示文本信息的概要。 比如我们从词云百度百科截取文字,制作词云。简单来说,词云就是重要单词的可视化,如下图。 line list 数据集中有两列很重要的文本信息,…
COVID19 data 数据集分析 (3) 各个国家数据统计
第一篇文章和第二篇文章我们对line list 数据集进行清洗,以及对文本内容进行词云分析。 本文中我们将要对主要的数据集covid_19_data.csv进行清洗和分析。 这个数据集包含了所有受影响的国家的确诊,死亡,治愈人数的统计信息。 有一些国家,比如中国,美国,意大利等…
COVID19 data 数据集分析 (4) --Bar Race (python制作动态排名视频)
上一篇我们对数据进行了重新布局,布局后的数据结构方便我们进行柱状图可视化以及弹道分析。 今天我们来学习使用该数据集执着更酷炫的动态排名视频。 一如既往,直奔代码。 数据源就是我们一直分析的COVID19 data 数据,可以去kaggle 下载。 导入我们所需的库,相比于之前的…
Energy Consumption (能源消耗)数据集预测(1):1小时从听说prophet 到完成预测(含安装)
上个专辑我们分析了COVID19的数据,主要从可视化的角度进行了分析。 其实 kaggle上COVID19的数据集多达上千个(链接)。 有兴趣的可以下载更多的内容研究,后续我也会考虑使用其中一部分数据进行建模。 今天我们来入手另一个经典数据集,Energy Consumptio…
Energy Consumption (能源消耗)数据集预测(2): 传统季节性信号分解PK prophet
上一篇我们讲解了如何在2小时快速完成时间序列的预测。采用的算法是facebook的prophet。文末,我们留了一个问题:如何知道我们快速创建的prophet的模型相对是好还是坏? 我一直信奉的原则是:机器学习,尤其是优化问题,一定要先找到一个baseline。之后我们就可以找…
Energy Consumption (能源消耗)数据集预测(3): lightgbm再立标杆
前两篇文章,我们分析分别用了prophet 和 seasonal_decompose 对信号进行了分解。机器学习中一直流程的一段话:模型和特征工程决定了结果的极限,调参只是逼近这个极限。 所以本人一般不喜欢简单粗暴的调参,而是喜欢在模型上多试几次,或者在特征上变一下。 今天我们…
线程,进程,协程, 并发,并行,同步,异步概念解析
我相信线程,进程,协程, 并发,并行,同步,异步这几个概念大家在编程过程中肯定会遇到,但是偏偏这几个概念又那么类似,很容易让人模糊,今天我就用这一篇文章来和大家梳理一下这几个概念。 1. 同步与异步 当我们同步的执行某个任务时,我们需要等到这个任务执行完给我们反馈结果,我们才能…
下一页
个人成就
文章被点赞
16
文章被阅读
15,223
掘力值
285
关注了
4
关注者
8
收藏集
0
关注标签
16
加入于
2020-05-11