2106 - 鹿零超零的收藏集 - 掘金

2106

更多收藏集

24篇文章 · 0订阅

数据分析—缺失值处理

缺失值的删除需要按照具体数据情况和业务情况来处理，有时候需要删除全部缺失数据，有时候需要删除部分缺失数据，有时候只是需要删除指定缺失数据。上面讲到缺失值的填充，但是在实际的数据处理过程中，对于缺失值的处理不是随便找个数据全部填充，而是有针对性的对每个局部缺失值进行插值填充。 …

莫叹
6年前
3.0k
5
评论

【Python数据分析基础】: 数据缺失值处理

再好的模型，如果没有好的数据和特征质量，那训练出来的效果也不会有所提高。数据质量对于数据分析而言是至关重要的，有时候它的意义会在某种程度上会胜过模型算法。本篇开始分享如何使用Python进行数据分析，主要侧重介绍一些分析的方法和技巧，而对于pandas和numpy等Pyhon…

Python数据科学
7年前
6.2k
18
评论

[Scikit-learn教程] 03.01 文本处理：特征提取

在使用机器学习方法解决实际问题的时候，往往我们所得到的并不是纯粹的数据文件，它们有可能是图片、文本、视频等包含有效信息的复杂数据，这时候就需要我们从这些数据中提取数字特征，以便于我们之后的分析和训练过程。本节将介绍Scikit-learn中可用于文本分类的一些功能，它们包括关…

景略集智
8年前
1.9k
4
评论

[Scikit-learn教程] 03.01 文本处理：特征提取

数据处理 | pandas入门专题——离散化与one-hot

今天是pandas数据处理专题第7篇文章，可以点击上方专辑查看往期文章。在上一篇文章当中我们介绍了对dataframe进行排序以及计算排名的一些方法，在今天的文章当中我们来了解一下dataframe两个非常重要的功能——离散化和one-hot。离散对应的反面是连续，离散化也…

梁唐
5年前
1.6k
5
评论

常用的特征工程方法

但是，对于特征工程中引用的新特征，需要验证它的确提高了预测的准确度，而不是加入了一个无用的特征，不然只会增加算法运算的复杂度。时间戳属性通常需要分离成多个维度比如年、月、日、小时、分钟、秒钟。但是在很多的应用中，大量的信息是不需要的。比如在一个监督系统中，尝试利用一个’位置+…

kekoucoule
6年前
1.1k
点赞
评论

解读数据离散化

在数据分析的过程中,数据离散化是我们的经常要处理的事情,呢么究竟什么是数据离散化呢,数据离散化到底有什么作用,今天作者我就来为大家看一下什么是数据离散化。算法需要。例如决策树，NaiveBayes等算法本身不能直接使用连续型变量，连续型数据只有经离散处理后才能进入算法引擎。这…

kekoucoule
6年前
2.2k
点赞
评论

海量数据处理问题知识点复习手册

本文快速回顾了常考的知识点，用作面试复习，事半功倍。本作品采用知识共享署名-非商业性使用 4.0 国际许可协议进行许可。我们只想知道某个元素出现过没有。如果为每个所有可能的值分配1个bit，32bit的int所有可能取值需要内存空间为：但对于海量的、取值分布很均匀的集合进…

蛮三刀酱
6年前
744
6
评论

【Oracle性能优化】!=、NOT NULL、+ 优化分析

接下来小编会做很多很多小实验，有些前提要说明一下，oracle 11g优化器模式Optermizer Mode默认为all_rows，也就是基于cost和统计信息的模式，我们就选它做实验。因为不同的优化器模式，同样的sql语句输出的执行计划是不一样的，我们会穿插一些其他模式的实…

拥抱心中的梦想
6年前
2.9k
14
评论

【Oracle性能优化】!=、NOT NULL、+ 优化分析

干货丨高频数据处理技巧：非等间隔的时间序列处理

高频时间序列的处理中，经常会用到滑动，偏移，聚合，转置，关联等操作。譬如说我想对一个某指标列用过去一个小时的数据的均值来做平滑处理，又或者想找到每一个时刻，该指标一个小时前的相应的指标值。如果序列中每

DolphinDB
5年前
1.2k
点赞
评论

Oracle数据库基础

看此文最好是有MySQL基础再看。 Oracle是非常强大的数据库软件。默认端口：1521。与MySQL不同的是，Oracle数据库的概念是一个操作系统装的就是一个大的数据库。一个数据库可以有很多个实例，每个实例占用一系列的进程和内存。通常一台机器只用一个实例。每个实例可以有很…

huibox
5年前
2.6k
16
3