3.数据挖掘概念笔记——数据预处理
欢迎转载,转载请标明出处:blog.csdn.net/notbaron/ar…\
数据预处理的方法组织如下:数据清理、数据集成、数据归约和数据变换。
为什么要预处理?
答:数据中存在噪声,存在低质量数据。数据质量包括三要素:准确性、完整性和一致性。
什么是数据清理?
答:现实世界的数据一般是不完整的、有噪声的和不一致的,数据清理试图填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致。
为什么要数据归约?
答:从数据仓库中得到数据集可能非常大,在海量数据上进行复制的数据分析和挖掘将需要长时间,使得分析不现实或不可行。归约技术可以用来得到数据集的归约表示,小得多,但仍接近于原始数据的完整性。
什么是数据变化?
答:数据预处理阶段,数据被变换,使得挖掘过程可能更有效,挖掘的模式可能更容易理解。