2.数据挖掘概念笔记——认识数据
欢迎转载,转载请标明出处:blog.csdn.net/notbaron/ar…\
数据集由数据对象组成。一个数据对象代表一个实体。
数据对象用属性描述。
数据对象又称样本、实例、数据点或对象。
1. 属性
属性是一个数据字段,表示数据对象的一个特征。一般,属性、维、特征和变量可以互换使用。
标称属性的值是一些符号或事物的名称。
二元属性是一种标称属性,只有两个类别或状态:0或1.
序数属性,可能的值之间具有有意义的序或秩评定。
数值属性是定量的,可度量的量,用整数或实数值表示。
机器学习领域开发的分类算法通常把属性分成离散的或连续的。
2. 数据的基本统计描述
对于成功的数据预处理而言,把握数据的全貌是至关重要的。基本统计描述可以用来识别数据的性质,凸显哪些数据值应该视为噪声或离群点。
有三类基本统计描述。
中心趋势度量:均值、中位数、众数和中列数。
数据的散布:极差、四分位数、四分位数极差、五数概括和盒图,以及数据的方差和标准差。
图形化:使用基本统计描述的许多图形显示来可视化地审视数据,分位树图、分位数-分位数图、直方图和散点图。
3. 数据可视化
数据可视化通过图形表示清晰有效地表达数据。
基于像素的可视化技术,是一种可视化一维值的简单方法。
几何投影技术帮助用户发现多维数据集的有趣投影。主要挑战是设法解决如何在二维显示上可视化高维空间。
基于图符的可视化技术使用少量图符表示多维数据值。
层次可视化技术:对于大型高维数据集,很难同时对所有维可视化,层次可视化技术把所有维划分成子集,这些子空间按层次可视化。
早起,可视化技术主要用于数值数据。最近越来越多的非数值数据已经成为可利用的。可视化和分析这类数据引起来更多关注。
4. 度量数据的相似性和相异性
在聚类、离群点分析和最近邻分类等数据挖掘应用中,需要评估对象之间相互比较的相似或不相似程度。