第一章 基础概念

50 阅读2分钟

一丶数据分析和数据挖掘的定义和概念

当前为数据分析起步,对于基础概念目前打算是极其粗略的过一遍即可,未来具体实践之后,对于当前基础的逻辑上的概念才会有更深一步的认识。

1.关于定义

什么是数据分析? 数据分析是指用适当的统计分析的方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 ——《百度百科》

什么是数据挖掘? 数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。是KKD(knowledge discovery of database,数据库中知识发现)不可缺少的一部分。——《数据挖掘导论》 Pang-Ning Tan等著

所以数据分析的流程大致就是:输入数据 -> 数据预处理 -> 数据挖掘 -> 后处理 -> 信息

2.关于差异

数据分析和挖掘都是“投入数据,产出信息”的过程,有很多相似之处,但是也有具体化的差异

image.png

二丶数据分析及数据挖掘的层次及职业发展

image.png

三丶数据分析及数据挖掘的模型框架

首先,这两个工作三个大的要素是:工具,思维,理论。

关于工具:R语言,python,SPSS,spark,SQL等等

关于思维:

  1. 树:把多个因素层层解析成一个树状图,树状图遵循完全互斥,完全穷尽,最后得出结论。或者把一个结论层层剖解,最后得出造成这个结论的原因
  2. 田:将一个结论分解成一个田字形的矩阵中进行分析 (上述两种方案理解的不是很好,之后具体用了回来修改)

关于理论:

image.png

总结:第一部分了解到了数据分析/挖掘的定义和概念,第二部分了解到了数据分析/挖掘的业务或者遇到的问题需要解决时,需要经历的层次,第三部分大概介绍了数据挖掘/分析的三大要素,给未来学习有一个大概的框架。