数挖不是树蛙-数据挖掘-绪论(非科班必备,数据挖掘科班复习必备)

0 阅读6分钟

课程目标:

理解大数据智能分析面临挑战

掌握数据智能分析处理的应用案例

掌握数据清理、数据集成、数据选择和数据变换等相关概念

掌握数据挖掘的功能聚类、分类,关联分析等

掌握数据挖掘运用技术,统计学,机器学习和信息检索等

掌握数据挖掘处理基本流程

课程内容

为什么进行数据挖掘?

要了解这个问题要知道数据挖掘处理的对象大数据,那么什么是大数据呢?大数据是指规模巨大、类型多样、处理速度快到传统技术难以应对,却能通过分析挖掘出巨大价值的数据集合,有价值可理解为一种相对于比如 如何学好数挖这一问题涉及到很多资料信息比如研究对象研究问题 但树蛙这一个词有关的信息如树蛙种类/全球树蛙主要分布 这也是数据,很明显后者对于了解前者这个问题并没有关系,可以说树蛙相关信息并不在数挖这一大数据的范围内。

大数据如何改变商业?

若不是数据挖掘商店里的谁能发现这两者之间具有较大的购买相关性

(1)已获得的大量数据往往是数据丰富但信息贫乏的

(2)计算设备变得廉价且功能强大

(3)没有强大的工具的话,数据量已经超过人类的理解能力

(4)数据收集存储的速度越来越快

(5)传统技术已经不适用于原始数据

(6)数据挖掘有助于科学研究

什么是数据挖掘?

广义技术角度的定义

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息或知识的非平凡过程。

该定义包括好几层含义:

数据源必须是真实的、大量的、含噪声的;

发现的是用户感兴趣的知识;

发现的知识要可接受、可理解、可运用;

并不要求发现放之四海皆准的知识,仅支持特定的发现问题。

狭义技术角度的定义

也有人把数据挖掘视为知识发现过程中的一个基本步骤。例如Fayyad过程模型主要包含以下七个阶段,知识发现过程由这些步骤的迭代序列组成:

知识表示

数据清理

数据集成

数据选择

数据变换

数据挖掘

模式评估

商业角度的定义

数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。

数据挖掘从商业的角度可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。

与相关概念的区别

数据挖掘 vs 数据分析:

数据分析通常有明确的假设和目标,而数据挖掘侧重于探索性发现

数据挖掘 vs 机器学习:

机器学习是数据挖掘的主要技术手段之一,但数据挖掘还包括数据预处理、结果解释等环节

数据挖掘 vs 大数据:

大数据强调数据规模和处理技术,数据挖掘关注从数据中提取知识

IT热点技术联系

数据挖掘数据对象有哪些?

  1. 关系数据库

数据库中数据的特点如下:

数据动态性

数据的不完全性

噪声数据

数据类型不一致

异构性

数据冗余性

数据稀疏性

由于数据库中的数据具有以上特点,使其在挖掘过程中难以直接使用,因此在进行数据挖掘以前必须对数据进行预处理。

2.数据仓库

数据仓库的特点如下:

面向主题

集成的数据

不可更新

随时间不断变化

高质量的挖掘结果依赖于高质量的数据,数据仓库为数据挖掘准备了良好的数据源,因此,数据仓库是数据挖掘的最佳环境。

3.文本

文本是非结构化或半结构化的数据。

文本分析包括:

关键词或特征提取

相似检索

文本聚类

文本分类

4.多媒体数据

图像、音频、视频数据是典型的多媒体数据。

多媒体数据广泛存在于生活、医学、军事、娱乐等领域,

目前,对于多媒体数据的挖掘主要有特征提取、基于内容的相似检索等。

5.Web数据

Web使用模式挖掘:在Web环境中,文档和对象一般都是通过链接来便于用户访问。捕捉用户的存取模式或发现一个Web网站最频繁的访问路径称为Web使用模式挖掘或Web路径挖掘。

Web结构挖掘:是挖掘Web的链接结构,并找出关于某一主题的权威网站。

Web内容挖掘:是指在大量训练样本的基础上,得到数据对象之间的内在特征,并以此为依据进行有目的的信息筛选,从而获得指定内容的信息。

6.复杂类型的数据

  1. 空间数据库

如地理信息数据、卫星图像数据、地下管道、下水道、及各类地下建筑分布数据等。

对空间数据的挖掘可以为城市规划、生态规划、道路修建提供决策支持。

  1. 时间序列数据

主要用于存放与时间相关的数据,它可用来反映随时间变化的即时数据或不同时间发生的不同事件。

例如,连续存放即时的股票交易信息、卫星轨道信息等。

对时间序列数据的挖掘可以发现事件的发展趋势、演变过程和隐藏特征,这些信息对制定计划、决策和预警是非常有用的。

感兴趣的伙伴可以对这些信息进行查找,

数据挖掘发现什么样的知识?

数据挖掘常用技术有哪些?

数据挖掘过程

数据挖掘应用

数据挖掘隐私权问题

数据挖掘学习方法