关于数据分析的探讨

107 阅读3分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程

数据分析与数据挖掘之间的关系

数据分析

  • 定义:简单来说,数据分析就是对数据进行分析。专业的说法,数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。
  • 作用:它主要实现三大作用:现状分析、原因分析、预测分析(定量)。数据分析的目标明确,先做假设,然后通过数据分析来验证假设是否正确,从而得到相应的结论。

数据挖掘

  • 定义:数据挖掘是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。
  • 作用:数据挖掘主要侧重解决四类问题:分类、聚类、关联和预测(定量、定性),数据挖掘的重点在寻找未知的模式与规律;如我们常说的数据挖掘案例:啤酒与尿布、安全套与巧克力等,这就是事先未知的,但又是非常有价值的信息;

数据分析的基本步骤

  • 数据收集几种方式

    • 数据收集一般不是数据分析师的工作 ,会有专人进行数据收集

    • 网络爬虫

    • 数据平台

    • 项目数据库

  • 数据预处理是完成数据到信息的过程:

     1. 对数据进行初步的统计分析,得到数据的基本档案
    
     2. 分析数据的质量,从数据的一致性、完整性、准确性、及时性
    
     3. 根据数据的质量问题对数据进行清洗,包括缺失值处理,噪声处理
    
     4. 特征提取
    
  • 数据分析与建模

    • 确定分析的目标

    • 选定合适的方法

    • 模型的选择

    • 模型预测

    • 优化模型

撰写报告

撰写报告也可以称作数据分析结果的输出,一个没有结果输出的数据分析是一个不完整的数据分析

数据分析报告其实是对整个数据分析过程的一个总结与呈现。通过报告,把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考。一份好的数据分析报告,首先需要有一个好的分析框架,并且图文并茂,层次明晰,能够让阅读者一目了然。另外,数据分析报告需要有明确的结论,没有明确结论的分析称不上分析,同时也失去了报告的意义,因为我们最初就是为寻找或者求证一个结论才进行分析的,所以千万不要舍本求末。最后,好的分析报告一定要有建议或解决方案。

python和数据分析

数据分析包括的范围很广,工具也有很多 我们常用的Excel也是做数据分析的工具,它对于小数据的处理非常优秀,可以让我们快速的进行分析。但是实际生活中的数据量都非常的巨大,在使用Excel进行数据分析就有点力不从心。所以我们选择使用Python

  1. Python有强大的第三方库Numpy,Pandas,Matplotlib等
  2. python是面向生产的
  3. 可以灵活的对数据进行处理
  4. python胶水语言的特性
  5. 建立模型非常便捷
  6. 数据可视化