《谁说菜鸟不会数据分析——入门篇》读书笔记

209 阅读5分钟

这是我参与更文挑战的第5天,活动详情查看:更文挑战

作者:可乐

来源:可乐的数据分析之路

转载请联系授权(微信ID:data_cola)

一、数据分析那些事儿

1、什么是数据分析

数据分析指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。

2、数据分析分类

有描述性数据分析、探索性数据分析、验证性数据分析

3、数据分析作用

用来进行现状分析(如日报、周报等)、原因分析(如专题分析)、预测分析三种情况

4、数据分析的步骤:

明确分析目的和思路——收集数据——数据处理——数据分析——数据展现——报告撰写

5、常用指标和术语:

  • 平均数
  • 绝对数
  • 相对数:倍数、成数、百分数
  • 百分比
  • 百分点:1个百分点=1%,是指变动的幅度
  • 频数:绝对数,是一组数据中个别数据重复出现的次数
  • 频率:相对数,次数与总次数的比。
  • 比例:相对数,总体中各部分占全部的比,如:男生的比例是30:50
  • 比率:相对数,不同类别的比,如男女比率俄日3:2
  • 倍数:相对数,一个数除以另一个数所得的商,如A/B=C,那么A是B的C倍。
  • 番数:相对数,指原来数量的2的N次方,如翻一番,意思是原来数量的2倍,翻两番意思是4倍
  • 同比:相对数,指历史同时期进行比较,如去年12月与今年12月相比是同比
  • 环比:相对数,指与前一个统计期进行比较,如今年5月与今年4月相比是环比

二、明确分析思路

1、常用的数据分析方法论:

  • PEST分析法:用于宏观环境的分析。political(政治)、economic(经济环境)、social(社会环境)、technological(技术环境)
  • 5W2H分析法:why what who when where how how much
  • 逻辑树分析法:将问题的所有子问题分层罗列,逐步向下扩展
  • 4P营销理论:product(产品)、 price(价格)、 place(渠道)、 promotion(促销)
  • 用户行为理论:认知——熟悉——试用——使用——忠诚

三、数据准备

1、数据类型:字符型、数值型

2、数据来源

四、数据处理

1、数据清洗:

重复值的处理:countif、透视表、删除重复值、条件格式 缺失值得处理:定位输入、查找替换、条件格式

2、数据抽取

字段分列:分列、left/right 字段合并:concatenate、& 字段匹配:vlookup

3、数据计算

4、数据分组

5、数据转换:

行列转换、多选题录入方式转换

6、数据抽样:

rand

五、数据分析

1、数据分析方法:

  • 对比分析法:静比、动比
  • 分组分析法:组距
  • 结构分析法
  • 平均分析法:
  • 交叉分析法:分析两个变量之间的关系
  • 综合评价分析法:标准化、权重确定
  • 杜邦分析法:
  • 漏斗图分析法:
  • 矩阵关联分析法:第一象限(高度关注区)、第二象限(优先改进区)、第三象限(无关紧要区)、第四象限(维持优势区);发展矩阵、改进难易矩阵

2、数据分析工具:

数据透视表

六、数据展现

1、通过关系选择图表:

  • 成分:饼图、百分比堆积柱形图、百分比堆积条形图、瀑布图
  • 排序:柱形图、条形图、气泡图、帕累托图
  • 时间序列:折线图、柱形图、、面积图
  • 频率分布:柱形图、条形图、折线图
  • 相关性:柱形图、对称条形图(旋风图)、散点图、气泡图
  • 多重数据比较:雷达图

2、表格:

  • 突出显示单元格
  • 数据条
  • 图标集
  • 迷你图

3、其他好看的图:

  • 平均线图
  • 双坐标图
  • 竖形折线图
  • 瀑布图:成分
  • 帕累托图:按照发生频率高低顺序绘制的直方图
  • 旋风图
  • 人口金字塔图
  • 漏斗图
  • 矩阵图、发展矩阵图

七、图表规范化

1、图表元素:

标题、图例、单位、脚注、资料来源

2、注意事项:

  • 饼图:从12点钟开始、数据保持在5项以内、不要使用饼图分离、不需要图例、不要3D效果
  • 柱形图:同一数据序列使用相同的颜色、不要使用倾斜的标签、纵坐标轴一般从0开始、最好添加数据标签、刻度线和网格线多余、可以设置为Arial字体
  • 条形图:同柱形图
  • 折线图:线条不要超过5条、不要使用倾斜标签、纵坐标轴一般从0开始、刻度线和网格线多余、预测值用虚线表示

3、图表美化:

简约 整洁 对比 最大化数据墨水比:图表中每一滴墨水都要有存在的理由 去掉不必要的背景填充色 去掉无意义的颜色分类 去掉装饰性的渐变色 去掉网格线、边框 删掉不必要的图例 去掉不必要的坐标轴 去掉装饰性图片 以上不能去掉的元素尽量淡化 对需要强调的数据元素进行突出标识 2、找出隐形的线 3、图表喜欢的数字格式:Arial字体 4、突出对比:直线、箭头、阴影等

八、数据分析报告

1、数据分析报告的作用:

  • 展示分析结果
  • 验证分析质量
  • 提供决策参考

2、数据分析报告的种类

  • 专题分析报告:单一性、深入性:切忌蜻蜓点水,泛泛而谈
  • 综合分析报告:全面性、联系性:从宏观角度反映指标之间关系
  • 日常数据通报:进度性、规范性、时效性

3、数据分析报告的结构

标题:解释基本观点、概况主要内容、交代分析主题、提出问题 目录 前言:背景分析、目的、思路 正文: 结论与建议 附录:补充,不是必需。