数据可视化day1

314 阅读4分钟

「这是我参与2022首次更文挑战的第8天,活动详情查看:2022首次更文挑战

解构数据可视化

学习目标:

  • 了解数据可视化的基本流程,牢记4个关键步骤
  • 熟悉可视化视觉映射的基本原理及其三要素

0x01可视化过程

img

1.数据采集

包括内部数据采集和外部数据采集。

内部数据采集是应用企业内部经营数据,涉及到数据埋点,数据库查询;

外部数据采集是通过一些方法获取企业外部数据,如国家公开数据,涉及到爬虫。

以上都是二手数据。

一手数据,指的是通过调查和实验获得,多见于市场调研和科学研究。

2.数据处理和变换

包括数据预处理和数据挖掘两个过程。

预处理是对数据中的噪声和误差进行处理,保证数据的质量;

挖掘是进行统计描述分析以及数据特征,模式等的探索。

常见的数据质量问题:

(1)错误数据:包含了不该有的数据

(2)离群数据:异常值

(3)缺失数据:属性缺失或者数据值缺失

(4)不一致数据:非法数据,存在关联的数据之间关联性错误

(5)重复数据

基于业务的二次数据处理:

(1)降维

(2)数据聚类和切分

(3)抽样统计

(4)统计学和机器学习方法

3.可视化映射(核心)

指将处理后数据信息映射成可视化元素的过程。

可视化元素=可视化空间+标记+视觉通道。

(1)可视化空间:二维或三维

(2)标记:数据属性到可视化几何图形元素的映射。

根据空间自由度的差别,标记可分为点,线,面,体。分别具有零自由度,一维,二维,三维自由度。

比如:散点图:点;折线图:线;矩形树图:面;三维柱状图:体。

(3)视觉通道:从数据属性的值映射到视觉呈现参数。

通常展示的是数据属性的定量信息。

常用的视觉通道包括:标记的位置、大小(长度、面积、体积...)、形状(三角形、圆、立方体...)、方向、颜色(色调、饱和度、亮度、透明度...)等。

比如,散点图就利用了标记的位置和颜色;矩形树图利用了大小和颜色

4.用户交互

可视化的目的,是为了反映数据的数值、特征和模式,以更加直观、易于理解的方式,将数据背后的信息呈现给目标用户,辅助其作出正确的决策

常见交互方式:

(1)滚动和缩放:解决展示屏幕的分辨率过小问题

(2)颜色映射的控制:配置可视化图形颜色

(3)数据映射方式的控制:选择可视化的数据属性和维度

(4)数据细节层次控制:点击显示,根据选择的维度显示

5.用户感知

被动感知图形;

自主交互:可视化参数或维度的选择

0x02四个关键步骤

1.确定主题

确定可视化的数据围绕什么主题或目的。业务运营中具体场景和遇到的实际问题。

比如:公司经营状况,公司某项业务的提出等

2.提炼数据

了解我们拥有的数据,以及如何组织数据

(1)确定数据指标:作为分析和评估的衡量指标

(2)明确数据间相互关系:趋势,比例,对比,分布,区间,地理,关联等

(3)确定重点指标: 考虑only one和why me

3.确定图表

基于数据间相互关系,选择合适的图表类型

趋势:折线图,拟合曲线图,调和图,堆叠面积图,阶梯图

对比:柱状图,条形图,面积图,气泡图,词云

比例:饼图,环状图,矩形树图,堆叠面积图,堆叠柱状图

分布:散点图,气泡图,直方图,概率密度图,茎叶图,箱线图,热力图,地图

区间:仪表盘,进度条,环形进度图

关联:韦恩图,漏斗图,桑葚图,矩形树图,节点关系图

地理:二维(区域地图,道路地图,室内地图);三维(全景地图)

4.布局设计

布局上:聚焦,平衡,简洁

呈现上:对影响呈现的数据的处理;设计层面上的辅助,比如背景颜色,网格线等

0xff参考资料

数据可视化过程

数据可视化的基本流程